מחסום בינתי: למה מתעכבת חדירת ה- GenAI לאולפני המדיה ויצירת התוכן
- 12 בינו׳ 2025
- זמן קריאה 12 דקות
עודכן: 24 בפבר׳ 2025
או: החודש האחרון היה שיאה של שנה גדושה בהשקות שירותי Video-Generation, אך בפועל, הם כמעט לא אומצו בתעשייה. מה גורם לחברות ה- Media & Entertainment להתמקד דווקא ב- Productivity ולא ב- Creativity?

השבוע נזכרתי, מול שלל סיכומי 2024, בשיחה שהיתה לי עם חבר ממש בתחילת עונת הכדורגל באנגליה, שעניינה: מה אנחנו מצפים שיקרה עם קבוצתנו האהובה, מנצ'סטר יונייטד. למי שלא בקיא ברזי הפרמייר ליג, יונייטד הפכה לסמל הבינוניות, היעדר משחק מאורגן וקארמת פציעות אינסופית, שהיא תולדה בפועל של צוות רפואי כושל. מעל הכל עמד המאמן (דאז) טן האח, שהדגים ממשחק למשחק עד כמה עזיבתו של פרגוסון מוכיחה שאין לכל אדם תחליף. פייר, אלה מראות קשים. השורה התחתונה של שיחת הציפיות היתה די צנועה (במונחים של היונייטד): להיות בחמישייה הראשונה, להעפיל למפעל אירופאי (אולי אפילו כניסה לליגת האלופות) ומי יודע, אולי להשיג את ה- FA Cup, או את גביע הליגה הפחות נחשב. כל הנפה תתקבל בברכה.
השנה הזו לצערנו, אפילו לאחר החלפת המאמן, היא גרועה מקודמתה, או כמו שנאמר: "ממש כשחשבנו שאי אפשר לרדת יותר, גילינו שאפשר". אבל לעניינינו, זו לא הפואנטה. מה שהתחבר לי לסיכומי השנה, היה שאותה שיחה עם חבר היתה זהה לזו שקיימנו שנה קודם לכן. אותה אכזבה ותסכול מרמת הקבוצה, אותן ציפיות להישגים "רציונליים" ואותן דרכי פעולה לשיפור המצב: שלום למאמן (מה שבוצע כאמור), לסלק את מגווייר, להחליף את הצוות הרפואי, וכמובן, להתפלל לפרישתם של הבעלים – משפחת גלזר השנואה. וכשאותם דברים נאמרים שנה אחר שנה, בין אם בשיחות טרום עונה ובין אם בסיכומי שנה - אז אנחנו בסוג של סטגנציה. והיונייטד בסטגנציה.

אז איפה הסיפור הזה פוגש אותנו? בעולמנו המוצרי, אחד המקומות הבולטים ביותר בעיני הוא דווקא תחום שאמור היה לזנק בשנת 2024 – ולכאורה, אכן עשה זאת. אל תפלו מהכיסא כשאומר שמדובר בתחום החם ביותר לאחרונה – Video Generation. כן כן, כל אותן אפליקציות שמאפשרות יצירת סרטוני וידיאו באמצעות בינה מלאכותית, על בסיס פרומטים של טקסט. על פניו, החזון של התחום הוא יכולת ליצירת תכני וידיאו מלאים, ברמה ויזואלית של סרטים אמיתיים וחיים, רק דרך יכולות ה- GenAI. זוהי התפישה המקובלת של היעד אליו אמורה להגיע הטכנולוגיה הזו, ומכאן גם השיח סביב הפוטנציאל שלה ובאותה נשימה הפחד ממנה. שני האלמנטים הנוגדים הללו הם גם מה שהביא לכך שאותו שיח סביב ה- Video Generation בתחילת 2024, נשאר דומה לזה של תחילת השנה הזו.
אבל לפני שאגיע להסבר על המקום האמיתי בו מצויה הטכנולוגיה הזו בשימוש בפועל, נתחיל עם הבשורות הגדולות השנה שהפכו אותו לדיבור המרכזי לכל אורכה, עד לשיא של השקות בדצמבר האחרון. אבן הדרך הראשונה היתה השקת גרסת הבטא של Sora, מודל ה- Text-to-Video של OpenAI בפברואר, לאחר ציפייה גדולה של חודשים. הבשורה על השקת המודל יצרה באזז תקשורתי שלא נראה מאז המהפכות הקודמות של החברה (השקת Chat GPT כמובן וגם של מחולל התמונות Dall-E). ההבטחה מאחורי Sora הייתה שמדובר במודל Video-Generation מתקדם ביותר, שיוכל ליצור על בסיס פרומטים מדויקים של המשתמש סצנות וידיאו ריאליסטיות ודמיוניות באורך של עד דקה. הוא יכול לחולל תנועות מצלמה, תאורה, פיזיקת סביבה, אינטראקציות בין דמויות ועוד, תוך שמירה על עקביות. המדהים היה עומקה של הבנת המודל את השפה האנושית, כדי לייצר ממנה הבעת רגשות אצל הדמויות.

הסרטונים הראשונים שחשפה החברה היו מרשימים למדי, תוך הסתייגות שמה שנחשף היו תוצרים שיוצרו ע"י OpenAI עצמה. בחלקם היתה תחושה של פיזיקת תנועה כמו במשחק מחשב, והחברה עצמה הצהירה כי המודל עוד לא מושלם בכל הקשור בדיוק אלמנטים פיזיים מורכבים או בניתוח הקשר בין סיבה לתוצאה. דוגמא לבעייתיות כזו הייתה סצנת אכילת עוגייה: המודל יכול להציג אדם שנוגס באחת כזו, אבל רגע לאחר מכן העוגייה תופיע שלמה וללא סימני נגיסה. בכל מקרה, ההישג הטכנולוגי יצר מהומה ותדהמה מהתוצאות ומהקלות בה יוצרו הסרטונים. תכלס, נראה היה שמדובר בצעד הראשון האמיתי (עם סטמפה של החברה המתקדמת ביותר בתחום) לסיוט של יוצרי התוכן: האפשרות שה- AI יחליף אותם. שביתות השחקנים והתסריטאים בהוליווד שנה לפני הגיעו בדיוק מהחשש הזה.
לא חלפו שבועיים לאחר החשיפה כשהודיע המפיק והבימאי טיילר פרי (שיוצר בעיקר סרטי קומדיה על הוואי ותרבות השחורים בארה"ב), שהוא מבטל השקעת ענק של 800 מיליון דולר בהרחבת אולפני הצילום שלו באטלנטה, לאחר שצפה ביכולות Sora בדמואים שהופצו. הוא הסביר שידע "שזה יגיע השנה" אך לא היה לו מושג על היכולות עד שצפה בסרטונים. מי שחשב שהמודל החדש יגודר בשלב זה להוכחת הטכנולוגיה בלבד, ושהסרטונים יחוללו רק במעבדות "הסטריליות" של Open AI על ידי יוצרים נסיינים מטעמה - טעה. במישור היצירה, החלה החברה לאשר לכמה יוצרים עצמאים חיצוניים להשתמש בכלי ואז חשפה סדרת סרטונים שיצרו באתר שלה. התוצאות חידדו עד כמה הדרך לחולל סרטים עם AI קצרה מאי פעם.

אבל לא פחות מפתיע היה השינוי במישור האסטרטגי של OpenAI. החברה החלה לקיים סדרת פגישות עם בכירים בהוליווד (חברות מדיה, סוכני שחקנים וכו') כדי לעודד את היוצרים לשלב את הכלי החדש בתהליך היצירה. לאחר פגישות אלו, הכניסה OpenAI את האס שלה – המנכ"ל סם אלטמן – לתהליך, והוא נכח במספר אירועים שנערכו בסופ"ש האוסקר כדי לחזק את האסטרטגיה של החברה – שחרור כלי AI בשלבים, כדי לוודא שימוש בטוח ויעיל. OpenAI הכירה גם את החששות משימוש לרעה ב- Sora וגניבת זכויות והיא דיווחה על עבודת מומחים לחיזוק המודל ואפילו בניית כלים לזיהוי של יצירות שנעשו על ידי המערכת, תוך הבטחה שאם המודל ייצא כמוצר ללקוחות הוא יכלול בתוכו רשומות של התכנים בהם השתמש. כך, התוותה OpenAI שוב את הקו בו יתנהל השוק כולו: הן מבחינת סטנדרט הטכנולוגיה והיצירה עצמה, והן בחידוד מענה לחששות השוק, בתקווה שאכן יקבל אותו.
הבעיה ב- Sora היתה שבפועל לא יכל המשתמש הממוצע לעבוד על המערכת, אלא רק "יחידי סגולה" שקיבלו אישור לנסות אותה: תחילה כאמור רק סרטונים שיצרה OpenAI עצמה בתנאי מעבדה, ולאחר מכן יוצרים בודדים בסטודיוז שלהם. התוצאות היו אכן מרשימות, אבל בשורה לקהל (היוצרים) הרחב ברמה הפרקטית לא היתה שם. השוק כמובן, המתין למשהו מעשי יותר, ו- OpenAI הבטיחה שהשקה רשמית לקהל הרחב עוד תגיע. עד אז, המתחרים הקטנים והגדולים לא שקטו על השמרים. כך למשל, לאחר חודשיים, הכריז סטרטאפ מסן-פרנסיסקו בשם Luma AI שגייס למעלה מ- 70 מיליון דולר והשיק שנה לפני מודל Text-to-3D ליצירת תמונות תלת-ממד שזכה לשבחים רבים, על השקת Dream-Machine, מודל Text-to-Video חדש, וטלטל בבת אחת את השוק.

הסיבה המרכזית להתלהבות היתה שההשקה בוצעה בפורמט של בטא פתוחה לציבור, מה שאפשר לכל אחד להתנסות במערכת וביכולותיה. בדומה ל- Sora,Dream-Machine מאפשרת למשתמשים להזין הנחיות תיאוריות (כמו "גור לברדור רודף אחרי כדור על החוף בשעות בין הערביים"), ובתוך כשתי דקות היא מייצרת קטע וידאו ריאליסטי בן חמש שניות התואם את הסצנה. גם קצב העיבוד המוצהר היה מאוד מרשים: פריים אחד בשנייה, כך שתוך 120 שניות יתקבלו 120 פריימים, שהם 5 שניות של סרטון. באופן חכם מנקודת מבט של יחסי ציבור, החברה חשפה את Dream-Machine מוקדם יותר ליוצרי וידאו וקולנוענים בולטים בתחום הבינה המלאכותית, וניתנה להם ההזדמנות לבחון את היכולות שלה ביצירת סרטונים מהודעות טקסט ותמונות סטילס.
עם פתיחת הבטא הפומבית, האמנים ברי המזל האלה החלו לפרסם את עבודותיהם ב- Threads, X וכד', והרשת החלה לגעוש. רוב היוצרים שיבחו את יכולותיה של המערכת להציג בצורה נאמנה למציאות אובייקטים, דמויות, פעולות וסביבות התרחשות, תוך שמירה על תנועה זורמת וסיפור קוהרנטי. משתמשים אחרים ציינו שרמת הדיוק של התוצר לעומת התיאור בפרומט היתה די ספורדית, אך עם זאת, הסרטון הכיל תנועה חלקה ביותר, ללא גליצ'ים, והאובייקטים היו בעלי רזולוציה ורמת פירוט גבוהים מאוד. חלק מהמשתמשים אפילו הכתירו אותה כעליונה על Sora. פרסום ההשקה גרר התנפלות המונית על אתר המערכת, מה שהביא לקריסה הן ביכולת הגישה אליה והן בזמני עיבוד הפריימים. Luna פעלה במהירות כדי להגדיל את Capacity השרתים שלה, ובהמשך היום כבר דיווחה על ירידה משמעותית בזמני ההמתנה.
בתמונה הגדולה, השקת Dream-Machine מייצגת אבן דרך משמעותית בדמוקרטיזציה של יצירת וידאו ע"י AI. בעוד ש- Sora ומתחרות אחרות (דוגמת Kling של Kuaishou הסינית) הציגו יכולות מרשימות, הן נשארו נגישות רק לקבוצה נבחרת של שותפים. Luma לעומת זאת, הפכה את Dream-Machine לזמינה עבור כל אחד להתנסות בחינם באתר שלה, עם תכניות לשחרור APIs ותוספים חדשים עבור תוכנות יצירה פופולריות. הגישה הפתוחה הזו, הדגישה את יתרון הפתיחה של מי שתפעל כמו Luma על פני המתחרות בבניית קהילה אקטיבית של יוצרים ומפתחים סביב הפלטפורמה שלה. בעזרת הורדת חסמי הכניסה, Dream-Machine קיבלה פוטנציאל לעורר גל נוסף של חדשנות ויצירתיות, כשמשתמשים מהשורה חוקרים כל העת אפשרויות חדשות לשימוש בווידיאו שנוצר באמצעות AI ומניעים את המערכת לשיפור תמידי.

אז כך פחות או יותר נפתחה השנה, די בהתאם לציפיות ממנה, אם נחזור לשיחת היונייטד: זינוק חד בפועל של טכנולוגית ה- Text-to-Video ותחילת המעבר שלה מהוכחת יכולות לשימוש בפועל של היוצרים בפרט, והקהל הרחב בכלל. כל זה כמובן מצטרף לצונאמי ענק הממדים של חברות ומודלי AI חדשים והפיכתה של הטכנולוגיה ל"שוברת השוויון בתחומים בהם השוק הפך סטגנטי בעיקר בקרבות העולם הסלולרי, עליהם תוכלו לקרוא בהרחבה בפוסט ״קרב ה- AI על עליונות מוצרית בסמארטפון״.. מערכות ה- Video -Generation גם זינקו בשנה קריטית בעולם ה- Streaming: המשבר הגדול בשוק הטלוויזיה, עת הפך לרווי והפסדי באופן שחייב את השחקניות בו לשנות כיוון מאג'נדת הצפת התוכן של Netflix, פתח הזדמנות לאימוץ נרחב של הטכנולוגיה להוזלת עלויות היצירה, במקביל לקיצוצי עלויות אחרים וקונסולידציה הולכת וגוברת בין יצרניות התוכן הגדולות, עליהן תוכלו לקרוא בהרחבה בפוסט ״שידורי ה- Live: היהלום האחרון (והקשה לליטוש) בעולם הטלוויזיה״.
נעשה עכשיו קפיצה קלה בזמן לחודש דצמבר האחרון, בו הגיעו כאמור מספר בשורות חדשות מהשחקניות הגדולות, המדגישות מחד את ההתקדמות העצומה בתחום ברמה הטכנולוגית וחוויית המשתמש, ומנגד, מחדדות את השאלה הגדולה: מדוע קצב האימוץ כה איטי בקרב יצרניות התוכן המרכזיות (שוק ה- M&E: Media & Entertainment). אז נתחיל ראשית מההשקה הרשמית של Sora בראשית החודש (כמעט שנה לאחר ההכרזה ויציאת הבטא), כחלק מה- "ship-mas": רצף של 12 ימים של השקות והכרזות מטעם OpenAI. מדובר במודל חדש שנקרא Soar Turbo והוא זמין דרך Sora.com למנויי Chat GPT באופן הבא: מנויי ה- Plus יכולים ליצור עד 50 סרטונים (1,000 קרדיטים) ברזולוציות של עד 720p באורך של 5 שניות; ומנויי ה- Pro (שעלותו $200 בחודש והושק לא מזמן) מקבלים "Unlimited Generation" ועד 500 סרטונים ברזולוציית 1080p ומשך זמן של 20 שניות. תכנית ה- Pro מאפשרת למנויים גם להוריד סרטונים ללא water marks ולבצע עד חמש פעולות יצירה בו זמנית.

בין השאר, הוצגו בתוך Sora Turbo פיצ'ר Story Boards המאפשר ליצור סרטונים על סמך רצף של הנחיות, יכולת להפוך תמונות לסרטונים, כלי בשם Remix המאפשר לדייק את התוצר של Sora על-בסיס פרומטי המשך, אפשרות למיזוג שתי סצנות יחד (באמצעות הבינה המלאכותית) ואפילו עמוד Explore עם עדכון של סרטונים שנוצרו על ידי חברי קהילה אחרים. החברה הוסיפה גם שלסרטונים שנוצרו עם Sora יהיו water marks גלויים ו- Meta data של C2PA (Coalition of Content Provenance and Authenticity), כדי לציין שהם נוצרו באמצעות AI. לפני העלאת תמונה או סרטון, OpenAI מבקשת לסמן הסכם שאומר שמה שהמשתמש מעלה אינו מכיל אנשים מתחת לגיל 18, תוכן מפורש או אלים וחומר המוגן בזכויות יוצרים. "שימוש לרעה בהעלאות מדיה" עלול לגרום לחסימת חשבון או להשעיה. ניתן לראות כיצד בצד הבשורות המוצריות, OpenAI רוצה למנוע מראש פעילות בלתי חוקית, אך כל זאת ללא פגיעה בחופש היצירתי. ההשקה אגב, הגיעה שבוע לאחר שקבוצת אמנים, שטענו שהם חלק מתוכנית בדיקות האלפא של החברה, הדליפו את המוצר במחאה על ניצול לכאורה ע"י OpenAI למה שלטענתם היה מחקר ופיתוח ויחסי ציבור ללא תשלום.
באופן מעניין, מספר ימים לפני השקה Sora, הציגה Amazon את ה- Nova reel: מודל ה- Video-Generation שלה, במסגרת כנס ה- re:Invent בלאס ווגאס. המודל הזה הוא חלק מדור שלם של "מודלי יסוד" (Foundation Models) חדשים שהוצגו, הכוללים את Amazon Nova Micro (דגם מהיר מאוד, Text-to-Test); Amazon Nova Lite, Pro ו-Premier (דגמים מולטי-מודליים, שיכולים לעבד טקסט, תמונות וסרטונים ליצירת טקסט); Amazon Nova Canvas (שמייצר תמונות באיכות סטודיו); וכאמור Amazon Nova Reel, שמייצרת סרטונים באיכות אולפן. היקף ואיכות המוצרים חיזקו עוד יותר את ריכוז המאמץ האסטרטגי שעושה החברה בתחרות ישירה עם OpenAI וסדרות מודלים חדשים כמו Grok.

מצידה של Amazon היא מכנה את Amazon Nova Reel ״מודל State-of-the-Art״ בתחום יצירת הווידיאו. ניתן כרגע ליצור סרטונים בני 6 שניות, ובחודשים האחרונים תעלה התמיכה גם לסרטונים באורך של עד 2 דקות. המערכת מיועדת ליצירת תוכן בפרסום, שיווק או הדרכה, והלקוחות יכולים להשתמש בהנחיות בשפה טבעית כדי לשלוט בסגנון הוויזואלי ובקצב, כולל תנועת מצלמה, סיבוב והתקרבות. בהכרזה על המוצר, נטען שהוא מתעלה על דגמים דומים באיכות ובעקביות, על פי הערכות אנושיות Side-by-Side, שבוצעו על ידי צד שלישי, שהעדיף סרטונים שנוצרו על ידי המודל על פני אלו שנוצרו על ידי ה-Gen-3 Alpha של Runway. גם Nova Reel וגם Nova Canvas מגיעים עם יכולות שליטה מובנות לתמיכה בבטיחות ובשימוש בינה מלאכותית אחראית, כולל Water Marks וניהול תוכן.
החברה גם נתנה מספר דוגמאות לחברות שמשתמשות במודל, למשל: Dentsu Digital, חברת שיווק דיגיטלי, שמשלבת את Nova Reel בתהליך הקרייאטיב שלה, ומאפשרת לצוות לשפר ולהאיץ את פיתוח הקמפיינים משלב הבריף, פיתוח קונספט ועד ליצירת תוכן וידאו יצירתי. הפידבק מהחברה היה שהמודל מפחית את הזמן הכולל לייצור אסטים חדשים משבועות לימים. דוגמא נוספת היתה Musixmatch, פלטפורמת המילים הגדולה בעולם עם למעלה מ-80 מיליון משתמשים ומסד נתונים של יותר מ-11 מיליון Unique Lyrics. Musixmatch הכניסה את Nova Reel ב-Musixmatch Pro, כלי שעוזר ליוצרים להפיץ Lyrics בכל שירותי ה- Streaming הגדולים והרשתות החברתיות. אמנים מתפתחים יכולים להשתמש ב- Nova Reel כדי להפיק סרטוני מוזיקה באיכות גבוהה תוך שימוש בהקשר של השירים שלהם כקלט, ולהתאים אותם אישית עם הנחיות בשפה טבעית. אחרונה היא 123RF, פורטל צילום ווידאו עם ספרייה של למעלה מ-200 מיליון תמונות וסרטונים, שמשתמש ב- Amazon Nova Canvas וב- Amazon Nova Reel כדי לפשט את תהליך העיצוב עם כלים חכמים, מהירים וקלים יותר לשימוש עבור יוצרי מדיה חזותית.

גם Google הצטרפה "לחגיגות" דצמבר באמצע החודש, עת DeepMind (מעבדת ה- AI שלה) הכריזה על Veo2, מערכת Video-Generation של הדור הבא, והיורשת של Veo, שמוטמעת כבר היום ביותר ויותר מוצרים של החברה. לפי ההצהרות, Veo 2 מסוגלת ליצור סרטונים של שתי דקות פלוס, ברזולוציות של עד K4 (2160 X 4096 פיקסלים), שזה פי 6 יותר באורך הזמן ופי 4 יותר ברזולוציה, ממה ש- Sora מסוגלת לתת (עד 1080p, ואורך של 20 שניות). בפועל, בעבודה על גבי Video FX (כלי יצירת הווידיאו של Google, שם זמינה Veo 2 בשלב זה והוא מוגבל מבחינת המשתמשים), הסרטונים מוגבלים ל- 720p ואורך של 8 שניות.

כמו Veo, גם Veo 2 יכולה לייצר סרטונים לפי הנחיית טקסט, אולם יש לה יכולת לייצר קטעים "ברורים" יותר וב"הבנה" משופרת של הפיזיקה ובקרות המצלמה. הכוונה היא שהטקסטורות ותמונות בסרטונים חדות יותר, במיוחד באתגרים כמו סצנות עם תנועה, וניתן גם למקם את "המצלמה" הווירטואלית בצורה מדויקת יותר ולהזיזה באופן יעיל לטובת "צילום" אובייקטים מזוויות שונות. בנוסף, Veo 2 מכוונת לייצר באופן מציאותי מאוד תנועה של אובייקטים, דינמיקה נוזלית (כמו קפה שנמזג לספל), ומאפיינים של אור, צללים והשתקפויות, כולל עדשות צילום, אפקטים קולנועיים, ומה שהחברה מכנה "ביטוי אנושי ניואנסי". מבחינת חלק מהחומרים ששותפו ע"י Deep Mind, נראה שאכן ישנה יצירה מרשימה של אלמנטים כמו שבירה ונוזלים, אך מנגד בחלק מהמקרים עלו אלמנטים מיותרים (כמו אצבעות נוספות) שהמערכת היתה אמורה להסיר.

האתגרים הגדולים בתחום, כפי ש- Depp Mind עצמה מציינת, הם קוהרנטיות ועקביות – המערכות מתקשות לדבוק בפרומפטים מורכבים לאורך זמני יצירה ארוכים. במקביל, עדיין יש קושי אמיתי ביצירת פרטים מדויקים ותנועות מהירות. כמו כל מודל AI, גם Veo 2 עברה אימון אינטנסיבי (על כמות עצומה של סרטונים) כדי להפעיל את הלוגיקה במסגרתה המודל מזהה דפוס דוגמאות לצורה מסוימת של נתונים, ואז יכול לייצר על בסיסה נתונים חדשים. דגש גדול במודל זה היה על אימון בצימוד וידיאו-תיאור ברמה גבוהה מאוד (צימוד כזה, Video-Description pairs, הוא בעצם שילוב של סרטון ותיאור משייך של מה שקורה בווידאו). מה שקצת מפריע בכל השימוש הזה לטובת אימונים, הוא ש- DeepMind לא מאפשרת ליוצרים להסיר עבודות ממערכות האימון שלה, בעוד Google חברת האם, מספקת היום שלל כלים לאתרים אחרים לחסום את הרובוטים של DeepMind מלחלץ נתונים מהמאגרים שלהם. לטענת Google, מודלי הכשרה המשתמשים בנתונים ציבוריים הם שימוש הוגן, כלומר אין חובה לבקש רשות מבעלי נתונים.
התפישה הזו כמובן אינה מקובלת על רבים מהיוצרים, מה גם שבפועל מחקרים הצביעו על סיכון לאלפי יצירות מכיוון של אימונים ושימושים ב- AI בכלל, ובעולם ה- Video Generation בפרט. אופן הפעילות של המודלים מביא סכנות רבות, כמו Regurgitation: מצב בו מודל מייצר עותק מראה של נתוני האימון. הפתרון של DeepMind הוא מסננים ברמת פרומט הטקסט שמוזן, כולל תוכן אלים, גרפי ומפורש. מצד סכנות ה- deepfake, החברה משתמשת בטכנולוגיית ה- water marks הקניינית שלה, SynthID, כדי להטמיע סמנים בלתי נראים בתוכן ש- Veo 2 מייצרת.

אני מניח שהשאלה ההגיונית בשלב זה, לאחר סקירת שנה כה עמוסה וחדשנית בתחום, היא "על מה אתה מדבר?"... יש כאן יכולות כמעט דמיוניות, סרטים שנוצרו ומוכיחים שאפשר, דוגמאות לשת"פים ועבודה בפועל על המערכות, אז איפה יש כאן בעיה באימוץ? אז האמת נמצאת במקום אליו מכוונת הטכנולוגיה להגיע, למובילי היצירה האמיתיים והגדולים.
כפי שציינו בראשית הדברים, השתכללות יכולות ה- Gen AI נחשבת בעיני רבים כאיום קיומי על עולם יצירת התוכן. זה מתחיל הן ברמת "המשרה": תסריטאים, מעצבים, בימאים וכד', שלכאורה יהפכו למיותרים, ומגיע עד רמת היצירה האנושית ומה בכלל תהיה הגדרתה. נבואות האימה על הכחדה של היצירה כמו שאנו מכירים אותה מסתובבות כבר כמה שנים, והיוו בין השאר את אחד הטריגרים לשביתת התסריטאים הגדולה לפני כשנתיים. היצע השירותים הולך ועולה, המודלים מתחזקים כפי שאנחנו רואים בקצב מסחרר, ועברו אפילו לשילוב עם מודלים מתחומים אחרים כדי לתת מענה מלא לצרכי היוצר.
אלא שמחקרים מקיפים מהעת האחרונה, שמתמקדים ברובם בהשפעות ה- AI בכלל, וה- GenAI בתחום המדיה בפרט, מביאים רשמים על דאגה גדולה לגבי בשלותה של הבינה המלאכותית, שיחד עם בעיות זכויות יוצרים מעכבת את אימוץ ה- Video-Generation בתעשיית הטלוויזיה והקולנוע. וכל זאת כמובן, דווקא בתעשייה שמחפשת דרכי ייעול לאור הוצאות הענק שלה. ההערכה היא שפחות מ-3% מאולפני ההפקה בארה"ב ובאיחוד האירופי יקדישו את תקציבי ההפקה שלהם לכלי בינה מלאכותית יוצרת ב- 2025, אך 7% מהתקציבים התפעוליים ייועדו לכלי AI התומכים בפעילויות כמו: ניהול חוזים וכישרונות, היתרים ותכנון, שיווק ופרסום, לוקליזציה ודיבוב של תוכן.
נתונים אלו מציגים את הגישה הנוכחית של האולפנים: מחד, השקעה נמוכה בכלי GenAI שחודרים לתחום היצירה עצמה ועלולים לפגוע בכישרונות או ביכולת להביא תוכן מקורי, ומנגד, הרחבת השימוש ב- AI להפחתת עלויות בתחומים פונקציונליים והאצת הביצועים העסקיים. במילים אחרות, שימוש בבינה מלאכותית בתחומי ה- Productivity, שהם מתודולוגיים, מתמטיים ואנליטיים הרבה יותר, וחשש מכניסה של מערכות בעלות "יומרות" יצירתיות לעולם ה- Creativity, מחשש לפגיעה ברמת התוכן ובקיום היצירה עצמה.
מחקרים נוספים חיזקו את ההבנה על הדרך בה מאמצות חברות המדיה בינה מלאכותית: תחילה ככלי HR, Back office, מכירות ושיווק, ובמקביל תוך גישה של "נחכה ונראה" לשילובה ביצירת מדיה. כמעט שני שלישים מהמשיבים ציינו כהשפעות הגדולות ביותר של AI את הגדלת ההמרה (66%), יצירת מוצרים ושירותים חדשים (65%), שיפור הלידים וגיוס לקוחות חדשים וכן עלייה בהכנסות (שניהם 63%). מול זאת - רק 35% דיווחו על שימוש ב-Gen AI בתהליך ה- Production. אימוץ הבינה המלאכותית בפועל בתחום זה היה נמוך בהרבה בהשוואה לתחומי שירות הלקוחות ושיווק, כשיותר ויותר העידו שנדרשת כאן השקעה טכנית וכספית גבוהה מאוד, ולא פחות מכך סובלנות לבעיות ושיבושים.
חשוב להדגיש שבגזרת היוצרים העצמאיים, מה שנקרא Self-Generated-Content יש מעבר חד לשימוש ב- GenAI כחלק מהעבודה השוטפת שלהם. זה עשוי להביא בסופו של דבר להגברת הלחץ מול האולפנים הגדולים לאמץ את הטכנולוגיות החדשות בתחום. ההתקדמות הטכנולוגית היא מהירה מאוד והצופים אכן מתחילים להתקשות בזיהוי תוכן שנוצר ע"י בינה מלאכותית. אחד הכלים החזקים של האולפנים לעכב את ההתקדמות הזו הוא חסימת הגישה של חברות ה- AI למאגרי התוכן שלהם לטובת אימון המודלים, אתגר לא פשוט כפי שהוסבר קודם לכן. הם יכולים למנוע זאת על בסיס הזכויות הקנייניות שלהם, או לגבות תעריפים גבוהים מספיק שלא תהיה רווחיות למפתחים.
יש כאן בסופו של דבר משבר אמון, שמתודלק עוד יותר מהעובדה שמדובר באיום ישיר ומאוד מציאותי. כפי שהתבטאו גורמים שונים מקרב היוצרים, אם היתה ניתנת טכנולוגיה כזו לאומנים מתוך כוונה לאפשר להם כלים לשיפור וחיזוק כוחם היצירתי, אז ההתקדמות הזו היתה חיובית. אבל אף אחד לא מאמין לזה. בסוף היום, מנקודת מבט של יוצר בתעשייה, הכוונה בהטמעת טכנולוגיות כאלו אינה לטובת העצמת האמנים ועידודם לעשות דברים מקוריים יותר באותה עלות. המטרה היא ליצור דברים בעלות נמוכה, לחתוך את האמנים, לשלם פחות לעובדים ולהשתמש בטכנולוגיות לטובת ייעול תהליך היצירה ותו לא.
יתכן שתום תהליך הפנמה יתכנסו האולפנים לשימוש בבינה מלאכותית יוצרת, אך בסוג של קונסולידציה בינן לבין עצמן. העלויות של פיתוח מודל ייעודי הן עצומות, ודורשות גם התמחות ייחודית. ההערכה היא שבסופו של דבר יחדור ה- GenAI עמוק לליבת היצירה של האולפנים, אך על בסיס מודלים מיוחדים שיפותחו במשותף ע"י כמה מהן, ובחיבור עם חברות פיתוח גדולות ומנוסות. ייתכן שבאמצעות יצירת כלים גמישים וייעודיים שניתנים להתאמה לאומן מסוים או אולפן, משהו ברתיעה הנוכחית מהשימוש ב- Video Generation יתעמעם, ויוכל לבוא לידי ביטוי בהעצמת היצירה ומתן יכולת לקהל רחב יותר להביע את עצמו. איך נדע שזה קורה? אולי כמו היונייטד: אם לפני תחילת העונה הבאה תהיה צפייה לאליפות והגעה לגמר ליגת האלופות, אז אולי גם נשמע על ציפייה להמשך הטמעת ה- GenAI באולפנים בהוליווד והבלוקבאסטר הראשון שנוצר באמצעותו.




תגובות