צלילה לעומק הזיוף – הקפיצה הטכנולוגית מאחורי כלי הדיפ-פייק החזק בעולם

24 בפבר׳ 2025
זמן קריאה 11 דקות

עודכן: 12 במרץ 2025

מודל AI חדש, שמאפשר יצירת סרטונים אנושיים ברמה חסרת תקדים, מקרב אותנו יותר מאי פעם ל״משבר האותנטיות של המציאות״

חבר טוב שלי שהוא חובב קולנוע מושבע, אמר לי פעם שדרך מעניינת להכיר בנאדם היא לשאול אותו: איזה סרט של כריסטופר נולאן אתה הכי אוהב? התשובה האינסטינקטיבית שלי היתה: כדאי לבדוק קודם כל אם הוא בכלל חובב של סרטי כריסטופר נולאן, לא? אבל תכלס, עבור מי שמכיר את עבודתו של הבימאי הכי מצליח בעולם, זה יכול להיות לפחות מדד למה מצליח לגעת בנפשו של הנשאל. יש הבדל בין מי שיציין את "האביר האפל" ולמי שרואה את "התחלה" כפסגת היצירה של הבימאי הבריטי. ומי שזוכר את "ממנטו", או אהב את "דנקרק" או הבין את "טנט", או הצליח לעכל את הנפילה לדמיון ב"התחלה" בצפייה ראשונה, הם אנשים שונים לגמרי. אצלי זה יהיה "בין כוכבים": דמעות זלגו מעיני מול המורכבות הרגשית של סרט מדע בדיוני מרתק על הצלת האנושות, שהוא בכלל סיפור על אהבה בין אב לביתו, וכוחה העל טבעי.

לעניינו, נדבר קצת על "אופנהיימר", או כמו שיש הקוראים לו: "סרט האוסקר" של נולאן. בניגוד לסרטים קודמים שלו, אין ב"אופנהיימר" תנועות בין מציאות לדמיון או עיוותים של הזמן. אני מניח שכוחו היה בבניית סיפור על מדען הנרדף בידי כוחות השלטון בשל דעותיו, וההלקאה העצמית שלו על יצירת נשק שמסוגל להשמיד את העולם. היכולת של נולאן להפוך את תהליך בניית פצצת האטום לסרט מתח משובח, ולשלב בתוכו דמויות מוגדרות היטב של טוב ורע (יחד עם סצנה בלתי נשכחת של הפיצוץ בנוואדה, שנוצרה כמעט ללא שימוש בגרפיקה ממוחשבת), הביא את הסרט לזכייה בשבעה פרסי אוסקר, הכנסות של יותר מ- 950 מיליון דולר, והפיכתו לסרט הביוגרפי המצליח ביותר בכל הזמנים.

אותי, ועכשיו באמת "לעניינינו", ריתקה בסרט הצפייה באדם המתקדם ללא מעצורים ליצירת משהו שיביא בוודאות להרג וחורבן. וזה לא משנה לטובת איזה צד. ממדי ההרס של פצצת האטום והמשמעויות התנ"כיות של נשק כזה בידי בני האדם היו ברורות עוד בשנים שהמדע מאחוריה היה תיאוריה שנויה במחלוקת. ועדיין, אופנהיימר התקדם ללא מעצורים לבנייתה. מה המניע, של מי שהתגלה בסופו של דבר כאיש שוחר שלום, להתעקש על השלמת הפיתוח (למרות שגרמניה נכנעה עוד טרם הניסוי הראשון)? האם זו תחושת האחריות שנשק כזה יהיה בידי הצד הנכון? או אולי אמביציה אישית של הגעה להישג כזה, שעיוורה אותו כל הדרך עד לרגע ששינה את העולם?

השאלות הללו עולות בי כשאני מתבונן במרוץ ה- AI באופן כללי, ובמיוחד בהתקדמות מעוררת החשש בתחום הדיפ-פייק. הפחדים שמעוררת הבינה המלאכותית מוכרים לכולם, חלקם נובעים מסרטים משנות השמונים בכיכובו של שוורצנגר, וחלקם מבאזז סביב הנושא, שהקשר בינו לבין היכולות האמיתיות קלוש למדי. אז לא, Skynet עדיין לא כאן ורוב מפתחות ה- AI מדברות היום על Productivity ולא החלפה של יצירתיותו של האדם וכוחה של המחשבה האנושית. על ההטמעה האיטית להפליא של עולם ה- Video-Generation בקרב אולפני המדיה כתבתי בפוסט ייעודי בנושא, וזה ניכר היטב גם באימוץ הנמוך של יכולות בינה מלאכותית בסמארטפונים, שהוגדרו כשובר השוויון בעולם הסטגנטי של חדשנות המוצרים בתחום, כפי שתוכלו לקרוא בפוסט בו תיארתי את הקרב העליונות המוצרית בתחום. אבל AI זה לא הסיפור כאן.

במקרה הדיפ-פייק, מעטים ימצאו הצדקה אמיתית לפיתוחו. לכאורה, זוהי נגזרת לעולם יצירת הווידאו, עם יכולת נוכחית בעיקר ברמת הקוריוזים והמתיחות. אבל כשמדובר בטכנולוגיה שייעודה הוא חיקוי של מציאות ולא יצירה של משהו חדש, פה העניינים מסתבכים. כמו כל נשק, גם כאן לא צריך להיות פושע מועד כדי להבין את הסכנה הגדולה והפוטנציאל הפלילי ביכולת לחקות באופן כה דומה את המציאות, לשם חותר הפיתוח. הבעייתיות הזו ידועה כבר שנים, אבל בכל זאת, עדיין מפתחים בכל העולם ממשיכים לדהור קדימה אל עבר הזיוף המושלם, כמו אופנהיימר אל עבר הפצצה. התהום שמחכה לנו בסוף הדרך ברורה, ואז עולה השאלה, מה מניע אותם לנוע אל עבר הצלילה הזו?

בשנה שעברה החשש משימוש לרעה בדיפ-פייק עלה מדרגה, וזאת בעיקר בשל סדרה של מערכות בחירות במדינות ענק כמו ארה"ב, הודו, בריטניה והפרלמנט האירופי, בהם היו מעורבים לא פחות משני מיליארד בני אדם (כרבע מאוכלוסיית כדור הארץ). בלי ספק קרקע פורייה ומזמינה לשימוש בזיופים לטובת הטיית דעת הקהל והתוצאות. בארה"ב למשל, ממים פוליטיים וסרטונים ויראליים השתרעו על טווח רחב של תוצרים, החל מתמונות שצולמו בפוטושופ וקטעים שהוצאו מהקשרם, ועד לפורטרטים שנוצרו על ידי בינה מלאכותית. אחד הזכורים שבהם היתה תמונה המציגה אמריקאים שחורים כתומכי דונלד טראמפ.

ביולי, אילון מאסק, האיש העשיר בעולם שתמך בטראמפ באופן חסר תקדים (הן ציבורית והן פיננסית), שיתף מודעה מזויפת ברשת החברתית שלו X שכללה שיבוט בינה מלאכותית של קולה של קמלה האריס, כשהיא מתארת את עצמה כ- "Diversity hire" (מעין "גיוס לטובת גיוון תעסוקתי", שכן היא גם אישה וגם צבעונית), מבלי לחשוף שהסרטון פורסם במקור כפרודיה. הוא גם העלה תמונה שלה בלבוש סובייטי. למותר לציין שזו הפרה של כללי הרשת שלו ושהדבר יצר מהומה רבה סביב הוויכוח עד כמה נחצו כללים במערכת הבחירות הזו.

טראמפ עצמו כצפוי לא טמן ידו בצלחת, והעלה בין השאר תמונה שנוצרה על ידי AI המציגה אותו כשהוא רוכב על אריה. התמונה פורסמה לראשונה על ידי אחד מתומכיו ברשת X לפני שטראמפ פרסם מחדש את התיאור בחשבון ה- Truth Social שלו. זה היה חלק משיטתו של המתמודד החוזר לנשיאות באימוץ פרסום מחדש של תמונות שהעלו גורמים התומכים בו. טראמפ גם פרסם תמונת בינה מלאכותית המתיימרת להראות את טיילור סוויפט מחזקת אותו.

סיפור מעניין התרחש עוד בזמן הפריימריז, עת מצביעים דמוקרטיים בניו המפשייר קיבלו הודעה קולית בה נשמע הנשיא (דאז) ביידן קורא לא להצביע בבחירות המקדימות במדינה. הפייק הקולי הזה נוצר והופץ ע"י יועץ פוליטי דמוקרטי דווקא, שביקש להתריע בכך מסכנות ה- AI. כפי שניתן לראות זה לא סייע לעצור את התופעה, והיועץ עצמו סיים עם קנס של 6 מיליון דולר שהוטל עליו ע"י ה- FCC. שימוש כזה ב-AI לא נועד לשנות את דעתם של אנשים, אלא יותר לבניית נרטיבים, לגרום למועמד המועדף להיראות פטריוטי יותר, ולגרום למועמד היריב להיראות מסוכן או טיפש. אם חשתם שהדוגמאות הללו עדיין מרוסנות מול מה שהטכנולוגיה מסוגלת לעשות, אתם צודקים – בבחירות כה מתוקשרות עם מערכת אכיפה שעדיין רק בתחילת למידת הנושא אך מודעות וחזקה יחסית, היה ליוצרי הדיפ-פייק חשש גדול מליצור סרטונים או תמונות שיהוו שקר מובהק.

בעולם לעומת זאת היו מספר מקרים שכבר חוצים את הקו הזה, והזיופים הפוליטיים התפשטו לכל עבר. דוגמא טובה היא אינדונזיה, שם מפלגת גולקר השתמשה בבינה מלאכותית כדי להחיות מחדש את סוהרטו, הדיקטטור הוותיק שמת ב- 2008. "אני סוהרטו, הנשיא השני של אינדונזיה" נשמע המנוח בסרטון שפורסם ב- X ע"י סגן יו"ר המפלגה. הוא חיזק את מועמדי גולקר, כשאמר שהם "ימשיכו את החלום שלי להתקדמות אינדונזיה", וזמן קצר לאחר מכן, חתנו של סוהרטו - שגם הוא זכה לתמיכת המפלגה - נבחר לנשיא.

ויש עוד דוגמאות. בטאיוואן למשל, ביום הבחירות, תנועה המזוהה עם המפלגה הקומוניסטית הסינית פרסמה קטע שמע מזויף של פוליטיקאי שכביכול מביע את תמיכתו במועמד פרו-סיני. במולדובה, סדרה של סרטונים מזויפים הציגו את נשיאת המדינה, מיה סנדו, כאילו היא מתפטרת, וגרמו לזעזוע גדול במדינה (היא ניצחה אגב בבחירות). מקרה נוסף, שזכה לתקשור נרחב, היה של סרטון די הזוי שעלה בדרום אפריקה, דיפ-פייק של הראפר אמינם מביע תמיכה במפלגת אופוזיציה במדינה. קשה לאמוד כמה אנשים באמת "אכלו" את הטרלול הזה, אבל כן פורסמו מספר לא קטן של מאמרים בהם קראו הכותבים לאמינם לקום ולהצהיר שזה לא הוא.

הפחד מההשלכות הפוליטיות של הדיפ-פייק ברור וחד מאוד, אך הפגיעה המובהקת ביותר כיום נמצאת במישור הפיננסי, שם הטכנולוגיה השנויה במחלוקת מאפשרת תרמיות שבעבר היו קשות מאוד לביצוע. אחד הסיפורים המתוקשרים בשנה שעברה היה בנוגע להונאה שבוצעה כנגד ARUP, חברת עיצוב והנדסה רב-לאומית בריטית, שאחראית על כמה בניינים מפורסמים בעולם, ביניהם בית האופרה של סידני. במהלך ההונאה המשוכללת, עובד כספים של החברה תומרן להשתתף בשיחת וידאו עם אנשים שחשב שהם סמנכ"ל הכספים ואנשי צוות אחרים, אך בדיעבד התברר כי מדובר בדמויות של אותם אנשים שנוצרו באמצעות בינה מלאכותית. הרשויות לא ציינו את שמות החברה או הצדדים המעורבים באותה עת. העובד חשד בתחילה שהוא קיבל דוא"ל פישינג ממשרדי החברה בבריטניה, שכן פורט בו הצורך בביצוע עסקה סודית. עם זאת, הוא שם בצד את הספקות שלו לאחר שיחת הווידאו, מכיוון שאנשים אחרים שנכחו בה נראו ונשמעו בדיוק כמו העמיתים שהוא זיהה. לאחר מכן הסכים לשלוח סך של 200 מיליון דולר הונג קונגים - כ-25.6 מיליון דולר אמריקאים, שנפרס על פני 15 עסקאות נפרדות.

מקרה נוסף הסתיים אמנם בזיהוי ניסיון ההונאה, אך המחיש עוד יותר עד כמה תעוזתם של העבריינים עלתה עם התקדמות הטכנולוגיה. מארק ריד, מנכ"לה של WPP, אחת מחברות הפרסום הגדולות בעולם, דיווח על ניסיון התחזות אליו באמצעות שימוש בטכנולוגיית דיפ-פייק. העבריינים יצרו חשבון וואטסאפ מזויף עם תמונה זמינה לציבור של ריד כדי לקבוע שיחת וידיאו עם ראש אחת הסוכנויות של החברה. בהמשך, הם יצרו זיוף קולי ויחד עם שימוש בצילומי YouTube ניסו לחקות את ריד ובכיר נוסף במהלך השיחה. בזכות תושיית העובדים נמנע הניסיון לגייס כסף ופרטים אישיים מראש הסוכנות, אך כאמור, בשל חשיפת האירוע ע"י המנכ"ל באימייל לעובדים, נחשף עומק הסיכון של העולם הפיננסי מול עבריינים המצוידים בטכנולוגיה כזו.

השימוש בדיפ-פייק לביצוע פשעים פיננסים עובר כאש בשדה קוצים בכל הרמות. צרכנים מוטעים על ידי זיופים של סלבריטאים המציעים הזדמנויות השקעה שמתבררות כהונאה, בעוד תאגידים מאבדים מיליונים על ידי מתחזים שמתמחים בשימוש בטכנולוגיה החדשה. לפי בדיקת דלויט, תוכן שנוצר על ידי AI הביא להפסדי-הונאה של יותר מ-12 מיליארד דולר ב- 2023, ועלול להגיע ל-40 מיליארד דולר בארה"ב עד 2027. בתחילת השנה חתמו מאות קולגות בקהילת הבינה המלאכותית על מכתב פתוח הקורא לרגולציה קפדנית של דיפ-פייק. חוקים המפלילים שימוש כזה ברמה הפדרלית בארה"ב לא קיימים, אך יותר מעשר מדינות כבר חוקקו חוקים נגד התחזות בסיוע AI. החוק המתוקשר של קליפורניה, שנבלם כרגע, הוא הראשון להסמיך שופטים להורות על הורדת פוסטרים של דיפ-פייק והטלת עונשים כספיים על העבריינים. בסקר ממאי השנה, 60% מהנשאלים אמרו שנתקלו בזיופים כאלו, 72% אמרו שהם מודאגים ברמה יומית מהונאה כזו, ורוב של הנשאלים תומך בחקיקה לטיפול בהתפשטות הזיופים הנוצרים ע"י בינה מלאכותית.

אולם עם כל הסיכונים ברמת המאקרו, ההשלכות הרחבות על העולם והמציאות כמו שאנחנו רגילים לראות אותה, הפחד הגדול ביותר לדעתי, הוא זה שנוגע ישירות לחיי היום יום שלנו - שימוש בדיפ-פייק נגדנו ונגד היקרים לנו. זה מתחיל מחבורת בריונים שיעלו סרטון מזויף של אחד מבני הכיתה "מלכלך" על חבריו ויגרמו לחרם נגדו, ומגיע עד יצירת קטעי פורנו של נערה בתיכון והפצתם ברשתות, מה שיביא לפגיעה נפשית נוראית ומרסקת חיים. חארות היו ויהיו תמיד, וסיפורי הזוועה על התעללויות של פייק-פוסטים ברשת הם כבר מזמן צרה עולמית שכולם מתמודדים איתה, אבל וויזואליות כמעט אמיתית של תמונה וסרטון היא כבר רמה אחרת, כזו שמסוגלת לשכנע אוכלוסייה גדולה יותר באמיתות השקר.

מה שהגן עלינו ועל העולם מסכנות הדיפ-פייק עד היום, היה בעיקר התוצר הלא אמין שחוללו המודלים הללו. בואו נאמר שכל בר דעת שמתעמק יותר מכמה שניות בסרטון כזה יבחין די מהר שהוא מזויף. יש סימנים ברורים כמו שש אצבעות בכף היד, חיבוק שכולל שלוש ידיים, או נטייה של התמונה להיראות כמו גרסת אנימה של הקורבן. אבל גם בהיעדר עדויות ברורות למעורבותו של AI, מרבית התמונות, ועל אחת כמה וכמה כשמדובר בסרטון, יזוהו כדיפ-פייק באופן די מהיר, בעיקר בשל חוסר הגיון ויזואלי (תנועות שפתיים לא מתואמות עם הקול, מבט עמוק מידי, משחקי אור וצל לא מדויקים, ובעיקר חוסר רציפות בתנועות הפנים והגוף). בשורה התחתונה, במבחן התוצאה הנוכחי המודלים הללו נכשלים, כי מינימום הציון שלהם למעבר המבחן הוא גבוה מאוד.

וכאן בדיוק מגיעה ההפתעה (או הבהלה עבור רבים) מהמודל החדש – OmniHuman-1 – שהוצג לאחרונה ע"י ByteDance, חברת האם של טיקטוק. במבחן התוצאה האמור, הוצגו מספר סרטוני דיפ-פייק שג'ונרטו על ידו והם ברמת הריאליסטיות הטובה ביותר שנראתה אי פעם. פשוט כך. שימו בצד (בשלב זה) נתונים טכניים על רזולוציות וממדי האימון, רק ראו את הסרטון הזה של "אלברט איינשטיין" המזויף מרצה בקולו:

https://www.youtube.com/watch?v=Ii8aPnq_iT0

סרטונים נוספים (שחלקם כבר הורדו מהרשת) היו של טיילור סוויפט שרה ביפנית, ג'נסן הואנג מנכ"ל NVIDIA מזמר בסינית ועוד שלל דוגמאות של חפירות בהרצאות Ted וזמרים לא מוכרים בסשיינים בחדר שלהם.

https://www.youtube.com/watch?v=DoE4hFuV2kU

מה שמדהים הוא שמהנדסי המודל מצהירים שכל שנדרש לטובת ייצור סרטונים כאלו הוא רק תמונת התייחסות אחת (רפרנס), ואודיו כמו דיבור או שירה. על מה שעומד מאחורי היכולת הזו ארחיב מיד, אבל אפילו אם נתייחס רק לאיזה חלק מגופו של האובייקט מוצג בסרטון (אתגר פרופורציות הגוף), אי אפשר להגזים בהתפעלות מרמת הריאליסטיות של הסרטונים. כמובן שאין כאן שלמות מוחלטת. גם המפתחים העידו כי תמונות רפרנס באיכות שאינה גבוהה לא יצליחו להביא לרמה שנראית בדוגמאות שהפיצה ByteDance, ועדיין, המודל החדש מהווה קפיצה מרשימה ברמת המציאות שהוא מפיק, הרבה מעל מה שראינו עד היום. ומכאן, בהתחשב בעובדה ש"הנדוס לאחור" של מה שעומד מאחורי המודל יתבצע די מהר, נראה שבקרוב יופיעו מודלים מתחרים עם אותה רמת תוצר.

https://www.youtube.com/watch?v=5Qm5qoyRpIg

אז מה בעצם עומד מאחורי המודל החדש והתוצרים המדהימים שהוא מפיק? בבסיס הקפיצה הטכנולוגית עומד שכלול של מה שנקרא Large-Scale Diffusion-based Architecture (בעברית זה נשמע מבולגן, ארכיטקטורה מבוססת דיפוזיה בקנה מידה רחב), שמאפשרת לו לחולל תנועה טבעית תוך שימוש במינימום קלט, כמו תמונה סטטית בודדת, קבצי קול, ובשילוב עם רפרנסים של וידיאו. גישות קודמות לאתגר הזה נכשלו, במיוחד בכל הקשור ליצירת תנועה קוהרנטית – רוב הפעמים היו מתמקדים בהדמיית הפנים או חלק הגוף העליון, כשפת הגוף או הבעות אנושיות היו יוצאות לא עקביות ברמה מביכה. בנוסף, כוחו של המודל טמון ביכולת להתאים עצמו ליחסי גובה-רוחב ופרופורציות גוף שונות. הוא לא ננעל על מידותיו של פורטרט האובייקט בלבד, כפי שהיו מודלים קודמים עושים בזמן ייצורו של התוצר.

אם נרד קצת לפרטים, OmniHuman-1 מופעל ע"י ארכיטקטורה שממנפת מספר מודלים של דיפוזיה וטכניקות אימון מולטי-מודולריות ליצירת האנימציה האנושית הריאליסטית שלו. החלק המרכזי הוא ה- DIT (Diffusion Transformer), שבשילובו יחד עם מודלים קיימים, שכבר הוכיחו עצמם כיעילים ביצירת תמונות וסרטונים באיכות גבוהה, מאפשר תשומת לב לאלמנטים רבים יותר, לאורך זמן רב יותר, תוך טיפול במקביל הן בפרטים "מקומיים" (כמו תווי פנים), והן "גלובליים" (כמו תנועת הגוף המלאה).

האימון של המודל החדש אף הוא בוצע באסטרטגיה מתקדמת מאוד - שיתוף "Omni-Conditions" - שמשמעו ערבוב בזמן תהליך ה- Training של מידע "חזק" (כמו נתוני תנוחות מדויקים) ומידע "חלש" (כמו אודיו או פרומפטים טקסטואליים). בגישה זו ניתן לאגור וללמוד מטווח רחב יותר של מידע, במקום לבטל שימוש בסרטונים שאין להם משמעויות התייחסות (רפרנסים) מושלמות. כתוצאה מכך, המודל יכול להבין באופן מקיף יותר את המשמעות של התנועה הריאליסטית. בהמשך לאסטרטגיה הזו, גם טווח הסרטונים עליו בוצע האימון גדול מאוד – מפתחי המודל דיווחו על כ- 19,000 שעות וידאו עליהם אומן OmniHuman1. חשיפה עצומה כזו לתרחישים שונים של תנועות גוף מאפשרת למודל לייצר קטעים מציאותיים מאוד, אפילו במקרים של פרספקטיבות מצלמה ייחודיות או תנועות גוף יוצאות דופן.

וכך, ההתקדמות הטכנולוגית המרשימה הזו נותנת ל- OmniHuman-1 יכולות שטרם נראו בעולם ה- Video-Generation בכלל וזה שייעודו האמיתי הוא Deepfake בפרט:

ראשית כפי שציינו קודם לכן, גולת הכותרת היא האפשרות ליצור אובייקט נע, מדבר ועם הבעות אנושיות ריאליסטיות על בסיס תמונה אחת בלבד. מדובר בסרטון מרשים מאוד, עד רמת גוף מלא, עם סנכרון מציאותי של תנועות שפתיים ושפת גוף מותאמת לנושא הדיבור.

בנוסף, המודל מתבסס על קלט נתונים ממגוון פורמטי תנועה. מחד, אנימציה שמונעת ע"י אודיו ומתמקדת בהבעות דיבור וסנכרון שפתיים; מנגד, אנימציה המונעת מווידיאו ומחקה או מתאימה תנועה על בסיס רפרנסים מסרטונים עליהם התאמנה. השילוב בין שיטות אלו מחזק עוד יותר את התוצר כך שגם הדיבור וגם תנועות הגוף מג'ונרטות באופן מיטבי.

קפיצה מזווית אחרת היא ביכולות המודל בכל הקשור ליחסי גובה-רוחב ופרופורציות גוף – OmniHuman-1 מסוגל לייצר סרטונים מדויקים בין אם מדובר במצב אנכי כמו סרטון טיקטוק ובין אם מדובר בסרט במסך רחב. הוא פותח באופן שמסוגל להתאים במדויק את השינויים הנדרשים בפורמטים שונים, כך שאמינות הסרטון לא תיפגע.

לסיום, עומדת לזכות המודל היכולת ליצור במגוון סגנונות. הוא אינו מוגבל לפוטוריאליזם, ויכול ליצור גם דמויות מסוגננות, קריקטורות ודמויות אנתרופומורפיות (כמו חיות שמקבלות תכונות או מראה של בני אדם). יכולת זו היא כמובן משמעותית מאוד למפתחי משחקים, משפיענים ויוצרי תוכן ייחודי.

כשמתבוננים מנקודת מבט מקצועית לחלוטין (ויש שיאמרו נאיבית) על יכולותיו המרשימות של המודל, קצרה היריעה מלהכיל את המקומות הלגיטימיים (או הנורמטיביים) בהם יאפשר קפיצה אמיתית ביכולותיו של האומן או יצרניות המדיה. מדובר, כפי שציינו, ב"שלוחה" של עולם ה- Video Generation. יוצרי תוכן ברשת ובעולם הפרסום, הפקות סרטים (הן של סרטים "מציאותיים" והן בעולמות ההנפשה), חינוך והרצאות – כולם יוכלו לייצר מדיה ברמת יעילות ואיכות חסרת תקדים. אבל כמובן שכפי שציינו בהתחלה, עם ההזדמנויות מגיעים גם האתגרים, ואיתם חשש עמוק על אובדן פרטיות, מידע מטעה והאמינות בה יתקבלו יצירות חדשות.

כבר נאמר שהפחד הגדול מדיפ-פייק לא נמצא רק בחשש שאנשים יאמינו לדברים שאינם אמיתיים, אלא דווקא שיפסיקו להאמין לכל מה שהם רואים. כדוגמא, ראו את האופן בו אנו מסתכלים על תמונות דוגמנות: ברור לנו היום שהם עובדו בכלים כמו פוטושופ, ואינם משקפים באמת את מראה האובייקט המצולם. השפעה החברתית של טכנולוגיית דיפ-פייק מתקדמת כמו זו שמאפשר OmniHuman 1 היא משמעותית. אמון הציבור בראיות וידאו ואודיו כבר נשחק, כשרבים חוששים כי יהפוך קשה יותר ויותר לוודא את אמיתות המדיה.

"משבר האותנטיות" הזה עלול להוביל לספקנות רחבה לגבי תוכן אמיתי ומזויף כאחד. יהיה רגע כזה, בו הרוביקון ייחצה ויכולות הדיפ-פייק כבר יהיו בלתי ניתנות לזיהוי. תחילה בעין אנושית ואחר כך גם בבדיקה טכנולוגית. ובדרך לשם, כל שנותר הוא לקוות שהרגולציה ואמצעי האכיפה יוכלו לפחות להגיע למצב בו הפיקוח יהיה הדוק דיו כדי למנוע הפצה כזו בכל מקום. כפי שציינו, בארה"ב כבר החלו ניסיונות הסדרה של טכנולוגיית הדיפ-פייק כדי לטפל בשימוש לרעה בה. בעולם, דרום קוריאה העבירה חוקים המפלילים יצירה והפצה של זיופים מזיקים, תוך התמקדות בתוכן מפורש בשלב זה, ובמקביל, האיחוד האירופי יישם את "חוק הבינה המלאכותית", הכולל הוראות להגבלת הפצת תוכן מטעה שנוצר באמצעות AI.

אולם עם כל ההתגייסות המשפטית הזו, אתגר האכיפה יהיה קשה מאוד. כמות המדיה המיוצרת יחד עם התפתחות הטכנולוגיה היא עצומה. איתור זיופים בכלל, ובזמן אמת בפרט, דורש תשתית טכנולוגית עמוקה, ועוד בתחום שגופי הרגולציה עדיין רק לומדים. יש גם הכרח שמאמצים אלו יהיו גלובליים כדי להיות יעילים, שכן תוכן שנוצר על ידי בינה מלאכותית חוצה בקלות גבולות, וככל שהמודלים הללו הופכים נגישים יותר, השאלות על אותנטיות, אבטחה ואחריות משפטית מתרבות. בשנים הקרובות, האתגר יהיה לאזן בין פריצות דרך חדשניות כמו OmniHuman-1 לבין המסגרות האתיות ושיטות הזיהוי הנחוצות למניעת שימוש לרעה. אבל לעת עתה, המודל החדש הוא הדגמה מרתקת עד כמה התקדם עולם ה- Video-Generation ולאן הוא עשוי להגיע.

צלילה לעומק הזיוף – הקפיצה הטכנולוגית מאחורי כלי הדיפ-פייק החזק בעולם

פוסטים אחרונים

תגובות