Music GenAI - היום בו המוזיקה ג׳ונרטה

5 במאי 2025
זמן קריאה 10 דקות

עודכן: 22 במאי 2025

כמעט 20% מהשירים המועלים ל- Deezer ברמה יומית מיוצרים במלואם ע"י בינה מלאכותית – האם זוהי תחילת סופה של היצירה המקורית או רק שלב באבולוציה הטכנולוגית של המוזיקה

בבוקר שגרתי של ראשית פברואר 1959, פתח מחלק העיתונים בן ה- 13 דון מקליין את עיתון הבוקר וגילה שהמטוס השכור בו היו כוכבי הרוקנרול דאז באדי הולי, ריצ'י ואלנס וג.פ. "ביג בופר" ריצ'רדסון התרסק לתוך שדה תירס נידח באייווה. תמונות המטוס ההרוס זעזעו אותו, כמו גם את שאר תושבי ארה"ב, והביאו אותו לבחור להגשים את חלומו להיות מוזיקאי. 12 שנה מאוחר יותר הוא יכתוב את "אמריקן פאי" עם השורה האלמותית: "היום בו המוזיקה מתה" ויתאר באופן מדויק את מה שחש דור שלם כשהתבונן אחורה אל המעבר משנות החמישים לשישים.

אבל "אמריקן פאי" היה הרבה יותר ממחווה לאותם מוזיקאים אבודים. מקליין השתמש בשיר כדי להתאבל לא רק על גיבורי ילדותו, אלא גם על אובדן התמימות והאידיאליזם של אמריקה. ככל שהשיר מתקדם, הוא מתאר את התהפוכות החברתיות והתרבותיות הסוערות של שנות השישים, נוגע באירועים ובדמויות שסימנו סוף עידן והתפכחות של דור. המילים בהן השתמש היו בכוונה סתמיות ואימפרסיוניסטיות, מלאות בהתייחסויות לדרמות היסטוריות, לתרבות הפופ ולחוויותיו האישיות.

במשך עשרות שנים, מעריצים וחוקרים התווכחו על המשמעות מאחורי הסמלים והדמויות הרבות שבשיר, כשמקליין עצמו סירב לספק הסברים מוחלטים ואמר שהטקסטים הם "שירה" ו"מעבר לניתוח". בשנים האחרונות, הוא ביאר בכל זאת כמה כמה אזכורים, וחשף שהשיר הוא "שיר מוסר" על דברים שהולכים לכיוון הלא נכון, כשהוא מגיע לשיא עם מופע האלימות בפסטיבל המוזיקה של אלטמונט ב- 1969 (אז רצחו חברי כנופיית האופנוענים "מלאכי הגיהינום", ששימשו כמאבטחים בהופעה של הרולינג סטונז, מעריץ אפרו-אמריקאי) - סמל לסוף החלומות האוטופיים של שנות השישים. בסופו של דבר, "אמריקן פאי" נכתב כקינה על אמריקה תמימה יותר, פרשנות על אובדן האופטימיות התרבותית, והרהור כיצד המוזיקה גם מעצבת וגם משקפת את רוח זמנה.

https://www.youtube.com/watch?v=PRpiBpDy7MQ

ואם המוזיקה היא אכן בעלת משקל עצום לא רק כמייצגת של תקופה אלא גם כמעצבת אותה, אז השינוי העצום באופן יצירתה, שנובע מהתפתחות יכולות ה- GenAI בשנים האחרונות, הוא לא רק מהפכה דרמטית באופן בו שירים נוצרים, אלא גם משהו שבונה מחדש את הגדרתנו ליצירתיות, ומהווה בבואה מרתקת לרוחה המתפשטת לכל עבר של הבינה המלאכותית.

כדי להבין עד כמה חדרו יכולות ה- GenAI לכל רבדי התעשייה, די להתבונן בנתון שהציגה לפני כחודש Deezer, אלטרנטיבת Spotify הוותיקה, שהושקה לפני יותר משמונה שנים. החברה שיתפה כי כ- 20 אלף רצועות מוזיקה שנוצרו באופן מלא ע"י AI מתווספות עתה בכל יום לשירותה, ומהוות יותר מ- 18% מכלל התוכן המועלה לפלטפורמה ברמה יומית. Deezer, כמו שירותי סטרימינג אחרים, מציעה מגוון שיטות לאומנים עצמאים להעלות מוזיקה משלהם, ללא הצורך להיות חלק מלייבל מסחרי גדול. מדובר באחת המהפכות הבולטות של עולם התוכן החדש, אבל גם פרצה שפותחת דלת כניסה למוזיקה שלא נוצרה ע"י אנשים כלל, וכמו שמראים המספרים, פרצה זו מנוצלת היטב.

בתחילת השנה השיקה Deezer כלי מתקדם לזיהוי מוזיקה שנוצרה באמצעות בינה מלאכותית. כבר בהפעלתו הראשונה זוהו כעשרת אלפים רצועות כאלו ברמה היומית, מה שמחזק את הנתון מהחודש האחרון עוד יותר – תוך פחות מחצי שנה הוכפלה חדירת תוכן כזה לפלטפורמה. בתגובה, Deezer לא מסירה את התוכן אלא מוציאה אותו החוצה מההמלצות שמייצר האלגוריתם שלה. הכלי פותח במשך כשנה באופן שיאפשר לו לזהות מוזיקה שנוצרה ע"י AI ממגוון רחב של מאגרי נתונים, כולל המודלים המובילים בשוק. וכאן מגיע יתרונו של הכלי על פני פתרונות אחרים, שאומנו למשימה רק מול מודל ג'נרטיבי ספציפי, אז מושגות תוצאות טובות בהתחלה, שיורדות באופן משמעותי כשהכלים מופעלים על מודל אחר. ישימותו של הכלי של Deezer על מגוון מודלים מאפשרת לו להוות חסם אמיתי מול חדירת ה- AI.

החדירה העצומה של הבינה המלאכותית לעולם המוזיקה נובעת לא רק מהרצון של רבים כל כך להביע את עצמם (במקרה הרומנטי) או פשוט לעשות כסף (במקרה הקלאסי), אלא גם משום שיכולות ה- AI בתחום פשוט מצוינות – למשתמשים זמין היום ארסנל רחב של אפליקציות שיכולות להפיק שירים "מקצה לקצה" בצורה מקצועית: החל ממילים, עיבוד, נגינה ושירה, ע"ב אינספור נישות, סגנונות וצרכים מוזיקליים ספציפיים. בואו נסקור כמה מהבולטות שבהן, מתת-התחום שנקרא: Text-to-Music.

נתחיל מ- Suno.AI, כנראה המפורסמת ביותר, שהיא גם דוגמא מצוינת לטובת הבנת רמת חוויית המשתמש והתוצר הגבוהות אליהן הצליח ה- Music Generation להגיע בשנה האחרונה. האפליקציה החלה את דרכה לפני כשנה וחצי, תחילה כפלאג-אין ל- Co-Pilot של מיקרוסופט. וזה לא שלא היו קיימות אפליקציות עם מטרה דומה קודם לכן ( Project Music GenAI של Adobe, Dream Track של YouTube, Voicify AI שהפכה ל- Jammable ועוד), אלא ש- Suno הביאה יכולת לייצר את השיר מ"קצה לקצה" והכל באמצעות פרומפט טקסטואלי. למשל ננחה: "תן לי שיר בסיגנון גראנג' סיאטל שנות ה- 90, על חיפוש פיצה באחת בלילה", ונקבל כמה שירים בני עד ארבע דקות, עם שירה, נגינה, מילים, קצת אומנות מסביב וכמובן: שם. כל זה ניתן לביצוע אפילו בגרסה החינמית (שמוגבלת ל- 50 קרדיטים ביום, מספיק בערך ל- 10 שירים). המפתח להצלחה נמצא (כמו בכל מודל "טקסט ל... משהו") ביכולת הניסוח המדויקת של ההנחיה: הדבר החשוב ביותר כאן הוא לציין במדויק את סגנון המוזיקה, בנוסף לנושא שהמשתמש מעוניין בו. עם זאת, לא ניתן לבקש מ- Suno לכתוב שיר בסגנון של אמן ספציפי מכיוון שלחברה אין (עדיין) רישיונות עם חברות תקליטים.

הגרסה האחרונה, והמאוד מצופה, של Suno – V4, שהגיעה די מהר לאחר V3.5 המוצלחת (ו- v4.5 ממש בפתח), הצליחה לחדד עוד יותר את איכות המילים, השונות והייחוד בכל ז'אנר אותו תבחרו, והוסיפה גם כמה פיצ'רים חדשים ומסקרנים. למשל Covers - היכולת להעלות את שיר של המשתמש ולייצר לו גרסת כיסוי בסגנון שונה, ו- Personas, המאפשרת ללכוד את מהותו של השיר ולהעביר אותו לסגנון היצירה הבאה. פיצ'ר זה טיפל באחת הבעיות המוכרות של מי שבוחר ליצור שירים דרך GenAI, והיא הקושי ליצור כמה שירים שתואמים את הסגנון המוזיקלי שהיוצר כיוון אליו. מכאן מגיעה גם יכולת ה- Extend, שמאפשרת ניתוח של שיר, וממנו ליצור שיר חדש בסגנון דומה. Suno הוסיפה גם אפשרות לליטוש התוצאות באמצעות יישומים אחרים, כמו Band in a Box, מה שמעצים עוד יותר את יכולתה להביא בסופו של התהליך שיר אופטימלי לצרכיו של המשתמש.

כמו רוב כלי ה- AI, האופן המדויק בו עובדת Suno מעורפל, אבל באופן כללי די דומה למודלי LLM מוכרים כמו ChatGPT, מבוססי אימון על מאגר נתונים מאסיבי (שבמקרה של Suno, כולל הקלטות של דיבור). משם נבנים השירים והמילים המקוריות על פי הפרומפט. בפורמט של הנחיות טקסט, LLMs פועלים בדרך כלל בלוגיקה של ניבוי אילו מילים סביר ביותר שיגיעו בהמשך ברצף נתון, אך במקרה של יצירת מוזיקה זה הרבה יותר מאתגר. לאור המורכבות הזו, Suno משתמשת גם במודלי דיפוזיה, בדומה ל- Midjourney למשל, לצד מודלי Transformator. לשילוב הזה יש יתרונות וחסרונות, אבל מה שקורה בתוך "הקופסא השחורה" הזו הביא ליצירת אחד ממנועי הבינה המלאכותית הטובים ביותר בנמצא, עם כל המגבלות עליהן העירו משתמשים (כמו שחוזקו נמצא יותר בחיקוי של ז'אנרים מסוימים ופחות ביצירת משהו חדש לגמרי).

אם אתם רוצים גם להרוויח כסף מהסיפור הזה, לא תוכלו להסתפק במנוי החינמי. תכניות התשלום של Suno כוללות את ה- Pro, במחיר של 10 דולר לחודש, בה תקבלו 2,500 נקודות זכות לחודש, מספיק כדי ליצור 500 שירים ביום (לעומת כאמור 50 קרדיטים בתכנית החינמית). תוכלו גם להשתמש בשירים באופן מסחרי, למשל העלאה ל- YouTube או אפילו ל- Spotify או Apple Music, וגם עדיפות בתוך Suno בתור ליצירת השירים. תכנית ה- Premier, בעלות של 30 דולר לחודש, מעלה את המגבלה ל- 2,000 שירים ביום (10,000 נקודות זכות). בכל מקרה, לא משנה באיזו תכנית תהיו, תקבלו גישה לכל הכלים של Suno - כולל מצב מותאם אישית שבו אתם כותבים מילים משלכם, יכולת העלאת שיר אחר פרי יצירתכם (כדי לטייב את התוצר) ומצב אינסטרומנטלי ליצירת מוזיקת עבודה חדשה. הגרסה האחרונה והמשובחת זמינה רק למנויי Pro ו- Premium, עם גרסת ניסיון בחינם.

המתחרה המרכזית שקמה ל- Suno היא Udio, שבמבט ראשון מציגה כמעט את אותן תכונות – מתן הנחיות, קבלת מילים, עיבודן לקול, דיוק לפי ז'אנר, מגוון אפשרויות אינסטרומנטליות וכד'. כשהושקה לפני כשנה היא נבחנה ע"י מספר רב של מומחים וזכתה לתשבחות: מגזין ה- Rolling Stone למשל טען שאיכות המוזיקה שהיא מייצרת טובה יותר מזו של Suno, ואחרים טענו שהמודל שבנתה היה מוכן ללכת באופן "נועז" יותר לסיכונים מוזיקליים ויש לו פוטנציאל לסטות לכיוונים בלתי צפויים במידה ויונחה לעשות כך. אולם מה שבעיקר הביא להתפעלות מ- Udio היה פשטות הממשק שיצרה, שמאפשר גם לחובבים חסרי ידע טכני או התמצאות בעקרונות מוזיקליים לייצר וטייב את השיר שיצרו, וכן את יכולות שיתוף הפעולה המתקדמות שהיא מציעה, שמאפשרות עבודה משותפת של כמה יוצרים על אותו שיר.

דוגמא נוספת למחולל מוזיקה באמצעות בינה מלאכותית היא Mubert, שהפכה מאוד פופולריות בשנה האחרונה בעיקר בשל הגישה השונה שהיא מביאה לתהליך היצירה. כאן תוכלו לבחור ז'אנר וגם מצב רוח או סוג פעילות בתוך הפרומט המנחה, ולאחר יצירת הקטע לטייב אותו כמובן. ל- Mubert יש API שמאפשר ליצור ישירות לתוך אפליקציות ומשחקים שהמשתמש פועל בהן, ולמכור אותן בזירת המסחר Mubert Studio. האפליקציה מציע גם מוזיקה ללא תגמולים, כך שהיא אידיאלית להפצה בתוך סרטונים, פודקאסטים ושימושים עסקיים אחרים, ויכולה לשמש גם כ-Adobe Extension, קרי חיבור חלק עם כלים כמו ה- Premiere Pro. חוזקה של Mubert נמצא בז'אנרים אלקטרונים, היפ-הופ ופופ, ואחת הביקורות שהופנו כלפיה בתחילה היה שבשימוש ממושך ניכר שהיא חוזרת על עצמה, ומשתמשת בתבניות קבועות וצפויות.

אחרונה מתוך הארסנל הגדול של אפליקציות ה- Music Generation היא Aiva, שפועלת ממקום של בניית יצירה אומנותית מורכבת יותר. היא מצוידת באלגוריתמים מתוחכמים, מגוון רחב של כלי נגינה וירטואליים והבנה מוזיקלית עמוקה, המאפשרים קיום דיאלוג מקצועי עם היוצר. התוצרים שהיא מפיקה מביאים רמה גבוהה מאוד של חיבור לסגנון, מצב הרוח ושלל משתנים נוספים שמגיעים מעולמו של היוצר המקצועי.Avia פועלת כבר מאז 2016, אז רצה ע"ג המחשב לאחר שאומנה על 30 אלף יצירות מוזיקליות של בני אנוש. היא השתדרגה עם השנים, ומאפשרת על בסיס ממשק ידידותי יצירת מוזיקה במגוון גדול של סגנונות, ולמדיות רבות כמו משחקים, סרטים, מודעות וכד'. אחד היתרונות הבולטים שלה הוא ה- editor המובנה, שאמנם דורש התמקצעות גדולה יותר ממה שיש למשתמש הממוצע, אך מאפשר שליטה גבוהה מאוד בתוצר הסופי.

אין פלא אם כן שמול יכולות היצירה שמביא עמו ה- Music Generation, אותה חרדה קיומית של היוצרים למקום עבודתם בפרט, ולעתיד התעשייה בכלל (שעולה בכל מקום אליו חודרת הבינה המלאכותית), מתעוררת גם בקרב המוזיקאים. הקריאות על "מותה של המוזיקה" והפיכת העולם לפס ייצור של שירים זהים שניזונים זה מזה עד שהבאר תתייבש, מתפרצות בכל בשורה חדשה על פיתוח מודל מתקדם יותר, או נתונים מספריים כמו אלה שהציגה Deezer, שמלמדות שהמוצב האחרון כבר נכבש. אבל האם קריאות השבר האלו אכן מוצדקות? האם ההיסטריה שנשמעת מכל עבר, והדיבור על ארמגדון של כל מה שהתרגלנו לקבל כמאזינים אכן מוצדקת עד כדי כך? בואו נתבונן קצת בהיסטוריה.

למוזיקה תמיד הייתה מערכת יחסים אמביוולנטית עם טכנולוגיה. בכל פעם שהופיע כלי חדש, או פריצת דרך רעשנית (תרתי משמע) היו אלו שחששו שכאן בא סופה של המוזיקה. האמיתית לפחות. כך קרה כשהגיטרה חוברה לחשמל ו"הרעש" שנוצר הביא את קצרי הרואי לחשוב שכבר לא נוכל "להאזין" לכלום בניחותא. כשהסינתיסייזר הופיע, טענו רבים שכבר לא יהיה צורך בנגנים ובכלים אמיתיים, וכשמכונת התופים תפסה פופולאריות, היו אלו שזעקו שכבר לא יהיה מקום לשום דבר חוץ ממוזיקת ריקודים. וכמובן, כשיכולות המחשוב הביאו ליכולת לשייף באופן ניכר גם את גדולי הזייפנים, הוספדה המוזיקה כמשהו שלא יוותר בו מקום לכישרון אמיתי. סוף תקופת ה- "זמר זמר" מה שנקרא...

לפני כחודשיים, לאחר שנים של סינגלים בודדים והופעות חיות נדירות, הראפר פלייבוי קרטי הוציא את אלבום האולפן השלישי שלו – MUSIC. השתתפו בו כוכבי על כמו The Weekend וקנדריק לאמר, שיר הפתיחה Pop Out צבר כמעט 10 מיליון האזנות בספוטיפיי, והאלבום יצר באזז אדיר סביבו. אך פחות משבוע לאחר מכן, המעריצים החלו לחשוד שמשהו לא מסתדר - אחרי שנים של המתנה, הם "טחנו" את רצועות המוזיקה באלבום, ויותר ויותר תגובות החלו לעלות בבלוגים השונים: לשד של רבים לנוכחות שירה שנוצרה ע"י בינה מלאכותית לאורך האלבום המצופה. במיוחד עלתה הטענה שקרטי השתמש ב- GenAI כדי לחקות את קולו שלו, ורמיזות שייתכן שגם פסי השירה של The Weekend בשירם המשותף שונו.

https://www.youtube.com/watch?list=RD-V_GygtBQJo&v=fYD7YsSRHOY

איך שלא נסתכל על זה, אפשר להבין את כעס המעריצים. שימוש ב- AI הוא האשמה אמיתית לאומן שהכלי שלו הוא קולו. מוזיקת הראפ זכתה להצלחה והתבססה הודות לאותנטיות וכנות של מבצעים בודדים, ולאחר שנים של עבודה על אלבום, שימוש בבינה מלאכותית (גם עם לטובת יעילות וקיצור תהליכים) הגיוני שיהפוך לשערורייה. באותו אופן, אפשר להבין את החרדות שעוררה "הסטירה" שהביאו נתוני החדירה של היצירה ב- Music GenAI, עד כמה עמוק היא כבר נוכחות בפלטפורמות הכי מקובלות. אחרי הכל, תעשיית המוזיקה כבר מתנהלת על שולי רווח דקים כתער עבור רוב האמנים - ועכשיו ההכנסות בסטרימינג ילכו למתפעלי רובוטים?

שחקניות ענק כמו Universal, Sony ו- Warner כבר תובעות באופן עקבי אפליקציות כמו Suno, על כך שהן לכאורה מבצעות אימון על שירים המוגנים בזכויות יוצרים, דבר שרק מחדד את רמת הלחץ בה נמצאים כמעט כל החברים בתעשיית הענק הזו, שמאז המפץ הגדול של מכירת השירים הבודדים דרך Apple Music, חוותה את הצטמצמותם של יצירה בפורמט האלבום המלא, הקלטות שירים בחדרי מוזיקה מוסדרים, רווחים מאלבומים ומעבר לחיים על בסיס הכנסות מהופעות. היעלמותה של יצירה לא חייבת לבוא רק מזה שהיא מוחלפת בטכנולוגיה, אלא שהרבה לפני היא תאבד סופית את עצמה כמייצרת הכנסות ליוצרים.

אבל טענות על מות האותנטיות או רמאות מתגלות כמעט תמיד כמוגזמות, אפילו כמגוחכות במבט לאחור. בסופו של דבר, המין האנושי למד "לשיר עם המנגינה החדשה" והעובדה שגיטרות אקוסטיות לא נעלמו מן העולם היא עובדה. חובה להגן על אומנים שמתמודדים עם גניבת יצירותיהם ע"י בינה מלאכותית או שמבוצע עליהן אימון של מודלי AI, אבל זה נמצא קודם כל בתחום העסקי ולאו דווקא כקרב על חייה של המוזיקה. כשהחלו להשתמש ב- Samples בשירים זה נחשב כגניבה יצירתית מהאומנים "האמיתיים". אבל עניין הזכויות הוסדר, והיום ז'אנרים שלמים מתבססים על דגימת מוזיקה. בשורות האימה שהתלוו אז על פגיעה עצומה ביצירתיות כבר נשכחו. מישהו נוטר טינה לקוליו, שיצר את Gangsta's Paradise, הלהיט הענק שלו מ- 1995, ושפרץ את דרכו של ההיפ הופ לקהלים חדשים, על בסיס Pastime Paradise, שנוצר ע"י סטיבי וונדר (שנחשב אגב לאחד מחלוצי הסימפול) כמעט 20 שנה קודם לכן?

https://www.youtube.com/watch?v=fPO76Jlnz6c

הבעיה משולה לכל מצב של כלי חדש ורב עוצמה שמגיע לידי בני אדם – הכל תלוי במי מפעיל אותו. ל- Music Generation יכול להיות מקום חשוב בכל תהליך ההפקה והנגינה – אחרי הכל, גם היום אולפן ההקלטות הוא ברובו שולחן פיקוד עצום בו מבצעים טיוב של המוזיקה הבוקעת מאחורי הזכוכית. הבעיה אינה קיומה של מוזיקת בינה מלאכותית, אלא בגישה הרואה אותה כתחליף ולא כמשתפת פעולה. איכות היא בעיני המתבונן (או המאזין) וה- Gen AI המוזיקלי בפני עצמו יוצר מוזיקה ריקה יחסית או שנובע בבירור שהיא חיקוי של משהו שכבר נוצר.

אבל זה לא אומר שאין בה טעם. היא יכולה להיות סייעת יצירתית מעולה, כמו בהתנסות בסיגנון חדש, שחרור מחסום של כתיבה, ניסוי בשיר שמתגלגל בראש או סתם משחקים של עיבודים. כמו שאר תחומי ה- AI, החל מיצירת סרטונים, מאמרים ואתרים – הבינה המלאכותית יכולה להחיות את הרעיון שבראשו של המשתמש, אבל היא לא תעשה זאת בלעדיו כמקור הרעיונות.

חשוב לזכור שבסופו של דבר, לא כל שיר חדש הוא יצירת אומנות אותנטית וייחודית. וזה האנדרסטייטמנט של השנה. הטרנדים מובילים את טעמו של הקהל, הרבה מהיצירות חולקות את אותו DNA ונשמעות כמו גרסה כמעט זהה לאחרות, ולגבי מה מושמע – עולמנו כבר מזמן נשלט ע"י אלגוריתמים, שקובעים מה ואיך יונגש לנו, כשהרעיון הוא לא להסיט אותנו מהאזור הנוח. אבל, וגם זו עובדה, הסקרנות של חובבי המוזיקה נשארת, וההיצע של מוזיקה מקורית גדל בגלל אותן יכולות טכנולוגיות שבעבר נחשבו למאיימות. אז אני בעד אופטימיות, כי בסופו של דבר זה סוג של דמוקרטיזציה – רק חישבו על מספר האומנים הפוטנציאליים שהעולם מפסיד כי אין להם משאבים להפיק שיר. ואת הכישרון החבוי או המוסט הזה אי אפשר להחליף, כי מה לעשות, ל- AI אין נשמה.

כך שברור שנקבל כאן צונאמי של יצירות שרובן ככולן יהיו עלובות למדי במבחן היצירתיות, אבל בכל זאת, בתוך הבליל הזה בוודאי יגיעו גם כמה פנינים. כמו בכל חדשנות שתופסת תאוצה גם כאן יתרחש תהליך של ברירה טבעית, סינון שיכתיב השוק, והרבה יצירות יבלעו באוקיינוס של יצירה, כשהטובים ביותר יישרדו (ושוב, זה עניין של טעם). כך נחזור שוב לאתגר השיווקי עתיק היומין, של למצוא דרך שישימו לב למה שיצרת... אבל נראה שבכל מקרה אנחנו לא עומדים על סיפא של "מותה של המוזיקה", אבל בהחלט בעיצומו של היום בו היא ג'ונרטה.