פותחים את Riffusion, מקלידים פרומפט כמו "ג'אז לו-פיי עם גשם וחצוצרה רחוקה", לוחצים על Generate, ויוצא משהו שמסקרן באמת. מרקם לח ומטושטש שנשמע כאילו הוקלט בשירותי קפה ב-1973. מנגנים אותו פעמיים, מהנהנים בראש, ואז מבינים: הוא בן 28 שניות, אין פזמון או בית, ואין לכם מושג אם מותר להשתמש בו בפרויקט מסחרי. זהו חוויית Riffusion בפסקה אחת.
אף אחד מהדברים האלה אינו ביקורת על מה שהפרויקט ניסה לעשות. Riffusion התחיל כניסוי קוד-פתוח — יצירת אודיו על ידי הרצת דיפוזיה על תמונות ספקטרוגרמה, תוך טיפול בצליל כבעיה של מרחב לטנטי ויזואלי. זה היה חדשני באמת. אבל "חדשני באמת" ו"כלי שאני יכול להשתמש בו כדי לגמור שיר היום" הם דרישות שונות. אם אתם צריכים טראק בן ארבע דקות עם מבנה ראוי, ווקאל מובן ורישיון ברור, Riffusion אינו נקודת ההתחלה הנכונה. מאמר זה מכסה חמש חלופות שכן מתאימות, ומסביר כיצד לבחור ביניהן.
מה Riffusion טוב בו באמת
לפני שעוברים על החלופות, כדאי להבהיר היכן Riffusion עדיין מרוויח מקום בתהליך עבודה.
מרקם ואווירה הם הפלטים החזקים ביותר שלו. אם אתם צריכים שכבת אמביינט, דרון תעשייתי, או משהו שנשמע כאילו שני ז'אנרים מתנגשים באמצע הטיסה, הגנרציה המבוססת על ספקטרוגרמה של Riffusion יכולה לייצר תוצאות שמרגישות פחות "פופ AI מלוטש" ויותר "הקלטת שטח בתוספת סינתזה". זה בידול אמיתי לאנשי עיצוב סאונד, עורכי טריילרים ומפיקים ניסיוניים.
לופים קצרים הם המקום שבו הוא מבריק מבחינה מבנית. כשאתם לא צריכים שיר — אתם צריכים לופ בן שמונה טאקטים שישב מתחת ל-voiceover, או מרקם לשכב מאחורי פתיח פודקאסט — אורך הפלט מפסיק להיות אילוץ ונהיה תכונה. הקליפים קצרים מספיק כדי לבחון אותם במהירות ולדחות בלי עלות גדולה.
מיזוגי ז'אנרים שהיו מרגישים מוזרים בגנרטור מבנה יותר הם שגרה ב-Riffusion. "בוסה נובה אבל דרך סלילי קלטת שבורים" הוא לא פרומפט מוזר שם. גישת הדיפוזיה של המודל מייצרת מיזוגים שגנרטורים מאומנים יותר על ווקאל לפעמים מפשטים יתר על המידה לתווית ז'אנר אחת.
היכן Riffusion נופל
הפער מופיע ברגע שרוצים שיר ולא רק מרקם.
מבנה שיר שלם הוא האילוץ הברור ביותר. קליפים של Riffusion לא עוקבים בצורה אמינה אחר ארכיטקטורת בית-פזמון-גשר. מקבלים קטעי ווייב, לא שירים עם קשתות דרמטיות. הארכת קליפים באמצעות כלי הלופ של הכלי עוזרת במידת מה, אבל המעברים בין חלקים לעיתים רחוקות נוחתים עם השינוי הדינמי שגורם למאזין להרגיש שהשיר נע.
קוהרנטיות הווקאל מתדרדרת במהירות. Riffusion יכול לייצר משהו שנשמע בערך כמו שירה, אבל הפונמות לעיתים קרובות מרוחות או בדיוניות. אי אפשר לשלוט בקו מלודי, בוו ליריות, ואפילו לא בשאלה אם הווקאל נשאר על הצליל לאורך קליפ בן 90 שניות. לכל פרויקט שבו מילים חשובות — ראפ, פופ, R&B, זמר-יוצר — זה פסול מדעיקרא.
אורך הוא תקרה קשה. הפלטפורמה לא מייצרת טראקים בני ארבע דקות באופן מקורי. קיימות עקיפות, אבל הן דורשות תפירה ידנית ומציגות תפרים שמיעתיים שפוגעים בתוצאה הסופית.
שליטה בפרומפט רופפת בעיצוב. הגישה הספקטרוגרמטית נאמנת פחות לפרומפט מאשר מודלים שאומנו ישירות על מטאדאטה ומבנה של שירים. אפשר להניע כיוון אבל לעיתים רחוקות לציין אחד. זה גורם לאיטרציה איטית: מצמצמים מרחב הסתברות במקום לכוון פרמטר.
ייצוא גבעולים (stems) אינו זמין. לא ניתן להוציא את שכבת הווקאל מהאינסטרומנטלי, מה שחשוב אם רוצים לעשות ריקוד מחדש, שינוי גובה צליל, או פשוט להשתמש בביט לבד.
רישיון לשימוש מסחרי היה היסטורית לא ברור. מקורות הקוד הפתוח ותנאי המוצר המתארח אינם מתפרשים בבירור ל"תוכלו לייצר כסף מזה". לשימוש מקצועי, אי-הוודאות הזו עולה ממון.
חמש חלופות שמתמודדות עם עבודת השיר השלם
Suno
Suno הוא הבנצ'מארק לשירים שנוצרו על ידי AI עם מבנה אמיתי. הוא מייצר טראקים שעוקבים אחר צורות שיר פופ והיפ-הופ מוכרות — אינטרו, בית, פרה-פזמון, פזמון, גשר, אאוטרו — עם ווקאל שמפרז מלודית ונשאר בערך על הצליל. שילוב המילים הוא החזק ביותר בקטגוריה: מה שכותבים בפרומפט מגיע לאודיו בצורה מזוהה.
החולשה שלו היא אחידות בסדר גודל. הפלטים של Suno נוטים להישמע כמו Suno. פלטת הצלילים, פרופיל ה-reverb, האופן שבו הפזמון מתרומם — הדפוסים האלה חוזרים על עצמם בין פרומפטים. לשיר אחד או שניים, האיכות גבוהה. לקטלוג, טביעת האצבע הופכת לברורה. למודל יש גם סובלנות מוגבלת לבקשות מוזרות או שוברות ז'אנרים; הוא נוטה לפתור אי-בהירות לכיוון סגנונות הפקה שאומן עליהם הכי הרבה.
תמחור מבוסס שימוש עם שכבת חינם שמאפשרת כמה טראקים לפני הגעה למגבלות. רישיון מסחרי זמין בתוכניות בתשלום. לרוב האנשים שרוצים שיר שלם וניתן להאזנה במהירות, Suno הוא הכלי הראשון לנסות — במיוחד לז'אנרים מוכווני ווקאל.
Udio
Udio ניגש לאותה בעיית שיר שלם מזווית מעט שונה. בעוד Suno מתעדף קוהרנטיות מלודית, Udio מייצר פלטים שלפעמים מרגישים מפורטים יותר מבחינה אינסטרומנטלית — תכנות התיפוף, חלוקת האקורדים וסידור ההפקה לרוב מגוונים יותר מטראק לטראק.
איכות הווקאל תחרותית עם Suno בלקאפים חזקים, אבל השונות גבוהה יותר. יקבלו כמה לקאפים שהם מרשימים באמת וכמה שיש להם את התחושה הקהה, האמצעית-ביטוי, שמאפיינת ווקאל AI שמתקשה עם פראזינג. מערכת הפרומפטים מתגמלת ספציפיות: לציין BPM, טונליות, עשור ההפקה ואינסטרומנטציה ספציפית מניב תוצאות מוגדרות יותר מאשר הפניות סגנון מעורפלות.
Udio תומך בפלטים ארוכים יותר מ-Riffusion ומאפשר התאמה אישית מבנית מסוימת. כדאי לבדוק אותו במקביל ל-Suno בכל פרויקט — פרומפטים שונים מעדיפים מנועים שונים, ומה ש-Udio מייצר לבלד סול עשוי להתעלות על לקאפ ה-Suno לאותו בריפינג.
aisonggen
המאפיין המייחד של aisonggen הוא גנרציה מקבילית: גנרטור המוזיקה מייצר חמישה וריאנטים מפרומפט אחד בו-זמנית, כך שמשווים לקאפים במקום לחכות לאחד, לדחות אותו ולהתחיל מחדש. לפרויקטים שבהם האילוץ הבולם הוא לולאת האיטרציה — לא תקרת האיכות — המבנה הזה חשוב יותר ממה שנשמע.
הפרזינג הווקאלי על הלקאפים האינדיבידואליים החזקים ביותר תחרותי אבל לא עקבי מעל הפלטים הטובים ביותר של Suno. הניסוח הכנה הוא: aisonggen לא מנצח בשיא איכות הווקאל, אבל הוא מצמצם את מספר מחזורי ה"Generate שוב וחכה" שצריך לעבור כדי להגיע ללקאפ מקובל. חמישה פלטים בו-זמניים מאפשרים לבחור את זה עם האספקת פזמון הטובה ביותר גם אם שלושה מהאחרים החטיאו.
מעבר לגנרציה, ל-aisonggen יש משטח Lyric Studio נפרד שבו אפשר לכתוב ולערוך מילים לפני שמתחייבים לרנדר, מה שעוזר אם רוצים לשלוט במה שהווקאל אומר בפועל במקום לתת למודל לאלתר. יש גם גנרטור קאברים שמרנדר מחדש טראק קיים בסגנון שונה — שימושי אם יש לקאפ שמוצא חן בעיניהם ברובו אבל רוצים לשמוע אותו עם הפקה שונה.
תמחור מתחיל בשכבת חינם; דף התמחור מכסה מגבלות תוכנית בפירוט. אם מעריכים אותו לצד כלים אחרים, דף הביקורות מכיל השוואות משתמשים ספציפיות מול Suno ו-Udio.
Mureka
Mureka הוא אפשרות פחות גלויה שמייצרת איכות פלט שמתחרה בחוד הקטגוריה בסוגי פרומפט מסוימים, במיוחד לטראקים עם מורכבות סידור אינסטרומנטלי אמיתית. בעוד Suno ו-Udio לפעמים מכווצים סידור רב-אינסטרומנטים למיקס הומוגני, הפלטים של Mureka יכולים לשמר הפרדה מרחבית של כלים בצורה שעמידה באוזניות.
הפשרה היא שמשטח המוצר פחות מלוטש. ממשק הפרומפטים סלחן פחות לקלט מזדמן, ומהירות הגנרציה איטית יותר מ-Suno. לשימוש מקצועי שבו איכות הסידור עולה על מהירות האיטרציה, זו פשרה סבירה. לפרויקטים מזדמנים שרוצים משהו ניתן להאזנה במהירות, הוא לא הכלי הראשון להגיע אליו.
תנאי הרישיון המסחרי של Mureka ברורים יותר מאלה של Riffusion, מה שחשוב למוזיקה שהולכת לסרטון, פרסומות או הפצה. שכבת החינם מוגבלת אבל פונקציונלית להערכה.
Stable Audio
Stable Audio (מ-Stability AI) תופס מקום ביניים בין גישת Riffusion המבוססת על מרקם לגישת Suno המבוססת על שיר. הוא מייצר אודיו באמינות גבוהה יותר מ-Riffusion ותומך בקליפים ארוכים יותר — עד שלוש דקות בחלק מהתצורות — תוך מתן שליטה מדויקת יותר על משך הזמן והסגנון מרוב הגנרטורים.
הפלט נוטה לאינסטרומנטלי. גנרציית ווקאל אינה החוזקה של Stable Audio, ולכן הוא מתאים יותר לגיבוי טראקים, קטעים אינסטרומנטליים ועיצוב סאונד מאשר לשירים גמורים עם מילים שרות. למפיקים שרוצים סידור אינסטרומנטלי מרונדר ואז להניח עליו את הווקאל שלהם, זו אפשרות חזקה. לכל מי שצריך את ה-AI להתמודד עם ווקאל גם כן, Suno או Udio מתאימים יותר.
המודל נהנה מאותה פילוסופיית משקלים פתוחים שמחברת את Riffusion — קיימת גרסה מחקרית זמינה למשתמשים טכניים שרוצים להריץ אותה מקומית או לכוון עדין — אבל המוצר המתארח נגיש ללא כל הגדרה טכנית.
כיצד לבחור — שלוש שאלות
- כמה זמן צריך הפלט להיות, ובאיזה מבנה? אם אתם צריכים מעל שתי דקות עם מבנה בית-פזמון מזוהה, Riffusion אינו אפשרות. Suno או aisonggen הם הנתיב המהיר ביותר לשיר מעוצב כראוי. אם אתם צריכים גיבוי אינסטרומנטלי מתחת לשתי דקות ואינכם מתחשבים בווקאל, Stable Audio או Udio שווים בדיקה.
- מה מצב הרישיון שלכם דורש? אם הפלט הולך לפרויקט מסחרי — סרטון, פרסומת, שחרור להפצה — אתם צריכים בהירות בתנאים לפני שמתחייבים. הרישיון של Riffusion הכי פחות מוסדר. ל-Suno, ל-Udio ול-aisonggen יש תנאים מסחריים מפורשים בתוכניות בתשלום. בדקו את השכבה הספציפית שאתם עליה; פלטים של שכבת חינם לעיתים קרובות נושאים הגבלות שונות מאלה בתשלום.
- כמה שליטה אתם צריכים על הפלט? אם אתם צריכים לציין מילים, כיוון מלודי או פרטי הפקה, השתמשו בכלי שמקבל קלט מובנה. Lyric Studio של aisonggen ו-custom-mode של Suno מתוכננים לסוג זה של שליטה כיוונית. אם אתם שמחים לאטרה מפרומפט סגנוני ולבחור את הלקאפ הטוב ביותר, כל אחד מחמשת הכלים למעלה יכול לתמוך בתהליך העבודה הזה — וגישת הרנדור המקבילי של aisonggen הופכת את שלב הבחירה למהיר יותר.
תוכנית בדיקה של 20 דקות
- בחרו פרומפט אחד שמייצג את מקרה השימוש האמיתי שלכם. אל תבדקו עם "שיר פופ עליז" — בדקו עם מה שתצטרכו בפועל לשחרר. אם הפרויקט שלכם הוא ביטים אינסטרומנטליים של לו-פיי היפ-הופ ב-85 BPM, זה הפרומפט. פרומפטי בדיקה מלאכותיים מייצרים תוצאות מלאכותיות.
- הריצו את אותו פרומפט על לפחות שני כלים בו-זמנית. גנרציה לוקחת בערך 30 עד 90 שניות בהתאם לפלטפורמה ולעומס התור. שלחו לשניהם לפני שבוחנים אחד מהם.
- הערכו על הממד שהכי חשוב לכם קודם. אם ווקאל קריטי, האזינו רק לביצוע הווקאלי בסיבוב הראשון ותתעלמו מאיכות ההפקה. אם הסידור קריטי, האזינו עם האוזן הזו קודם. ערבוב הערכות מדלל אות.
- הריצו שלושה עד חמישה וריאציות על הכלי שביצע הכי טוב. פלט טוב אחד עשוי להיות שונות. חמישה פלטים על אותו בריפינג נותנים לכם תחושה ברורה יותר של האמינות האמיתית של הכלי על סוג הפרומפט שלכם.
- בדקו את הפלט במכשיר ההשמעה שהקהל שלכם ישתמש בו. אודיו שנוצר על ידי AI לפעמים נשמע מצוין בצגים אוליינים ודק באוזניות, או להפך. אם הקהל שלכם מאזין בסטרימינג בטלפונים, שם כדאי לשמוע לפני שמתחייבים לכלי.
Riffusion מתגמל חקירה. הוא הכלי הנכון כשרוצים לגלות משהו שלא יכלו לתאר מראש. אבל אם מתחילים מבריפינג ברור — מבנה ספציפי, סט של מילים, ז'אנר שצריך להגיע לקהל אמיתי — הכלים למעלה נוטים יותר להוביל אתכם לשם בתוך סשן ולא בתוך שבוע.
אם מעריכים ספציפית את aisonggen, גנרטור המוזיקה הוא הדרך המהירה ביותר להריץ את הבדיקה הראשונה, ופלט הוריאנטים המקביל אומר שתוכנית 20 הדקות שלכם מכסה יותר שטח באותו זמן.