افتح Riffusion واكتب أمراً مثل «جاز لو-فاي مع مطر وبوق بعيد» واضغط «توليد»، وسيخرج شيء مثير للاهتمام حقاً. ملمس رطب ضبابي يبدو كأنه سُجِّل في مقهى حمام عام 1973. تستمع إليه مرتين وتومئ، ثم تدرك: مدته 28 ثانية ولا يوجد كوبليه أو لازمة ولا تعرف إذا كان بإمكانك وضعه في مشروع تجاري. هذه تجربة Riffusion في فقرة.
لا شيء من ذلك طعن فيما أراد المشروع تحقيقه. بدأ Riffusion كتجربة مفتوحة المصدر — توليد صوت عبر تشغيل الانتشار على صور الطيف، معالجة الصوت كمشكلة مساحة كامنة بصرية. كان مبتكراً حقاً. لكن «مبتكر حقاً» و«أداة أستطيع استخدامها لإتمام أغنية اليوم» متطلبان مختلفان. إذا كنت بحاجة لمسار مدته أربع دقائق ببنية صحيحة وأصوات مفهومة وترخيص واضح، فـ Riffusion ليس نقطة البداية الصحيحة. تغطي هذه المقالة خمسة بدائل وتشرح كيف تختار بينها.
ما يتقنه Riffusion فعلاً
قبل استعراض البدائل، يستحق التحديد بدقة أين لا يزال Riffusion يكسب مكانه في سير عمل.
الملمس والأجواء هما أقوى مخرجاته. إذا احتجت طبقة محيطة أو طنيناً صناعياً أو شيئاً يبدو كاصطدام نوعين موسيقيين في منتصف الطيران، يمكن لتوليد Riffusion القائم على الطيف الزمني أن يُنتج نتائج تشعر بأنها أقل «بوب اصطناعي مصقول» وأقرب إلى «تسجيل ميداني بالإضافة إلى التركيب». هذا مميِّز حقيقي لمصممي الصوت ومحرري المقدمات والمنتجين التجريبيين.
التكرارات القصيرة هي حيث يتألق هيكلياً. حين لا تحتاج أغنية — تحتاج تكراراً من ثمانية مقاطع ليجلس تحت صوت تعليقي أو ملمساً لتطبيق طبقاته خلف مقدمة بودكاست — يتوقف طول الناتج عن كونه قيداً ويصبح ميزة. المقاطع قصيرة بما يكفي لفحصها بسرعة ورفضها دون تكلفة تذكر.
خلطات النوع التي ستبدو محرجة في مولِّد أكثر هيكلية اعتيادية في Riffusion. «بوسا نوفا لكن عبر مسجلة كاسيت معطلة» ليس أمراً غريباً هناك. ينتج نهج الانتشار في النموذج مزيجاً من الأنواع أكثر من ما تُبسِّطه المولِّدات الأكثر تدريباً على الأصوات البشرية إلى تسمية نوع واحد أو آخر.
أين يقصر Riffusion
تظهر الفجوة بمجرد أن تريد أغنية لا مجرد ملمس.
بنية الأغنية الكاملة هي أوضح القيود. لا تتبع مقاطع Riffusion بشكل موثوق معمارية الكوبليه-اللازمة-الجسر. تحصل على شذرات من الجو لا على أغانٍ ذات أقواس درامية. تمديد المقاطع باستخدام ميزات التكرار في الأداة يساعد بعض الشيء، لكن الانتقالات بين الأقسام نادراً ما تهبط بالتحول الديناميكي الذي يجعل المستمع يشعر بانتقال الأغنية.
يتدهور تماسك الأصوات بسرعة. يمكن لـ Riffusion توليد ما يبدو مشابهاً للغناء تقريباً، لكن الفونيمات كثيراً ما تكون ممسوحة أو خيالية. لا يمكنك التحكم في سطر لحني أو لازمة كلامية أو حتى ما إذا كانت الأصوات تثبت على النغمة عبر مقطع مدته 90 ثانية. لأي مشروع تهم فيه الكلمات — راب أو بوب أو R&B أو كتابة أغنية — هذا مانع مستقل.
الطول سقف صلب. لا تولِّد المنصة مسارات مدتها أربع دقائق بشكل أصيل. تشغل الحلول البديلة، لكنها تستلزم تجميعاً يدوياً ويُدخل خيوطاً مسموعة تُضعف النتيجة النهائية.
التحكم في الأمر النصي فضفاض بالتصميم. نهج الطيف الزمني أقل وفاءً للأمر النصي بطبيعته من النماذج المدرَّبة بشكل أكثر مباشرة على بيانات وصفية للأغاني وبنيتها. يمكنك إرغام الاتجاه لكن نادراً ما تُحدِّده. هذا يجعل التكرار بطيئاً: أنت تُضيِّق فضاء احتمال لا تضبط معلمة.
تصدير المسارات الأساسية غير متاح. لا يمكنك إخراج الطبقة الصوتية من الطبقة الآلية، وهذا مهم إذا أردت إعادة الميكس أو ضبط النغمة أو مجرد استخدام الإيقاع وحده.
ترخيص الاستخدام التجاري كان غير واضح تاريخياً. الأصول المفتوحة المصدر وشروط المنتج المُستضاف لا تحسم بشكل واضح أنك تستطيع تحقيق الدخل من الناتج. للاستخدام الاحترافي، هذا الغموض له تكلفة حقيقية.
خمسة بدائل تتعامل مع مهمة الأغنية الكاملة
Suno
Suno هو المعيار للأغاني المولَّدة بالذكاء الاصطناعي ذات البنية الفعلية. ينتج مسارات تتبع أشكال الأغاني الجماهيرية والهيب هوب القابلة للتعرف — مقدمة وكوبليه ولازمة وجسر وخاتمة — مع أصوات تصيغ الكلمات بشكل لحني وتثبت على النغمة تقريباً. تكامل الكلمات هو الأقوى في هذه الفئة: ما تكتبه في الأمر النصي يهبط في الصوت بشكل مُعترَف به.
ضعفه هو التوحد على نطاق واسع. تميل مخرجات Suno للاستماع كـ Suno. اللوحة الصوتية وملف الصدى والطريقة التي ترتفع بها اللازمة — هذه الأنماط تتكرر عبر الأوامر النصية. لأغنية أو اثنتين، الجودة عالية. لكتالوج كامل، يصبح البصمة واضحاً. كما أن النموذج لديه تحمل محدود للطلبات غريبة الأسلوب أو التي تتحدى النوع؛ يميل لحل الغموض نحو أساليب إنتاجه الأكثر تدريباً.
التسعير قائم على الاستخدام مع خطة مجانية تمنحك مسارات قليلة قبل بلوغ الحدود. الترخيص التجاري متاح في الخطط المدفوعة. بالنسبة لمعظم من يريدون أغنية كاملة قابلة للاستماع بسرعة، Suno هو الأداة الأولى للتجربة — لا سيما للأنواع المتقدمة على الأصوات الموسيقية.
Udio
يعالج Udio نفس مشكلة الأغنية الكاملة من زاوية مختلفة قليلاً. بينما يُقدِّم Suno التماسك اللحني، ينتج Udio مخرجات أحياناً تبدو أكثر تفصيلاً آلياً — برمجة الطبول وتوزيع الأوتار وترتيب الإنتاج أكثر تنوعاً من مسار لآخر.
جودة الأصوات منافسة لـ Suno في النتائج القوية، لكن التباين أعلى. ستحصل على بعض النتائج المثيرة حقاً وبعض التي لها شعور الصوت الآلي المتعثر في منتصف العبارة الذي يُميِّز الصوت الاصطناعي الذي يكافح مع الصياغة. نظام الأمر النصي يُكافئ التحديد: إخباره بـ BPM والمقام وعقد الإنتاج من عقد معينة والتوزيع المحدد ينتج نتائج أكثر ضيقاً من المراجع الأسلوبية الغامضة.
يدعم Udio مخرجات أطول من Riffusion ويسمح ببعض التخصيص الهيكلي. يستحق الاختبار جنباً إلى جنب مع Suno في أي مشروع — أوامر نصية مختلفة تناسب محركات مختلفة، وما يُصدِّره Udio لبالاد روح قد يتفوق على نتيجة Suno على نفس الطلب.
aisonggen
الميزة المميِّزة لـ aisonggen هي التوليد المتوازي: يولِّد مولِّد الموسيقى خمس تنويعات من أمر نصي واحد في آنٍ واحد، لتُقارن النتائج لا تنتظر واحدة وترفضها وتبدأ من جديد. بالنسبة للمشاريع حيث القيد المُعيق هو حلقة التكرار — لا سقف الجودة — هذا الهيكل أهم مما يبدو.
صياغة الأصوات في أقوى النتائج الفردية منافسة لكنها ليست بشكل متسق متقدمة على أفضل مخرجات Suno. الصياغة الصادقة هي: لا تفوز aisonggen في جودة الأصوات القصوى، لكنها تُقلِّل عدد دورات الإعادة والانتظار التي تحرقها للوصول إلى نتيجة مقبولة. الخمس مخرجات المتوازية تتيح اختيار النتيجة ذات أفضل أداء للازمة حتى لو فاتت ثلاثة من الأخريات.
ما وراء التوليد، تمتلك aisonggen سطح استوديو كلمات منفصل لكتابة الكلمات وتعديلها قبل الالتزام بعرض، وهو مفيد إذا أردت التحكم في ما تقوله الأصوات فعلاً بدلاً من ترك النموذج يرتجل. يوجد أيضاً مولِّد كوفر يعيد عرض مسار موجود في أسلوب مختلف — مفيد إذا كان لديك نتيجة تحبها أساساً لكن تريد سماعها بإنتاج مختلف.
التسعير يبدأ من خطة مجانية؛ تغطي صفحة الأسعار حدود الخطط بالتفصيل. إذا كنت تقيِّمها جانباً إلى جانب مع أدوات أخرى، تتضمن صفحة المراجعات مقارنات مستخدمين مع Suno وUdio تحديداً.
Mureka
Mureka خيار أقل ظهوراً يُنتج جودة ناتج تنافس قمة الفئة على أنواع معينة من الأوامر، خاصةً للمسارات ذات تعقيد الترتيب الآلي الحقيقي. بينما تُقلِّص Suno وUdio أحياناً ترتيباً متعدد الآلات في ميكس متجانس، يمكن لمخرجات Mureka الحفاظ على الفصل المكاني للآلات بطريقة تصمد على سماعات الأذن.
المقايضة هي أن سطح المنتج أقل صقلاً. واجهة الأمر النصي أقل تسامحاً مع الإدخال العشوائي وسرعة التوليد أبطأ من Suno. للاستخدام الاحترافي حيث جودة الترتيب تتفوق على سرعة التكرار، هذه مقايضة معقولة. للمشاريع العادية التي تريد شيئاً قابلاً للاستماع بسرعة، ليست الأداة الأولى للوصول إليها.
شروط الترخيص التجاري لـ Mureka أوضح من Riffusion، وهو مهم للموسيقى التي ستدخل في الفيديو أو الإعلانات أو التوزيع. الخطة المجانية محدودة لكن وظيفية للتقييم.
Stable Audio
تحتل Stable Audio (من Stability AI) وسطاً بين نهج Riffusion المُقدِّم للملمس ونهج Suno المُقدِّم للأغنية. تولِّد صوتاً بدقة أعلى من Riffusion وتدعم مقاطع أطول — ما يصل إلى ثلاث دقائق في بعض التهيئات — مع منح تحكم أكثر دقة في المدة والأسلوب من معظم المولِّدات.
يميل الناتج للآلي. توليد الأصوات ليس نقطة قوة Stable Audio، لذا هي الأنسب للمسارات المصاحبة والتأليف الآلي وتصميم الصوت بدلاً من الأغاني المكتملة بكلمات مُغنَّاة. للمنتجين الذين يريدون ترتيباً آلياً مُصدَّراً ثم وضع أصواتهم فوقه، إنها خيار قوي. لأي شخص يحتاج الذكاء الاصطناعي للتعامل مع الأصوات أيضاً، Suno أو Udio أكثر ملاءمة.
يعني الطابع مفتوح المصدر للنموذج أن حاجز التجريب منخفض وموارد المجتمع متاحة. لا يضاهي عمق الأوزان المفتوحة لـ Stable Audio للعمل الجاد بالاستضافة الذاتية، لكن كخيار خفيف متاح عبر المتصفح للملمس التوليدي، يستحق جلسة.
كيف تختار — ثلاثة أسئلة
- كم يجب أن يكون طول الناتج وكم بنية يحتاج؟ إذا احتجت أكثر من دقيقتين ببنية كوبليه-لازمة مُعترَف بها، Riffusion خارج. Suno أو aisonggen هما أسرع مسار لأغنية ذات شكل صحيح. إذا احتجت مساراً مصاحباً آلياً تحت دقيقتين ولا تهتم بالأصوات، Stable Audio أو Udio يستحقان الاختبار.
- ما الذي يستلزمه وضعك للترخيص؟ إذا كان الناتج يدخل في مشروع تجاري — فيديو أو إعلان أو إصدار بث — تحتاج وضوحاً في الشروط قبل الالتزام. ترخيص Riffusion الأقل حسماً. Suno وUdio وaisonggen كلها لديها شروط تجارية صريحة في الخطط المدفوعة. تحقق من المستوى المحدد الذي تستخدمه؛ كثيراً ما تحمل مخرجات الخطة المجانية قيوداً مختلفة عن المدفوعة.
- مقدار التحكم الذي تحتاجه في الناتج؟ إذا احتجت تحديد الكلمات واتجاه اللحن أو تفاصيل الإنتاج، استخدم أداة تأخذ مدخلات منظمة. استوديو كلمات aisonggen والوضع المخصص لـ Suno مصممان لذلك النوع من التحكم الاتجاهي. إذا كنت سعيداً بالتكرار من أمر أسلوب واختيار أفضل نتيجة، يمكن لأي من الأدوات الخمس أعلاه دعم ذلك السير — ونهج العرض المتوازي لـ aisonggen يجعل خطوة الاختيار أسرع.
خطة اختبار لمدة 20 دقيقة
- اختر أمراً نصياً واحداً يمثل حالة استخدامك الفعلية. لا تختبر بـ «أغنية بوب صاخبة» — اختبر بما تحتاج فعلاً لإرساله. إذا كان مشروعك مقطوعات هيب هوب لو-فاي آلية بـ 85 BPM، هذا هو الأمر. أوامر الاختبار الاصطناعية تُنتج نتائج اصطناعية.
- شغِّل نفس الأمر على أداتين على الأقل في آنٍ واحد. يستغرق التوليد من 30 إلى 90 ثانية تقريباً حسب المنصة وحمل الطابور. أرسله لكليهما قبل مراجعة أي منهما.
- قيِّم على البعد الأكثر أهمية لك أولاً. إذا كانت الأصوات حاسمة، استمع فقط للأداء الصوتي في مرورك الأول وتجاهل جودة الإنتاج. إذا كان الترتيب حاسماً، استمع بتلك الأذن أولاً. خلط التقييمات يُخفف الإشارة.
- شغِّل من ثلاثة إلى خمسة تنويعات على الأداة التي أدّت الأفضل. نتيجة جيدة واحدة قد تكون تبايناً. خمس مخرجات عبر نفس الطلب تمنحك إحساساً أوضح بالموثوقية الفعلية للأداة على نوع أمرك النصي.
- تحقق من الناتج على جهاز التشغيل الذي سيستخدمه جمهورك. أحياناً يبدو الصوت المولَّد بالذكاء الاصطناعي رائعاً على سماعات الاستوديو ورقيقاً على سماعات الأذن، أو العكس. إذا كان جمهورك يبث على الهواتف، هناك تستمع قبل الالتزام بأداة.
يُكافئ Riffusion الاستكشاف. إنه الأداة الصحيحة حين تريد اكتشاف شيء لم تستطع وصفه مسبقاً. لكن إذا كنت تبدأ من طلب واضح — بنية محددة وكلمات معيَّنة ونوع يجب أن يصل لجمهور حقيقي — الأدوات أعلاه أرجح أن توصلك هناك في جلسة لا أسبوع.
إذا كنت تقيِّم aisonggen تحديداً، مولِّد الموسيقى هو أسرع طريقة لإجراء اختبارك الأول وناتج التنويع المتوازي يعني أن خطة الـ 20 دقيقة تغطي أرضاً أوسع في نفس الوقت.