AISongGen logoAISongGen

كيف تصنع موسيقى بالذكاء الاصطناعي لا تبدو موسيقى ذكاء اصطناعي

إرشاد عملي — من بذرة الموجّه إلى مسار يمكنك وضعه في قائمة تشغيل. القرارات والتكرارات والطريقة لمعرفة متى تتوقف.

9 دقيقة قراءة

الجزء الصعب في صنع الموسيقى بالذكاء الاصطناعي ليس ضغط الزر. الجزء الصعب هو معرفة ما تضعه قبل الضغط، وقراءة ما يعود بأي تمييز، والتقرير هل تستمر أم تتوقف. معظم الناس الذين يصفون الموسيقى بالذكاء الاصطناعي بـ«مبتذلة» ليسوا مخطئين — توقفوا فقط في وقت مبكر جدًا من العملية، أو بدأوا دون وضوح كافٍ بشأن ما كانوا يحاولون صنعه فعلًا.

هذا إرشاد للعملية التي مررت بها مئات المرات. يتعامل مع التوليد كتكرار لا كتعامل مع ماكينة بيع. حين ينجح، لا يبدو المخرج كما لو أن آلة كتبته. حين يفشل، ستعرف تمامًا أي قرار تُراجع.

قرر أي نوع من الأغاني تريد فعلًا

قبل فتح أي أداة، اجلس مع سؤال واحد: في تجربة من تعيش هذه الأغنية؟ ليس «أي نوع» وليس «أي مزاج» — هذه تأتي لاحقًا. ابدأ بوجهة النظر، ثم المكان، ثم مركز الجاذبية العاطفي.

إطار بسيط لهذا:

شخص [من] يفعل [ماذا]، اللحظة قُبيل [نقطة التحول]. العاطفة الكامنة هي [شعور]، لا [شعور سطحي]. احتفظ به [كلمة نبرة واحدة].

التمييز بين الشعور السطحي والشعور الكامن تحته ليس تمريناً كتابياً — إنه تعليمة للمولّد. أغنية عن «الحزن» تبدو بطريقة؛ أغنية عن الانزعاج المحدد من عدم القدرة على البكاء في جنازة تبدو كأسطوانة مختلفة كليًا. التحديد ينتقل إلى التوليد بطرق لا تستطيعها علامات الأنواع ببساطة.

بينما لا تزال تفكر على الورق، قرر الطول. مسار مدته دقيقتان ومسار مدته أربع دقائق يستلزمان اختيارات هيكلية مختلفة، وسيتيه المولّد بلا هدف. اختر واحدًا قبل المضي قدمًا.

الخطوة 1: اكتب موجّهًا يُسمّي وضعًا لا نسيجًا

معظم الموجّهات الأولى تصف الصوت: «موسيقى لو-في، مفاتيح دافئة، حزين». هذا يصف الشعور الذي يجب أن يُولّده المسار لمستمع على بُعد ثلاث خطوات من العاطفة. الوضع يصف ما يفعله المؤدي بجسده وانتباهه.

قارن هذين:

  • موجّه النسيج: «R&B بطيء، فالسيتو ناعم، ليلي، شوق.»
  • موجّه الوضع: «شخص يقرأ رسائل قديمة وعد نفسه بحذفها. يستمر في القراءة. الصوت هادئ كما لو لا يريد أحدًا أن يسمعه.»

كلاهما يشير إلى وجهة عاطفية مماثلة. موجّه الوضع يمنح النموذج شيئًا لأداؤه. موجّه النسيج يمنحه مرجعًا صوتيًا ولا شيء غيره. النتائج ليست متكافئة.

احتفظ بموجّهات الوضع في ثلاثة أو أربعة جمل. السقف أدنى مما تظن — بعد نحو خمس جمل يبدأ النموذج في متوسطة التعليمات بدلًا من البناء عليها.

الخطوة 2: اختر مولّدًا يتيح لك مقارنة الأخذات

تجعل مولّدات الأخذة الواحدة التكرار بطيئًا بطريقة محددة ومزعجة: تحصل على نتيجة، إنها صحيحة تقريبًا، تُعيد التوليد بتعديل بسيط، وتهبط الأخذة الجديدة في اتجاه مختلف كليًا لأنه لم يكن هناك مرساة مشتركة. تجد نفسك تلاحق الأخذة الأصلية التي كانت «تقريبًا صحيحة» لست دورات.

تشغيل المتغيرات المتوازية يحل هذا. يُصيّر مولّد الموسيقى في aisonggen خمس أخذات في آنٍ واحد من الموجّه ذاته، فيمكنك مقارنتها جنبًا إلى جنب قبل الالتزام باتجاه. إذا كانت اثنتان من الخمسة في المنطقة الصحيحة، فقد تخطيت بالفعل معظم حلقة إعادة التوليد.

ملاحظة عادلة: خمس أخذات تكلف اعتمادات أكثر من أخذة واحدة. إذا كان ميزانية اعتماداتك محدودة جدًا، شغّل أخذتين بدلًا من خمسة واعامل واحدة كمرجعك. النقطة هي وجود مقارنة واحدة على الأقل، لا وجود خمسة.

الخطوة 3: اكتب كلماتك أو شاركها في كتابتها أولًا

منطقة الكلمات في المولّد حقل نص صغير، والنموذج الذي يعمل خلفه لديه تحيّز قوي نحو الحفاظ على ما تمنحه إياه — عدد الأسطر الأصلي، ومخطط القافية الأصلي، وحتى نمط المقاطع الأصلي. إذا كتبت كلمات داخل ذلك الحقل وقررت لاحقًا إضافة جسر، ستصارع النموذج في كل إعادة توليد.

صغ الكلمات بشكل منفصل قبل لصقها. يمنحك Lyric Studio مساحة كافية لرؤية ما تكتبه فعلًا. يمكنك مراجعة مقطع كامل وتجربة هوك جوقة مختلف ونقل ما قبل الجوقة — كل ذلك قبل تسليم أي شيء للمولّد.

الكلمات أولًا تتيح لك أيضًا التحقق من شيء لا يستطيع المولّد فعله: هل للكلمة إيقاع كلام طبيعي يمكن لمغنٍّ أن يؤديه فعلًا. اقرأ جوقتك بصوت عالٍ. إذا تعثّرت، سيتعثر النموذج أيضًا.

إذا كنت تبني الكلمات بالتوازي مع الموسيقى — الموجّه أولًا، تحسين الكلمات ثانيًا — فسير العمل هذا صالح أيضًا. المفتاح أن تحدث عملية تحرير الكلمات في مكان به مساحة تحرير حقيقية، لا في حقل النص الصغير للمولّد.

الخطوة 4: اختر عناصر التحكم الأسلوبية بقصد

علامات الأنواع بذور لا عقود. «إندي فولك» لا يُقفل المخرج في أي أسلوب إنتاج محدد — يُحيّز النموذج نحو مجموعة من الأصوات المرتبطة بذلك التصنيف، وهي نقطة بداية لا ضمان. إذا أردت فهم كيف يُفسّر النموذج فعلًا هذه العلامات قبل الالتزام، الدليل حول علامات الأنواع يستحق عشر دقائق من وقتك.

ما يُقيّد المخرج بموثوقية أكبر:

  • المزاج، مُسمّى بدقة. «مُرّ حلو» و«مستسلم» يهبطان بشكل مختلف حتى ضمن علامة النوع ذاتها.
  • المشهد أو الإعداد. «موقف سيارات فارغ في منتصف الليل» يمنح مهندس المزيج (النموذج هنا) مرجعًا بصريًا للصدى والمساحة.
  • جنس الصوت والسجل. تقبل معظم المولّدات تعليمات صريحة هنا، والإعداد الافتراضي ليس دائمًا الصحيح لكلماتك.

حدد BPM إذا كنت تعرفه. ليس نطاقًا — رقمًا. «حول 90» يمنح النموذج هامشًا واسعًا جدًا. «88 BPM» يمنحه ساعة. وكذلك طول المسار: اكتب المدة المستهدفة صراحةً بدلًا من تركها للإعداد الافتراضي.

الخطوة 5: صيّر، ثم استمع على أسوأ مكبر صوت تملكه

للمسارات المولّدة بالذكاء الاصطناعي نمط إخفاق معروف: تبدو أفضل على سماعات الرأس مما تستحق. الحقل الستيريو كثيرًا ما يكون واسعًا، والجزء المنخفض مضبوطًا، والمزيج نظيفًا بطريقة لا تكشف عن اصطناعيتها إلا حين تسمعها على شيء صارم.

بعد التصيير الأول، انتقل إلى مكبر هاتفك. أو لابتوب مدمج. أو إذا كان لديك وصول، ستيريو سيارة والنوافذ مفتوحة. هذه المكبرات تضغط الحقل الستيريو وتكشف طين التردد المتوسط-المنخفض وتُبرز الحدة في نطاق التردد المتوسط-العالي. إذا لا يزال المسار يبدو كمسار — ليس بالضرورة جيدًا لكن متماسكًا — فلديك شيء يستحق العمل عليه.

إذا انهار إلى عجين، هذه ليست دائمًا إشارة لإعادة التوليد. إنها إشارة للنظر في عناصر التحكم الأسلوبية. علامة نوع ثقيلة الجزء المنخفض بالإضافة إلى إعداد غرفة دافئة بالإضافة إلى BPM بطيء كثيرًا ما تنتج مسارًا لا ينتقل. اضبط متغيرًا واحدًا لا الثلاثة.

الخطوة 6: غطّ أو أعد التصيير أو توقف

معرفة متى تتوقف هي المهارة التي تُميّز من يُنتجون ممن لديهم أربعمائة مسودة محفوظة ولا شيء في قائمة تشغيل.

ثلاث إشارات على أن الأخذة منتهية:

  • الجوقة تسحبك فعلًا. تشعر بالوصول قبل أن تفكر فيه. إذا كنت تحتاج لإقناع نفسك لماذا تعمل الجوقة، فهي لا تعمل.
  • الصوت يجلس في الجيب. المغني يبدو كما لو يغني هذه الأغنية، لا يُظهر أنه يستطيع الوصول إلى هذه النوتات. أصوات الذكاء الاصطناعي كثيرًا ما تُبالغ في تمييز الأحرف الساكنة — الأخذة الجيدة لا تفعل ذلك.
  • لا توجد علامات ذكاء اصطناعي تلاحظها عند الاستماع الثالث. أنماط طبول نظيفة للغاية ميكانيكيًا. انتقالات وتر تفتقر إلى أي تنوع في الزخم. نوتة ممتدة لا تتنفس أبدًا. هذه هي العلامات. واحدة منها غالبًا مقبولة. ثلاثة كثيرة جدًا.

إذا تجاوزت الأخذة اثنتين من الثلاثة، توقف وسمّها مسودة. إذا تجاوزت الثلاثة، توقف وسمّها منتهية.

إعادة التوليد منطقية حين يكون معامل واحد محدد خاطئًا ويمكنك تسميته. «الصوت ساطع جدًا لهذه الكلمات» هي تعليمة إعادة توليد. «شيء ما يبدو خاطئًا» ليس كذلك — هذه مشكلة استماع لا مشكلة توليد، وأخذات أكثر لن تصلحها.

أخطاء شائعة

  • الموجّه قصير جدًا. جملة واحدة ليست موجّهًا؛ إنها علامة نوع مُغلَّفة بجملة. ثلاث جمل هو الحد الأدنى لنتيجة بأي طابع.
  • الموجّه طويل جدًا. ثماني جمل من بناء عالم مُفصَّل تمنح النموذج قيودًا أكثر مما يمكنه إرضاؤها في آنٍ واحد. سيُوسّطها وينتج لا شيئًا بعينه.
  • تغيير الأدوات في منتصف التكرار. كل مولّد له نموذج داخلي مختلف، و«الموجّه ذاته» يُنتج نتائج مختلفة هيكليًا عبر الأدوات. إذا غيّرت الأداة في منتصف الجلسة، تُصفّر أساس مقارنتك وتفقد سجل التكرار. اختر أداة واحدة لكل مسار وابقَ فيها.
  • إعادة التوليد بالمدخلات ذاتها وتوقع نتيجة مختلفة. التنوع في المخرجات للموجّهات المتطابقة حقيقي لكنه محدود. إذا كانت ثلاث أخذات متتالية خاطئة بالطريقة ذاتها، الموجّه هو المشكلة لا البذرة العشوائية.
  • تجاهل عدم تطابق الصوت. على جرس الصوت وسجله وطاقته الضمنية في كلماتك أن تتوافق مع الصوت الذي يختاره النموذج. كلمات مكتوبة لصوت باريتون أجش تُؤدّى بصوت تينور خفيف هي خطأ في الإلقاء، ولا تُصلح الإلقاء أي قدر من إعادة التوليد.

بعد أول مسار يعمل

نزّل الأصوات المنفصلة إذا كانت الأداة توفرها. حتى لو لم تخطط للمزج، وجود الصوت والموسيقى الآلية منفصلَين يعني إمكانية إعادة التصويت لاحقًا، أو تسليم الموسيقى الآلية لمغنٍّ حقيقي دون البدء من الصفر.

احفظ الموجّه تمامًا كما كان حين نجح. ليس الإصدار الذي كررت من خلاله — الإصدار النهائي. انسخه في ملف ملاحظات أو جدول بيانات أو أي مكان ليس داخل الأداة نفسها. معظم الأدوات لا تحفظ الموجّهات عبر الجلسات بشكل يمكنك البحث فيه بسهولة. تحفظ مكتبة الموسيقى في aisonggen سجل توليداتك والموجّهات التي أنتجت كل مسار تلقائيًا، مما يُقلل من مقدار ما تحتاج إدارته بنفسك، لكن لا يزال من المجدي الاحتفاظ بنسختك الخاصة من الموجّهات التي أنتجت أفضل نتائجك.

سجّل شيئين لكل مسار يعمل: مجموعة علامات النوع-المزاج التي استخدمتها، وأي عبارة وضع بدت مولّدة. عبر عشرة أو خمسة عشر مسارًا، تظهر أنماط — ستجد مجموعات العلامات التي تناسب نطاقك الإبداعي والصياغات التي تنتج بشكل موثوق شيئًا يستحق الحفظ. ذلك السجل أكثر قيمة من أي دليل، بما في ذلك هذا.

إذا أردت رؤية كيف يستخدم الآخرون المولّد قبل الالتزام بسير عملك الخاص، تُظهر صفحة المراجعات كيف يتعامل مستخدمون حقيقيون مع أنواع وحالات استخدام مختلفة.

الهدف ليس توليد الموسيقى. توليد الموسيقى هو الجزء السهل الآن — يمكن لأي شخص ضغط الزر. الهدف كتابة الأغاني. أغانٍ لها وجهة نظر ومركز عاطفي محدد وبنية تكسب نهايتها. الذكاء الاصطناعي هو طبقة الإنتاج: يتعامل مع الترتيب والمزيج والصوت. لا يزال عليك القيام بالكتابة. كلما أحضرت منها أكثر إلى الموجّه، قلّ ما تسمعه غائبًا في المخرج.

مقطعك التالي على بُعد مطالبة مجانية واحدة

افتح الاستوديو، اكتب المزاج، واستمع إلى أغنية مكتملة في 30 ثانية. مجاني للبدء، خالٍ من الإتاوات للنشر، لا حاجة إلى بطاقة ائتمان.