AISongGen logoAISongGen

Cara membuat muzik AI yang tidak terdengar seperti muzik AI

Panduan praktikal — dari benih prompt ke trek yang boleh anda letakkan dalam senarai main. Keputusan, ulangan, cara mengetahui bila hendak berhenti.

9 min bacaan

Bahagian yang sukar dalam membuat muzik AI bukan menekan butang. Bahagian yang sukar adalah mengetahui apa yang perlu dimasukkan sebelum anda menekannya, membaca apa yang dikembalikan dengan sebarang kebijaksanaan, dan memutuskan sama ada perlu terus atau berhenti. Kebanyakan orang yang menyebut muzik AI "generik" tidak salah — mereka hanya berhenti terlalu awal dalam proses, atau mereka bermula tanpa kejelasan yang cukup tentang apa yang sebenarnya mereka cuba buat.

Ini adalah panduan proses yang telah saya jalankan beberapa ratus kali. Ia menganggap penjanaan sebagai pengulangan, bukan sebagai transaksi mesin layan diri. Apabila ia berjaya, output tidak terdengar seperti mesin yang menulisnya. Apabila ia gagal, anda akan tahu dengan tepat keputusan mana yang perlu dikunjungi semula.

Tentukan jenis lagu yang sebenarnya anda mahukan

Sebelum membuka mana-mana alat, duduk dengan satu soalan: pengalaman siapa yang lagu ini hidup di dalamnya? Bukan "genre apa" dan bukan "vib apa" — itu datang kemudian. Mulakan dengan perspektif, kemudian tempat, kemudian pusat graviti emosi.

Kerangka mudah untuk ini:

Seorang [SIAPA] yang [BUAT APA], saat sebelum [TITIK PUSING]. Emosi di bawah adalah [PERASAAN], bukan [PERASAAN PERMUKAAN]. Simpan ia [SATU PERKATAAN NADA].

Perbezaan antara perasaan permukaan dan perasaan di bawah bukan latihan penulisan — ia adalah arahan penjana. Lagu tentang "kesedihan" kedengaran satu cara; lagu tentang kerengsaan khusus tidak mampu menangis di pengebumian kedengaran seperti rekod yang sama sekali berbeza. Kekhususan itu bergerak ke dalam penjanaan dengan cara yang tag genre tidak boleh.

Semasa anda masih berfikir di atas kertas, putuskan panjang. Trek dua minit dan trek empat minit memerlukan pilihan struktur yang berbeza, dan penjana akan hanyut tanpa sasaran. Pilih satu sebelum anda bergerak.

Langkah 1: tulis prompt yang menamakan postur, bukan tekstur

Kebanyakan prompt pertama menghuraikan bunyi: "beat lo-fi, kekunci hangat, melankoli." Itu menghuraikan bagaimana trek sepatutnya terasa kepada pendengar tiga langkah jauh dari emosi. Postur menghuraikan apa yang pemain lakukan dengan badan dan perhatian mereka.

Bandingkan dua ini:

  • Prompt tekstur: "R&B perlahan, falsetto lembut, malam lewat, kerinduan."
  • Prompt postur: "Seseorang membaca mesej lama yang mereka berjanji akan padam. Mereka terus membaca. Vokal adalah senyap seperti mereka tidak mahu sesiapa mendengar."

Kedua-duanya menunjuk ke destinasi emosi yang serupa. Prompt postur memberi model sesuatu untuk dipersembahkan. Prompt tekstur memberinya rujukan sonik dan tiada yang lain. Hasilnya tidak setara.

Simpan prompt postur kepada tiga atau empat ayat. Siling adalah lebih rendah daripada yang anda fikir — selepas kira-kira lima ayat model mula merata-rata merentasi arahan daripada membina berdasarkannya.

Langkah 2: pilih penjana yang membolehkan anda membandingkan take

Penjana satu-take membuat pengulangan lambat dengan cara yang khusus dan menjengkelkan: anda mendapat hasil, ia hampir betul, anda menjana semula dengan tweak kecil, dan take baru mendarat dalam arah yang sama sekali berbeza kerana tiada jangkar yang dikongsi. Anda akhirnya mengejar take asal yang "hampir" selama enam kitaran.

Menjalankan varian selari menyelesaikan ini. Penjana muzik aisonggen merender lima take serentak dari prompt yang sama, jadi anda boleh membandingkannya sebelah menyebelah sebelum berkomitmen ke arah. Jika dua daripada lima berada dalam wilayah yang betul, anda sudah melangkau kebanyakan gelung jana semula.

Nota yang adil: lima take memerlukan lebih banyak kredit daripada satu. Jika anda mempunyai bajet kredit yang sangat ketat, jalankan dua take daripada lima dan anggap satu sebagai rujukan anda. Mata adalah untuk mempunyai sekurang-kurangnya satu perbandingan, bukan untuk mempunyai lima.

Langkah 3: tulis atau tulis bersama lirik anda dahulu

Kawasan lirik penjana adalah medan teks kecil, dan model yang berjalan di belakangnya mempunyai keutamaan yang kuat untuk mengekalkan apa sahaja yang anda berikan — bilangan baris asal, skim rima asal, bahkan corak suku kata asal. Jika anda menulis lirik di dalam medan itu dan memutuskan kemudian anda ingin menambah jembatan, anda akan bergaduh dengan model pada setiap jana semula.

Draf lirik secara berasingan sebelum menampalnya. Lyric Studio memberi anda ruang yang cukup untuk benar-benar melihat apa yang anda tulis. Anda boleh menyemak semula verse penuh, mencuba hook chorus yang berbeza, menggerakkan pre-chorus sebelum ia menjadi struktur — semua sebelum menyerahkan apa-apa kepada penjana.

Lirik-dahulu juga membolehkan anda memeriksa satu perkara yang penjana tidak boleh: sama ada lirik mempunyai irama pertuturan semula jadi yang penyanyi benar-benar boleh mendarat. Baca chorus anda dengan kuat. Jika anda tersadung, model juga akan tersadung.

Jika anda membina lirik secara interaktif bersama muzik — prompt dahulu, halusi lirik kedua — aliran kerja itu juga sah. Kuncinya adalah pengeditan lirik berlaku di suatu tempat dengan ruang pengeditan sebenar, bukan dalam kotak teks penjana.

Langkah 4: pilih kawalan gaya anda dengan niat

Tag genre adalah benih, bukan kontrak. "Indie folk" tidak mengunci output ke mana-mana gaya pengeluaran tertentu — ia condong model ke arah kelompok bunyi yang dikaitkan dengan label tersebut, yang merupakan titik permulaan, bukan jaminan. Jika anda ingin memahami bagaimana model sebenarnya mentafsir tag-tag ini sebelum berkomitmen, panduan tentang tag genre adalah patut sepuluh minit masa anda.

Yang sebenarnya mengekang output dengan lebih boleh dipercayai:

  • Mood, dinamakan dengan tepat. "Pahit-manis" dan "berserah" mendarat secara berbeza walaupun dalam tag genre yang sama.
  • Adegan atau latar. "Tempat letak kereta kosong pada tengah malam" memberi jurutera campuran (model, di sini) rujukan visual untuk reverb dan ruang.
  • Jantina dan register vokal. Kebanyakan penjana menerima arahan eksplisit di sini, dan lalai tidak selalu yang betul untuk lirik anda.

Tetapkan BPM jika anda tahu. Bukan julat — nombor. "Sekitar 90" memberi model terlalu banyak ruang. "88 BPM" memberinya jam. Sama dengan panjang trek: tulis tempoh sasaran secara eksplisit daripada membiarkannya pada lalai.

Langkah 5: render, kemudian dengar pada pembesar suara paling teruk yang anda miliki

Trek yang dijana AI mempunyai mod kegagalan yang diketahui: ia kedengaran lebih baik pada fon kepala daripada yang sepatutnya. Medan stereo sering lebar, hujung rendah terkawal, campuran adalah bersih dengan cara yang hanya mendedahkan dirinya sebagai artifisial apabila anda mendengarnya pada sesuatu yang tidak mengampunkan.

Selepas render pertama, beralih ke pembesar suara telefon anda. Atau built-in laptop. Atau, jika anda mempunyai akses, stereo kereta dengan tingkap turun. Pembesar suara ini meruntuhkan medan stereo, mendedahkan lumpur pertengahan-rendah, dan mendedahkan kekasaran dalam julat pertengahan atas. Jika trek masih kedengaran seperti trek — bukan semestinya bagus, tetapi padu — maka anda mempunyai sesuatu yang patut diusahakan.

Jika ia runtuh menjadi lumpur, itu bukan selalu tanda untuk jana semula. Ia adalah tanda untuk melihat kawalan gaya anda. Tag genre berhujung rendah-berat ditambah tetapan bilik hangat ditambah BPM perlahan sering menghasilkan trek yang tidak boleh bergerak. Laraskan satu pembolehubah, bukan ketiga-tiga.

Langkah 6: cover, render semula, atau berhenti

Mengetahui bila hendak berhenti adalah kemahiran yang memisahkan orang yang menghantar dari orang yang mempunyai empat ratus draf yang disimpan dan tiada apa-apa dalam senarai main.

Tiga isyarat bahawa satu take sudah selesai:

  • Chorus benar-benar menarik. Anda merasai ketibaan sebelum anda berfikir tentangnya. Jika anda perlu memikirkan sendiri mengapa chorus berfungsi, ia tidak berfungsi.
  • Vokal duduk dalam poket. Penyanyi kedengaran seperti mereka menyanyikan lagu ini, bukan menunjukkan bahawa mereka boleh memukul nota ini. Vokal AI sering terlampau jelas konsonan — take yang baik tidak.
  • Tiada AI-tells yang anda perasan pada pendengaran ketiga. Corak dram yang terlalu metronomik bersih. Peralihan akord yang tidak mempunyai variasi halaju. Nota yang ditahan yang tidak pernah bernafas. Ini adalah tanda-tandanya. Satu daripadanya sering boleh diterima. Tiga adalah terlalu banyak.

Jika take menepati dua daripada tiga, berhenti dan panggil ia draf. Jika anda menepati ketiga-tiga, berhenti dan panggil ia selesai.

Render semula adalah masuk akal apabila satu parameter tertentu salah dan anda boleh menamainya. "Vokal terlalu terang untuk lirik" adalah arahan render semula. "Sesuatu terasa tidak kena" bukan — itu adalah masalah pendengaran, bukan masalah penjanaan, dan lebih banyak take tidak akan membetulkannya.

Kesilapan biasa

  • Prompt terlalu pendek. Satu ayat bukan prompt; ia adalah tag genre dengan pembalut ayat. Tiga ayat adalah minimum untuk hasil dengan sebarang watak.
  • Prompt terlalu panjang. Lapan ayat pembinaan dunia terperinci memberi model terlalu banyak kekangan untuk dipenuhi serentak. Ia akan merata-ratakan dan menghasilkan tiada yang khusus.
  • Menukar alat di tengah pengulangan. Setiap penjana mempunyai model dalaman yang berbeza, dan "prompt yang sama" menghasilkan keputusan yang berbeza secara struktur merentasi alat. Jika anda bertukar di tengah sesi, anda tetapkan semula asas perbandingan anda dan hilang sejarah pengulangan. Pilih satu alat setiap trek dan kekal di sana.
  • Jana semula dengan input yang sama dan mengharapkan hasil yang berbeza. Variasi dalam output untuk prompt yang sama adalah nyata tetapi terbatas. Jika tiga take berturut-turut semuanya salah dengan cara yang sama, prompt adalah masalahnya, bukan benih rawak.
  • Mengabaikan ketidakpadanan vokal. Timbral, register, dan tenaga vokal yang tersirat oleh lirik anda perlu sejajar dengan suara yang model pilih. Lirik yang ditulis untuk bariton yang serak yang disampaikan oleh tenor yang ringan adalah kesilapan casting, dan tiada jumlah render semula yang membetulkan casting.

Selepas trek pertama yang berfungsi

Muat turun stem jika alat menawarkannya. Walaupun anda tidak merancang untuk dicampur, mempunyai vokal dan instrumental yang dipisahkan bermakna anda boleh menyuarakan semula kemudian, atau menyerahkan instrumental kepada penyanyi sebenar tanpa bermula dari awal.

Simpan prompt dengan tepat seperti yang ia ketika berfungsi. Bukan versi yang anda ulang — versi akhir. Salinnya ke dalam fail nota, spreadsheet, di mana sahaja yang bukan di dalam alat itu sendiri. Kebanyakan alat tidak mengekalkan prompt merentasi sesi dalam bentuk yang mudah dicari. Perpustakaan muzik aisonggen menyimpan secara automatik sejarah penjanaan anda dan prompt yang menghasilkan setiap trek, yang mengurangkan seberapa banyak yang perlu anda uruskan sendiri, tetapi masih patut menyimpan salinan prompt anda sendiri yang menghasilkan hasil terbaik anda.

Log dua perkara untuk setiap trek yang berfungsi: kombinasi tag genre-mood yang anda gunakan, dan sebarang frasa postur yang terasa generatif. Merentasi sepuluh atau lima belas trek, corak muncul — anda akan menemui kombinasi tag yang sesuai dengan julat kreatif anda dan frasa yang secara boleh dipercayai menghasilkan sesuatu yang patut disimpan. Log itu lebih berharga daripada mana-mana panduan, termasuk yang ini.

Jika anda ingin melihat bagaimana orang lain menggunakan penjana sebelum berkomitmen kepada aliran kerja anda sendiri, halaman ulasan menunjukkan bagaimana pengguna sebenar mendekati genre dan kes penggunaan yang berbeza.

Matlamatnya bukan untuk menjana muzik. Menjana muzik adalah bahagian yang mudah sekarang — sesiapa boleh menekan butang. Matlamatnya adalah untuk menulis lagu. Lagu yang mempunyai perspektif, pusat emosi yang khusus, struktur yang mendapat penghujungnya. AI adalah lapisan pengeluaran: ia mengendalikan susunan, campuran, suara. Anda masih perlu melakukan penulisan. Lebih banyak yang anda bawa kepada prompt, semakin kurang yang anda dengar hilang dalam output.

Trek anda yang seterusnya hanya satu prom percuma jauhnya

Buka studio, taip vibe, dengar lagu siap dalam 30 saat. Percuma untuk mula, bebas royalti untuk dihantar, tiada kad kredit diperlukan.