AISongGen logoAISongGen

Cara membuat musik AI yang tidak terdengar seperti musik AI

Panduan praktis — dari benih prompt hingga trek yang bisa dimasukkan ke playlist. Keputusan, iterasi, dan cara tahu kapan harus berhenti.

Baca 9 menit

Bagian yang sulit dari membuat musik AI bukan menekan tombolnya. Bagian yang sulit adalah mengetahui apa yang harus dimasukkan sebelum Anda menekannya, membaca hasilnya dengan kecermatan, dan memutuskan apakah harus terus atau berhenti. Kebanyakan orang yang menyebut musik AI "generik" tidak salah — mereka hanya berhenti terlalu awal dalam prosesnya, atau mereka mulai tanpa cukup kejelasan tentang apa yang sebenarnya ingin mereka buat.

Ini adalah panduan proses yang telah saya jalani beberapa ratus kali. Ini memperlakukan generasi sebagai iterasi, bukan sebagai transaksi mesin penjual otomatis. Ketika berhasil, outputnya tidak terdengar seperti ditulis mesin. Ketika gagal, Anda akan tahu persis keputusan mana yang harus ditinjau ulang.

Tentukan jenis lagu yang benar-benar Anda inginkan

Sebelum membuka alat apa pun, renungkan satu pertanyaan: pengalaman siapa yang hidup dalam lagu ini? Bukan "genre apa" dan bukan "nuansa apa" — itu bisa belakangan. Mulailah dengan perspektif, lalu tempat, lalu pusat gravitasi emosional.

Kerangka sederhana untuk ini:

Seorang [SIAPA] yang melakukan [APA], momen tepat sebelum [TITIK BALIK]. Emosi di bawahnya adalah [PERASAAN], bukan [PERASAAN PERMUKAAN]. Pertahankan [SATU KATA TONAL].

Perbedaan antara perasaan permukaan dan perasaan di baliknya bukan latihan menulis — melainkan instruksi generator. Lagu tentang "kesedihan" terdengar satu cara; lagu tentang kejengkelan spesifik karena tidak bisa menangis di pemakaman terdengar seperti rekaman yang sepenuhnya berbeda. Kekhususan itu masuk ke dalam generasi dengan cara yang sekadar tag genre tidak bisa lakukan.

Selagi Anda masih berpikir di atas kertas, tentukan durasi. Trek dua menit dan trek empat menit memerlukan pilihan struktural yang berbeda, dan generator akan menyimpang tanpa target. Pilih satu sebelum melanjutkan.

Langkah 1: tulis prompt yang menyebutkan postur, bukan tekstur

Sebagian besar prompt pertama mendeskripsikan suara: "lo-fi beat, tuts hangat, melankolis." Itu mendeskripsikan seperti apa trek seharusnya terasa bagi pendengar yang tiga langkah jauh dari emosinya. Postur mendeskripsikan apa yang dilakukan performer dengan tubuh dan perhatiannya.

Bandingkan keduanya:

  • Prompt tekstur: "R&B lambat, falsetto lembut, larut malam, rindu."
  • Prompt postur: "Seseorang membaca pesan lama yang telah mereka janjikan pada diri sendiri akan dihapus. Mereka terus membaca. Vokalnya pelan seperti mereka tidak ingin ada yang mendengar."

Keduanya mengarah ke tujuan emosional yang serupa. Prompt postur memberi model sesuatu untuk dipertunjukkan. Prompt tekstur memberinya referensi sonik dan tidak lebih. Hasilnya tidak setara.

Pertahankan prompt postur dalam tiga atau empat kalimat. Batas atasnya lebih rendah dari yang Anda kira — setelah sekitar lima kalimat model mulai merata-ratakan instruksi daripada membangun di atasnya.

Langkah 2: pilih generator yang memungkinkan Anda membandingkan take

Generator single-take membuat iterasi lambat dengan cara yang spesifik dan menjengkelkan: Anda mendapat hasil, hampir benar, Anda regenerasi dengan sedikit perubahan, dan take baru mendarat di arah yang sepenuhnya berbeda karena tidak ada jangkar bersama. Anda akhirnya mengejar take asli yang "hampir tepat" selama enam siklus.

Menjalankan varian paralel memecahkan masalah ini. Generator musik aisonggen merender lima take secara bersamaan dari prompt yang sama, sehingga Anda dapat membandingkannya berdampingan sebelum berkomitmen pada suatu arah. Jika dua dari lima berada di wilayah yang benar, Anda sudah melewati sebagian besar loop regenerasi.

Catatan yang jujur: lima take membutuhkan lebih banyak kredit daripada satu. Jika Anda memiliki anggaran kredit yang sangat ketat, jalankan dua take daripada lima dan jadikan satu sebagai referensi Anda. Intinya adalah memiliki setidaknya satu perbandingan, bukan memiliki lima.

Langkah 3: tulis atau co-write lirik Anda lebih dulu

Area lirik generator adalah kolom teks kecil, dan model yang berjalan di belakangnya memiliki kecenderungan kuat untuk mempertahankan apa pun yang Anda berikan — jumlah baris asli, skema rima asli, bahkan pola suku kata asli. Jika Anda menulis lirik di dalam kolom itu dan kemudian memutuskan ingin menambahkan bridge, Anda akan berlawanan dengan model di setiap regenerasi.

Draf lirik secara terpisah sebelum menempelkannya. Lyric Studio memberi Anda cukup ruang untuk benar-benar melihat apa yang Anda tulis. Anda dapat merevisi satu bait penuh, mencoba hook chorus yang berbeda, memindahkan pre-chorus sebelum menjadi struktural — semuanya sebelum menyerahkan apa pun ke generator.

Lirik-pertama juga memungkinkan Anda memeriksa satu hal yang tidak dapat dilakukan generator: apakah lirik memiliki ritme ucapan alami yang bisa dipertunjukkan penyanyi. Bacakan chorus Anda dengan suara keras. Jika Anda tersandung, model pun akan begitu.

Jika Anda membangun lirik secara interaktif bersama musiknya — prompt terlebih dahulu, perbaiki lirik kedua — alur kerja itu juga valid. Kuncinya adalah bahwa edit lirik terjadi di suatu tempat dengan ruang pengeditan yang nyata, bukan di kotak teks generator.

Langkah 4: pilih kontrol gaya dengan niat

Tag genre adalah benih, bukan kontrak. "Indie folk" tidak mengunci output ke gaya produksi tertentu — ia membias model ke arah kluster suara yang terkait dengan label tersebut, yang merupakan titik awal, bukan jaminan. Jika Anda ingin memahami bagaimana model sebenarnya menafsirkan tag ini sebelum berkomitmen, panduan tentang tag genre sepadan dengan sepuluh menit waktu Anda.

Yang sebenarnya membatasi output dengan lebih andal:

  • Mood, dinamai secara tepat. "Pahit-manis" dan "pasrah" mendarat berbeda bahkan dalam tag genre yang sama.
  • Adegan atau setting. "Tempat parkir kosong di tengah malam" memberi mix engineer (model, di sini) referensi visual untuk reverb dan ruang.
  • Gender dan register vokal. Sebagian besar generator menerima instruksi eksplisit di sini, dan default tidak selalu tepat untuk lirik Anda.

Atur BPM jika Anda mengetahuinya. Bukan rentang — sebuah angka. "Sekitar 90" memberi model terlalu banyak ruang. "88 BPM" memberinya jam. Sama dengan durasi trek: tulis durasi target secara eksplisit daripada menyerahkannya ke default.

Langkah 5: render, lalu dengarkan di speaker terburuk yang Anda miliki

Trek yang dihasilkan AI memiliki mode kegagalan yang diketahui: terdengar lebih baik di headphone daripada yang seharusnya. Bidang stereo sering lebar, low end terkendalikan, mixing bersih dengan cara yang hanya mengungkapkan dirinya sebagai buatan saat Anda mendengarnya di sesuatu yang tidak pemaaf.

Setelah render pertama, pindah ke speaker ponsel Anda. Atau laptop bawaan. Atau, jika Anda punya akses ke salah satunya, stereo mobil dengan jendela terbuka. Speaker-speaker ini memfokuskan bidang stereo, mengekspos lumpur low-mid, dan memunculkan kekasaran di rentang mid atas. Jika trek masih terdengar seperti trek — tidak harus bagus, tetapi koheren — maka Anda memiliki sesuatu yang layak dikerjakan.

Jika runtuh menjadi bubur, itu tidak selalu pertanda untuk regenerasi. Itu pertanda untuk melihat kontrol gaya Anda. Tag genre yang berat di low end ditambah pengaturan ruang yang hangat ditambah BPM lambat sering menghasilkan trek yang tidak bisa berpindah tempat. Sesuaikan satu variabel, bukan ketiganya.

Langkah 6: cover, re-render, atau berhenti

Mengetahui kapan harus berhenti adalah keterampilan yang memisahkan orang-orang yang merilis dari orang-orang yang memiliki empat ratus draft tersimpan dan tidak ada di playlist.

Tiga sinyal bahwa sebuah take sudah selesai:

  • Chorus benar-benar menarik. Anda merasakan kedatangannya sebelum memikirkannya. Jika Anda harus meyakinkan diri sendiri mengapa chorus berhasil, berarti tidak berhasil.
  • Vokal duduk di tempatnya. Penyanyi terdengar seperti mereka menyanyikan lagu ini, bukan mendemonstrasikan bahwa mereka bisa mencapai not-not ini. Vokal AI sering terlalu jelas mengucapkan konsonan — take yang bagus tidak begitu.
  • Tidak ada tanda-tanda AI yang Anda perhatikan pada pendengaran ketiga. Pola drum yang terlalu bersih secara metronomis. Transisi akord yang kurang variasi kecepatan. Not yang ditahan yang tidak pernah bernapas. Itulah tanda-tandanya. Satu di antaranya sering dapat diterima. Tiga terlalu banyak.

Jika take memenuhi dua dari tiga, berhenti dan anggap draft. Jika Anda memenuhi ketiganya, berhenti dan anggap selesai.

Re-rendering masuk akal ketika satu parameter spesifik salah dan Anda bisa menyebutnya. "Vokal terlalu cerah untuk lirik" adalah instruksi re-render. "Sesuatu terasa tidak beres" bukan — itu masalah mendengarkan, bukan masalah generasi, dan lebih banyak take tidak akan memperbaikinya.

Kesalahan umum

  • Prompt terlalu pendek. Satu kalimat bukan prompt; itu tag genre dengan bungkusan kalimat. Tiga kalimat adalah minimum untuk hasil dengan karakter apa pun.
  • Prompt terlalu panjang. Delapan kalimat world-building yang detail memberi model terlalu banyak batasan untuk dipenuhi secara bersamaan. Ia akan meratakannya dan tidak menghasilkan apa-apa khususnya.
  • Mengganti alat di tengah iterasi. Setiap generator memiliki model internal yang berbeda, dan "prompt yang sama" menghasilkan hasil yang secara struktural berbeda di berbagai alat. Jika Anda mengganti di tengah sesi, Anda mereset baseline perbandingan dan kehilangan riwayat iterasi. Pilih satu alat per trek dan tinggal di sana.
  • Regenerasi dengan input yang sama dan mengharapkan hasil yang berbeda. Variasi dalam output untuk prompt yang identik memang nyata tetapi terbatas. Jika tiga take berturut-turut semuanya salah dengan cara yang sama, promptnya adalah masalahnya, bukan seed acak.
  • Mengabaikan ketidaksesuaian vokal. Timbre vokal, register, dan energi yang tersirat oleh lirik Anda harus selaras dengan suara yang dipilih model. Lirik yang ditulis untuk baritone parau yang disampaikan oleh tenor ringan adalah kesalahan casting, dan tidak ada jumlah re-rendering yang memperbaiki casting.

Setelah trek pertama yang berhasil

Unduh stem jika alat menawarkannya. Bahkan jika Anda tidak berencana untuk mix, memiliki vokal dan instrumental yang dipisahkan berarti Anda dapat me-re-voice belakangan, atau menyerahkan instrumental ke penyanyi nyata tanpa memulai dari nol.

Simpan prompt persis seperti saat berhasil. Bukan versi yang Anda iterasi — versi finalnya. Salin ke file catatan, spreadsheet, di mana pun yang bukan di dalam alat itu sendiri. Sebagian besar alat tidak menyimpan prompt antar sesi dalam bentuk yang mudah Anda cari. Perpustakaan musik aisonggen menyimpan otomatis riwayat generasi Anda dan prompt yang menghasilkan setiap trek, yang mengurangi seberapa banyak yang perlu Anda kelola sendiri, tetapi tetap worth menyimpan salinan prompt terbaik Anda.

Catat dua hal untuk setiap trek yang berhasil: kombinasi tag genre-mood yang Anda gunakan, dan frasa postur apa pun yang terasa generatif. Dalam sepuluh atau lima belas trek, pola muncul — Anda akan menemukan kombinasi tag yang sesuai dengan jangkauan kreatif Anda dan frasa yang andal menghasilkan sesuatu yang layak disimpan. Catatan itu lebih berharga dari panduan mana pun, termasuk yang ini.

Jika Anda ingin melihat bagaimana orang lain menggunakan generator sebelum berkomitmen pada alur kerja Anda sendiri, halaman ulasan menunjukkan bagaimana pengguna nyata mendekati genre dan kasus penggunaan yang berbeda.

Tujuannya bukan menghasilkan musik. Menghasilkan musik adalah bagian yang mudah sekarang — siapa pun bisa menekan tombol. Tujuannya adalah menulis lagu. Lagu yang memiliki perspektif, pusat emosional yang spesifik, struktur yang memenangkan akhirnya. AI adalah lapisan produksi: ia menangani aransemen, mixing, suara. Anda masih harus melakukan penulisan. Semakin banyak yang Anda bawa ke prompt, semakin sedikit yang Anda dengar hilang dalam output.

Track berikutnya hanya satu prompt gratis lagi

Buka studio, ketik vibe-nya, dengarkan lagu jadi dalam 30 detik. Mulai gratis, kirim bebas royalti, tanpa kartu kredit.