Lyria 2 dari Google DeepMind adalah karya yang benar-benar mengesankan dari salah satu tim riset audio paling serius di dunia. Jika kamu sudah mendengar demonya, kamu tahu fidelitas instrumental sangat luar biasa — bertekstur, hidup secara dinamis, dengan musikalitas yang belum ditandingi banyak generator komersial pada lapisan aransemen rendah dan menengah. Itu nyata.
Gesekannya ada di tempat lain. Akses ke Lyria 2 bukan formulir pendaftaran dan kartu kredit — melainkan daftar tunggu, integrasi mitra, atau permukaan eksperimental di dalam produk yang sudah ada. Bagi banyak kreator solo dan tim kecil, "mengesankan ketika bisa dijangkau" bukan jawaban yang bisa diterapkan ketika ada tenggat waktu minggu ini. Dan bahkan ketika kamu mendapatkan akses, lapisan produk konsumen tidak merata di berbagai titik distribusi: output berbentuk-lagu, alur kerja lirik-penuh, dan penampilan vokal jangka panjang memiliki tingkat kematangan yang berbeda tergantung permukaan mana yang kamu gunakan. Kesenjangan itu penting dalam praktik.
Artikel ini melihat secara jujur apa yang diwakili Lyria 2, di mana ia saat ini kurang memadai untuk pekerjaan produksi sehari-hari, dan lima generator yang menghasilkan lagu lengkap sekarang — dengan trade-off yang dibuat eksplisit.
Apa yang Lyria 2 mewakili
Lyria 2 dibangun di atas silsilah yang dimulai dengan MusicLM, makalah landmark Google dari awal 2023 yang mendemonstrasikan generasi musik dengan kondisi teks pada tingkat kualitas yang menandakan riset telah mengejar ambisi. Lyria sendiri pertama kali hadir sebagai tulang punggung yang mendukung eksperimen Dream Track YouTube, di mana segelintir artis mengizinkan suara mereka disintesis ke dalam klip pendek. Lyria 2 memperluas model secara substansial: kualitas sampel yang lebih tinggi, kapabilitas multibahasa yang lebih baik, dan pemahaman yang lebih kuat tentang aransemen instrumental.
Aspek multibahasa secara khusus patut dicatat. Banyak generator musik komersial terutama dilatih pada korpus berbahasa Inggris, sehingga generasi vokal non-Inggris sering goyah atau terdengar aneh secara stilistik. Skala dan sumber daya data Google berarti Lyria 2 menangani berbagai set fonem dan tradisi musik dengan lebih kredibel. Bagi peneliti yang membangun jalur audio multibahasa, ini sangat penting.
Generasi instrumental adalah tempat model menunjukkan batasnya paling jelas. Tekstur orkestral yang padat, perilaku seksi ritme yang akurat secara genre, dan mikro-dinamis yang membuat track yang diproduksi terasa "nyata" daripada sintetis — ini adalah area di mana demo Lyria 2 secara konsisten berkinerja di atau mendekati puncak bidangnya. Jika kamu membutuhkan instrumental tiga puluh detik untuk prototipe riset atau eksperimen terkontrol, sulit untuk menyalahkan kualitas outputnya.
Di mana Lyria 2 belum cocok
Keterbatasannya bersifat struktural, bukan insidental, dan layak disebutkan dengan jelas daripada ditutupi.
Kematangan aplikasi konsumen. Tidak ada pengalaman "pergi ke lyria2.google.com, daftar, mulai menghasilkan". Rute akses per awal 2026 mencakup eksperimen AI Studio, integrasi mitra, dan permukaan Dream Track lama — tidak ada yang memberi kamu lingkungan pembuatan musik yang konsisten dan berfitur lengkap. Jika kamu membangun proyek yang bergantung pada akses yang dapat diulang ke suatu alat, model distribusi Lyria 2 menimbulkan risiko.
Alur kerja lirik penuh. Output berbentuk-lagu — artinya track dengan verse, pre-chorus, chorus, bridge, dan outro yang dipetakan ke lirik yang benar-benar kamu tulis — kurang matang dari apa yang dibangun produk komersial yang fokus pada lagu. Lyria 2 unggul dalam generasi yang dikondisikan dari prompt pendek; ia tidak terutama dirancang untuk mengeksekusi lembar lirik terstruktur di seluruh empat menit dengan karakter dan energi yang konsisten. Alat-alat yang dijelaskan di bawah ini dibangun khusus untuk kasus penggunaan tersebut.
Penampilan vokal jangka panjang. Generasi vokal jangka pendek adalah tempat model paling kuat. Track jangka panjang cenderung menunjukkan lebih banyak varians dalam kealamian vokal, waktu frasa, dan penempatan napas. Generator komersial yang menjalankan ribuan penyelesaian lagu penuh setiap hari telah disetel khusus untuk mode kegagalan ini. Lyria 2 belum memiliki loop umpan balik itu.
Akses yang dapat diprediksi dan harga yang transparan. Kreator solo atau studio kecil perlu mengetahui berapa biaya generasi, apakah mereka akan memiliki kuota besok, dan apa pilihan mereka ketika mencapai batas. Lyria 2 tidak memiliki tier harga yang diterbitkan yang menjawab pertanyaan-pertanyaan ini secara langsung.
Lima alternatif yang menghasilkan lagu hari ini
Suno
Suno adalah salah satu generator konsumen pertama yang membuat lagu penuh — vokal, instrumentasi, produksi — terasa benar-benar dapat digunakan oleh non-musisi. Model v4 khususnya mendorong kealamian vokal secara nyata ke depan: pengucapan lebih bersih, vibrato lebih terkontrol, dan kontur emosional lirik cenderung mendarat lebih konsisten dibanding versi sebelumnya.
Antarmukanya dirancang untuk iterasi cepat. Kamu mendeskripsikan suasana, menempel atau menulis lirik, memilih tag gaya, dan mendapatkan beberapa penyelesaian dalam waktu kurang dari satu menit. Generasi cover art disertakan, dan fitur berbagi sudah matang. Bagi kreator yang ingin bergerak cepat dari ide ke tautan yang dapat dibagikan, kecepatan iterasi Suno sulit dikalahkan.
Kelemahannya adalah prediktabilitas pada batasan genre tertentu. Jika kamu membutuhkan sesuatu yang duduk secara otentik dalam subgenre yang sempit — katakanlah, soul klasik dengan voiceing horn tertentu — output dapat melayang ke versi gaya yang lebih dirata-ratakan. Model mengoptimalkan untuk daya tarik yang luas lebih dari akurasi ketat di tepi genre.
Udio
Diferensiasi Udio ada pada lapisan detail produksi. Model cenderung menghasilkan track di mana keputusan mixing — penempatan reverb, lebar stereo, udara frekuensi tinggi — terasa lebih disengaja dari banyak pesaing. Jika kamu mendengarkan output pada speaker atau headphone yang layak dan bertanya "apakah ini terasa seperti track nyata?", Udio sering menang pada pertanyaan spesifik itu.
Jalur lirik-ke-lagu membutuhkan sedikit rekayasa prompt manual lebih banyak dari beberapa generator, tetapi kontrol yang diberikan sebagai imbalannya berarti. Kamu bisa mengarahkan energi, waktu drop, dan kepadatan produksi melalui konstruksi prompt dengan cara yang terasa responsif daripada acak.
Akses tersedia melalui langganan dengan harga tier yang jelas. Kecepatan generasi moderat — tidak secepat beberapa, tetapi konsistensi output cenderung lebih tinggi per percobaan.
aisonggen
Generator musik aisonggen adalah produk konsumen penuh yang dibangun untuk alur kerja yang tepat di mana Lyria 2 meninggalkan kesenjangan: pembuatan lagu terstruktur dengan lirik yang kamu kontrol, antarmuka produksi nyata, dan akses yang dapat diprediksi. Mode Cerdas menangani pekerjaan berat saat kamu memiliki ide kasar dan ingin sistem mengisi keputusan genre, tempo, dan aransemen; mode Disesuaikan memberi kontrol langsung saat kamu tahu apa yang kamu inginkan.
Setiap proses generasi menghasilkan lima varian paralel, yang berarti kamu membandingkan pilihan daripada berkomitmen pada satu output. Lyric Studio adalah alat terpisah dalam produk yang sama untuk mengerjakan lirik penuh sebelum generasi — mendukung struktur verse/chorus/bridge dan mencakup fungsi Expand dan Condense untuk menyesuaikan baris ke panjang target. Generator cover menangani karya seni tanpa beralih ke layanan terpisah. Harga diterbitkan dengan jelas dengan biaya kredit per generasi terlihat sebelum kamu mulai.
Catatan jujur: aisonggen dilatih pada skala produk komersial yang fokus, bukan laboratorium riset terdepan dengan sumber daya komputasi Google. Pada tepi atas kealamian vokal — momen di mana suara berhenti terdengar dihasilkan dan mulai terdengar seperti rekaman — Suno dan Udio terkadang masih memiliki keunggulan pada prompt tertentu, terutama untuk pop dan R&B berbahasa Inggris di mana model-model itu telah melakukan fine-tuning paling banyak. Untuk sebagian besar genre dan sebagian besar kasus penggunaan, kesenjangan tersebut tidak terdengar oleh pendengar biasa. Bagi spesialis yang mengevaluasi batas absolut, layak menguji genre spesifikmu secara langsung.
Mureka
Mureka memposisikan dirinya dalam segmen profesional dan lisensi sync dari pasar. Model dilatih dengan perhatian khusus pada kasus penggunaan penempatan komersial — track di mana komposisi perlu duduk di bawah dialog, mencocokkan tempo visual, atau menghindari tabrakan frekuensi dengan voice-over. Jika kamu membuat musik untuk konten video daripada mendengarkan musik pertama, output Mureka sering lebih langsung siap produksi untuk konteks itu.
Antarmukanya lebih terstruktur dari generator konsumen-first, yang bisa terasa seperti overhead jika kamu menginginkan hasil cepat tetapi benar-benar berguna jika kamu membangun perpustakaan aset yang dapat dilisensikan. Ekspor stem — mendapatkan file terpisah untuk drum, bass, melodi, dan vokal — adalah fitur yang didukung Mureka yang tidak ditawarkan banyak pesaing pada tingkat yang sama.
Trade-off-nya adalah ekspresivitas vokal untuk mendengarkan musik-pertama yang murni kurang diprioritaskan dibanding Suno atau Udio. Model dioptimalkan untuk output yang bersih, dapat diprediksi, dan dapat dilisensikan daripada momen puncak emosional.
Stable Audio
Stable Audio, dari Stability AI, mengambil pendekatan filosofis yang berbeda: model dibangun dengan kesadaran kuat tentang data pelatihan yang bersih dari hak cipta, yang sangat penting untuk kasus penggunaan profesional di mana hak musik adalah bagian dari percakapan. Jika kamu membuat konten untuk merek, agen, atau platform dengan kebijakan lisensi audio yang ketat, silsilah pelatihan Stable Audio adalah pembeda yang berarti.
Versi saat ini menangani generasi instrumental dengan sangat baik — ia dapat menghasilkan produksi yang akurat secara genre untuk berbagai gaya elektronik dan akustik. Generasi vokal penuh dengan lirik kurang matang dari pekerjaan instrumental, sehingga Stable Audio paling kuat ketika kamu membutuhkan bed musik, underscore, atau instrumental daripada lagu lengkap dengan vokal utama.
Sifat open-weight dari beberapa model Stable Audio juga berarti alur kerja yang dihosting sendiri atau terintegrasi API adalah pilihan bagi tim dengan kapasitas teknik, yang tidak biasa di bidang ini.
Cara memilih berdasarkan linimasa kamu
- Perlu menerbitkan sesuatu minggu ini — Suno atau aisonggen. Keduanya memiliki pembuatan akun instan, harga yang diterbitkan, dan dapat menghasilkan track yang dapat dibagikan dalam waktu kurang dari lima menit dari prompt. Tidak ada daftar tunggu, tidak ada overhead integrasi.
- Dapat menghabiskan satu minggu untuk evaluasi — jalankan prompt yang sama melalui Suno, Udio, dan aisonggen dan dengarkan output terhadap genre dan struktur lirik spesifikmu. Jawaban yang tepat bervariasi berdasarkan kasus penggunaan lebih dari peringkat kualitas universal.
- Memprioritaskan kealamian vokal absolut di atas segalanya — Suno dan Udio saat ini paling kuat pada dimensi ini untuk pop berbahasa Inggris dan genre arus utama. Uji keduanya pada gaya spesifikmu sebelum berkomitmen.
- Membutuhkan musik untuk video, merek, atau lisensi sync — Mureka atau Stable Audio. Keduanya dibangun dengan alur kerja penempatan komersial dalam pikiran dan memiliki jawaban yang lebih bersih untuk pertanyaan hak yang diangkat penggunaan profesional.
- Membangun alur kerja produksi yang lebih panjang dengan lirik, cover, dan berbagi — set alat terintegrasi aisonggen (generator musik, Lyric Studio, generator cover, dan text-to-speech) berarti lebih sedikit perpindahan konteks selama sesi produksi penuh.
Rencana uji sederhana
- Tulis chorus empat baris dalam genre apa pun yang kamu pedulikan. Gunakan lirik nyata dengan target emosional tertentu — bukan placeholder. Ini adalah input konsisten kamu.
- Jalankan melalui tiga generator dalam daftar pendekmu. Pertahankan semua variabel lain (deskripsi gaya, petunjuk tempo) identik di semua proses.
- Dengarkan dengan headphone tanpa melihat alat mana yang menghasilkan setiap track. Nilai masing-masing pada: apakah vokal terasa alami, apakah produksi sesuai genre, apakah energi cocok dengan maksud emosional lirik.
- Jalankan generasi kedua dari performer terbaikmu dengan tag gaya yang sedikit berbeda. Jika output bergeser ke arah yang berguna, model merespons kontrolmu; jika terdengar pada dasarnya sama, kamu telah menemukan batasnya untuk kasus penggunaanmu.
- Periksa bahwa alat pilihanmu memiliki tier harga dan model penggunaan yang sesuai dengan volumenmu — biaya per generasi, batas bulanan, dan apa yang terjadi ketika kamu melampauinya adalah hal-hal yang ingin dikonfirmasi sebelum mengintegrasikan alat ke dalam proyek serius.
Lyria 2 kemungkinan akan semakin berarti sebagai produk konsumen seiring waktu. Google memiliki kedalaman riset dan infrastruktur distribusi untuk menutup kesenjangan lapisan produk. Tetapi "akan berarti pada akhirnya" dan "alat yang tepat untuk proyek minggu depan" adalah pertanyaan yang berbeda, dan lima alat di atas adalah jawaban jujur untuk pertanyaan kedua sekarang. Uji terhadap konten aktualmu, bukan demo tolok ukur, dan pilih yang memecahkan masalah spesifikmu.