AISongGen logoAISongGen

Alternatif Riffusion terbaik — apabila anda mahukan lagu penuh berbanding landskap bunyi

Kekuatan Riffusion adalah tekstur dan eksperimen; ia bukan apa yang anda capai apabila anda memerlukan lagu empat minit berbentuk ayat-korus. Lima alat yang menutup jurang.

7 min bacaan

Buka Riffusion, taip prompt seperti "jazz lo-fi dengan hujan dan trompet yang jauh," tekan jana, dan sesuatu yang benar-benar menarik keluar. Tekstur yang lembap dan kabur yang kedengaran seperti dirakam di tandas kafe pada tahun 1973. Anda mainkan dua kali, angguk, dan kemudian sedar: ia 28 saat panjang, tiada ayat atau korus, dan anda tidak tahu sama ada anda boleh meletakkannya dalam projek komersial. Itulah pengalaman Riffusion dalam satu perenggan.

Tiada satu pun daripada itu adalah kritikan terhadap apa yang projek itu cuba lakukan. Riffusion bermula sebagai eksperimen sumber terbuka — menjana audio dengan menjalankan pemancaran ke atas imej spektrogram, merawat bunyi sebagai masalah ruang laten visual. Ia benar-benar baru. Tetapi "benar-benar baru" dan "alat yang boleh saya gunakan untuk menyiapkan lagu hari ini" adalah keperluan yang berbeza. Jika anda memerlukan trek empat minit dengan struktur yang betul, vokal yang boleh difahami, dan lesen yang jelas, Riffusion bukan titik permulaan yang betul. Artikel ini merangkumi lima alternatif yang ada, dan menerangkan cara memilih di antara mereka.

Apa yang Riffusion sebenarnya baik

Sebelum menelusuri alternatif, patut tepat tentang di mana Riffusion masih mendapat tempat dalam aliran kerja.

Tekstur dan atmosfera adalah output paling kuatnya. Jika anda memerlukan lapisan ambien, dengungan industri, atau sesuatu yang kedengaran seperti dua genre bertembung di tengah penerbangan, penjanaan berasaskan spektrogram Riffusion boleh menghasilkan keputusan yang terasa kurang "pop AI yang dipoles" dan lebih "rakaman lapangan ditambah sintesis." Itu adalah pembeza sebenar untuk pereka bunyi, editor trailer, dan pengeluar eksperimental.

Gelung pendek adalah di mana ia bersinar dari segi berstruktur. Apabila anda tidak memerlukan lagu — anda memerlukan gelung lapan bar untuk duduk di bawah suara latar, atau tekstur untuk berlapis di belakang intro podcast — panjang output berhenti menjadi kekangan dan menjadi ciri. Klipnya cukup pendek untuk diperiksa dengan cepat dan ditolak tanpa banyak kos.

Cantuman genre yang akan terasa janggal dalam penjana yang lebih berstruktur adalah rutin dalam Riffusion. "Bossa nova tetapi melalui dek kaset yang rosak" bukan prompt yang pelik di sana. Pendekatan pemancaran model menghasilkan campuran yang kadang-kadang disederhanakan oleh penjana yang lebih berpusatkan vokal ke satu label genre atau yang lain.

Di mana Riffusion tidak mencukupi

Jurang muncul sebaik sahaja anda mahukan lagu berbanding tekstur.

Struktur lagu penuh adalah kekangan yang paling jelas. Klip Riffusion tidak mengikuti seni bina ayat-korus-jambatan dengan boleh dipercayai. Anda mendapat serpihan nuansa, bukan lagu dengan busur dramatik. Memperlanjutkan klip menggunakan ciri gelung alat membantu sedikit, tetapi peralihan antara bahagian jarang mendarat dengan jenis anjakan dinamik yang membuat pendengar merasakan lagu bergerak.

Koheren vokal merosot dengan cepat. Riffusion boleh menjana sesuatu yang kedengaran kira-kira seperti nyanyian, tetapi fonem sering kabur atau rekaan. Anda tidak boleh mengawal baris melodi, hook lirik, atau bahkan sama ada vokal kekal pada paduan merentasi klip 90 saat. Untuk mana-mana projek di mana lirik penting — rap, pop, R&B, penulis lagu-penyanyi — ini adalah tidak layak sendiri.

Panjang adalah siling keras. Platform tidak menjana trek empat minit secara aslinya. Penyelesaian wujud, tetapi ia memerlukan penggabungan manual dan memperkenalkan kelim yang boleh didengari yang mengurangkan hasil akhir.

Kawalan prompt adalah longgar mengikut reka bentuk. Pendekatan spektrogram secara dasarnya kurang setia prompt berbanding model yang dilatih lebih langsung pada metadata dan struktur lagu. Anda boleh memimpin arah tetapi jarang menentukan satu. Ini menjadikan iterasi perlahan: anda mempersempitkan ruang kebarangkalian berbanding mengadun parameter.

Eksport stem tidak tersedia. Anda tidak boleh mengeluarkan lapisan vokal dari instrumental, yang penting jika anda ingin remix, tukar paduan, atau hanya gunakan rentak sahaja.

Pelesenan penggunaan komersial secara historis tidak jelas. Asal usul sumber terbuka dan terma produk yang dihoskan tidak jelas diselesaikan kepada "anda boleh mewangkan ini." Untuk penggunaan profesional, kekaburan itu mempunyai kos sebenar.

Lima alternatif yang mengendalikan kerja lagu penuh

Suno

Suno adalah penanda aras untuk lagu yang dijana AI dengan struktur sebenar. Ia menghasilkan trek yang mengikuti bentuk lagu pop dan hip-hop yang boleh dikenali — intro, ayat, korus, jambatan, outro — dengan vokal yang sebenarnya berfrase secara melodis dan kekal kira-kira pada paduan. Integrasi lirik adalah yang paling kuat dalam kategori ini: apa yang anda tulis dalam prompt mendarat dalam audio dalam bentuk yang boleh dikenali.

Kelemahannya adalah keseragaman pada skala. Output Suno cenderung kedengaran seperti Suno. Palet tonal, profil reverb, cara korus terangkat — corak ini berulang merentasi prompt. Untuk satu atau dua lagu, kualiti adalah tinggi. Untuk katalog, cap jari menjadi jelas. Model ini juga mempunyai toleransi terhad untuk permintaan yang benar-benar pelik atau menentang genre; ia cenderung menyelesaikan kekaburan ke arah gaya produksi yang paling banyak dilatih.

Harga adalah berasaskan penggunaan dengan peringkat percuma yang membawa anda beberapa trek sebelum mencapai had. Pelesenan komersial tersedia pada pelan berbayar. Untuk kebanyakan orang yang mahukan lagu lengkap yang boleh didengar dengan cepat, Suno adalah alat pertama yang patut dicuba — terutamanya untuk genre berpusatkan vokal.

Udio

Udio mendekati masalah lagu penuh yang sama dari sudut yang sedikit berbeza. Di mana Suno mengutamakan koheren melodis, Udio menghasilkan output yang kadang-kadang terasa lebih terperinci dari segi instrumental — pengaturcaraan dram, voicing kord, dan gubahan produksi sering lebih pelbagai trek demi trek.

Kualiti vokal bersaing dengan Suno pada take yang kuat, tetapi variannya lebih tinggi. Anda akan mendapat beberapa take yang benar-benar mengagumkan dan beberapa yang mempunyai rasa berkilat dan pertengahan frasa yang menandai vokal AI yang bergelut dengan frasa. Sistem prompt memberi ganjaran kepada kekhususan: memberitahunya BPM, kunci, dekad produksi, dan instrumentasi tertentu menghasilkan hasil yang lebih ketat daripada rujukan gaya yang samar.

Udio menyokong output yang lebih panjang daripada Riffusion dan membolehkan beberapa penyesuaian berstruktur. Ia patut diuji secara selari dengan Suno pada mana-mana projek — prompt yang berbeza memihak kepada enjin yang berbeza, dan apa yang Udio membuat untuk balada soul mungkin mengatasi take Suno pada kerja yang sama.

aisonggen

Ciri pembeza aisonggen adalah penjanaan selari: penjana muzik membuat lima varian dari satu prompt serentak, supaya anda membandingkan take berbanding menunggu satu, menolaknya, dan bermula semula. Bagi projek di mana kekangan penyekat adalah gelung iterasi — bukan siling kualiti — struktur itu lebih penting daripada yang kedengaran.

Frasa vokal pada take individu terkuat adalah bersaing tetapi tidak secara konsisten mendahului output terbaik Suno. Pembingkaian yang jujur adalah: aisonggen tidak menang pada kualiti vokal puncak, tetapi ia mengurangkan bilangan kitaran jana-semula-dan-tunggu yang anda bakar untuk mencapai take yang boleh diterima. Lima output serentak membolehkan anda memilih yang dengan penyampaian korus terbaik walaupun tiga yang lain terlepas.

Di luar penjanaan, aisonggen mempunyai permukaan Lyric Studio berasingan di mana anda boleh menulis dan mengedit lirik sebelum melakukan kepada render, yang membantu jika anda ingin mengawal apa yang sebenarnya diperkatakan vokal berbanding membiarkan model berimprovisasi. Terdapat juga penjana cover yang membuat semula trek sedia ada dalam gaya yang berbeza — berguna jika anda mempunyai take yang kebanyakannya anda suka tetapi ingin dengar dengan produksi yang berbeza.

Harga bermula dengan peringkat percuma; halaman harga merangkumi had pelan secara terperinci. Jika anda menilainya bersama alat lain, halaman ulasan mempunyai perbandingan pengguna berbanding Suno dan Udio secara khusus.

Mureka

Mureka adalah pilihan yang kurang kelihatan yang menghasilkan kualiti output yang bersaing di bahagian atas kategori pada jenis prompt tertentu, terutamanya untuk trek dengan kerumitan gubahan instrumental yang sebenar. Di mana Suno dan Udio kadang-kadang meruntuhkan gubahan berbilang instrumen ke dalam campuran yang homogen, output Mureka boleh mengekalkan pemisahan spatial instrumen dengan cara yang bertahan pada fon kepala.

Pertukaran adalah bahawa permukaan produk kurang dipoles. Antara muka prompt kurang memaafkan input kasual, dan kelajuan penjanaan lebih perlahan daripada Suno. Untuk penggunaan profesional di mana kualiti gubahan melebihi kelajuan iterasi, itu adalah pertukaran yang munasabah. Untuk projek kasual di mana anda mahukan sesuatu yang boleh didengar dengan pantas, ia bukan alat pertama yang dicapai.

Terma pelesenan komersial Mureka lebih jelas daripada Riffusion, yang penting untuk muzik yang akan masuk ke dalam video, pengiklanan, atau pengedaran. Peringkat percuma adalah terhad tetapi berfungsi untuk penilaian.

Stable Audio

Stable Audio (dari Stability AI) menduduki tanah tengah antara pendekatan tekstur-pertama Riffusion dan pendekatan lagu-pertama Suno. Ia menjana audio pada ketepatan yang lebih tinggi daripada Riffusion dan menyokong klip yang lebih panjang — sehingga tiga minit dalam beberapa konfigurasi — sambil memberikan kawalan yang lebih tepat ke atas tempoh dan gaya daripada kebanyakan penjana.

Output condong instrumental. Penjanaan vokal bukan kekuatan Stable Audio, jadi ia lebih sesuai untuk trek latar, gubahan instrumental, dan reka bentuk bunyi berbanding lagu siap dengan lirik yang dinyanyikan. Bagi pengeluar yang mahukan gubahan instrumental yang dibuat untuk kemudian meletakkan vokal mereka sendiri di atasnya, ia adalah pilihan yang kuat. Bagi sesiapa yang memerlukan AI untuk mengendalikan vokal juga, Suno atau Udio adalah lebih sesuai.

Model mendapat manfaat dari falsafah berat terbuka yang sama yang menyokong Riffusion — terdapat versi berpandangan penyelidikan yang tersedia untuk pengguna teknikal yang ingin menjalankannya secara tempatan atau melaraskan halus — tetapi produk yang dihoskan adalah boleh diakses tanpa sebarang persediaan teknikal.

Cara memilih — tiga soalan

  1. Berapa lama output perlu ada, dan berapa banyak struktur yang diperlukannya? Jika anda memerlukan lebih dari dua minit dengan struktur ayat-korus yang boleh dikenali, Riffusion adalah keluar. Suno atau aisonggen adalah laluan paling pantas kepada lagu yang dibentuk dengan betul. Jika anda memerlukan trek latar instrumental kurang dari dua minit dan tidak mengambil berat tentang vokal, Stable Audio atau Udio patut diuji.
  2. Apa yang situasi lesen anda perlukan? Jika output akan masuk ke dalam projek komersial — video, pengiklanan, keluaran penstriman — anda memerlukan kejelasan tentang terma sebelum anda membuat komitmen. Pelesenan Riffusion adalah yang paling kurang diselesaikan. Suno, Udio, dan aisonggen semuanya mempunyai terma komersial eksplisit pada pelan berbayar. Semak peringkat khusus yang anda ada; output peringkat percuma sering membawa sekatan yang berbeza daripada yang berbayar.
  3. Berapa banyak kawalan yang anda perlukan ke atas output? Jika anda perlu menentukan lirik, arah melodi, atau butiran produksi, gunakan alat yang mengambil input berstruktur. Lyric Studio aisonggen dan mod tersuai Suno kedua-duanya direka untuk jenis kawalan arah itu. Jika anda gembira iterasi dari prompt gaya dan memilih take terbaik, mana-mana daripada lima alat di atas boleh menyokong aliran kerja itu — dan pendekatan render selari aisonggen menjadikan langkah pemilihan lebih pantas.

Pelan ujian 20 minit

  1. Pilih satu prompt yang mewakili kes penggunaan sebenar anda. Jangan uji dengan "lagu pop yang ceria" — uji dengan apa yang anda sebenarnya perlu hantar. Jika projek anda adalah instrumental hip-hop lo-fi pada 85 BPM, itulah prompt. Prompt ujian buatan menghasilkan keputusan buatan.
  2. Jalankan prompt yang sama pada sekurang-kurangnya dua alat serentak. Penjanaan mengambil masa kira-kira 30 hingga 90 saat bergantung pada platform dan beban giliran. Serahkan kepada kedua-duanya sebelum menyemak sama ada.
  3. Nilai pada dimensi yang paling penting bagi anda dahulu. Jika vokal adalah kritikal, dengar hanya pada persembahan vokal pada pas pertama anda dan abaikan kualiti produksi. Jika gubahan adalah kritikal, dengar dengan telinga itu dahulu. Mencampurkan penilaian mengurangkan isyarat.
  4. Jalankan tiga hingga lima variasi pada alat yang berprestasi terbaik. Satu output yang baik mungkin adalah varians. Lima output merentasi kerja yang sama memberikan gambaran yang lebih jelas tentang kebolehpercayaan sebenar alat pada jenis prompt anda.
  5. Semak output pada peranti main balik yang digunakan khalayak anda. Audio yang dijana AI kadang-kadang kedengaran sangat baik pada monitor studio dan nipis pada fon telinga, atau sebaliknya. Jika khalayak anda adalah penstriman pada telefon, itulah tempat untuk mendengar sebelum anda melakukan alat.

Riffusion memberi ganjaran kepada penerokaan. Ia adalah alat yang betul apabila anda ingin menemui sesuatu yang tidak dapat anda gambarkan terlebih dahulu. Tetapi jika anda bermula dari kerja yang jelas — struktur tertentu, satu set lirik, genre yang perlu mendarat untuk khalayak sebenar — alat di atas lebih berkemungkinan membawa anda ke sana dalam satu sesi berbanding seminggu.

Jika anda menilai aisonggen secara khusus, penjana muzik adalah cara paling pantas untuk menjalankan ujian pertama anda, dan output varian selari bermakna pelan 20 minit anda merangkumi lebih banyak tanah dalam masa jam yang sama.

Trek anda yang seterusnya hanya satu prom percuma jauhnya

Buka studio, taip vibe, dengar lagu siap dalam 30 saat. Percuma untuk mula, bebas royalti untuk dihantar, tiada kad kredit diperlukan.