Riffusion'ı açın, "lo-fi caz yağmur ve uzaktan trompet" gibi bir prompt yazın, üretin tuşuna basın ve gerçekten ilginç bir şey çıkıyor. 1973'te bir kafe banyosunda kaydedilmiş gibi ses veren nemli, bulanık bir doku. İki kez çalıyor, baş sallıyorsunuz ve sonra fark ediyorsunuz: 28 saniye uzunluğunda, kıta veya nakarat yok ve bunu ticari bir projede kullanıp kullanamayacağınızdan emin değilsiniz. Bir paragrafta Riffusion deneyimi bu.
Bunların hiçbiri projenin ortaya çıkmak istediği şeye bir saldırı değil. Riffusion açık kaynaklı bir deney olarak başladı — spekülatif bir görüntü alanı sorunu olarak sesin üzerinde difüzyon çalıştırarak ses oluşturma, sesi görsel bir latent alan problemi olarak ele alma. Gerçekten yenilikçiydi. Ama "gerçekten yenilikçi" ve "bugün bir şarkıyı bitirmek için kullanabileceğim araç" farklı gereksinimler. Uygun yapıyla dört dakikalık bir parçaya, anlaşılır vokallere ve net bir lisansa ihtiyacınız varsa, Riffusion doğru başlangıç noktası değil. Bu makale olan beş alternatifi ve aralarından nasıl seçileceğini açıklıyor.
Riffusion'ın gerçekten iyi olduğu şeyler
Alternatifleri geçmeden önce, Riffusion'ın bir iş akışında yerini hâlâ kazandığı konusunda hassas olmaya değer.
Doku ve atmosfer en güçlü çıktıları. Bir ambiyans yatağına, endüstriyel bir drone'a veya iki türün uçuş ortasında çarpıştığı gibi ses çıkaran bir şeye ihtiyacınız varsa, Riffusion'ın spekülatif tabanlı üretimi "cilalı yapay zeka pop" değil "alan kaydı artı sentez" hissettiren sonuçlar üretebiliyor. Bu ses tasarımcılar, fragman editörleri ve deneysel prodüktörler için gerçek bir farklılaştırıcı.
Kısa döngüler yapısal olarak parladığı yer. Bir şarkıya değil — bir seslendirmenin altına oturacak sekiz barlık döngüye veya podcast girişinin arkasına katmanlanacak bir dokuya ihtiyacınız olduğunda, çıktı uzunluğu bir kısıtlama olmaktan çıkıp bir özelliğe dönüşüyor. Klipleri hızla incelemek ve çok pahalıya gelmeden reddetmek için yeterince kısa.
Daha yapılandırılmış bir üreticide garip hissettiren tür karışımları, Riffusion'da rutin. "Bozuk kaset deki bossa nova" orada garip bir prompt değil. Modelin difüzyon yaklaşımı, daha fazla vokal eğitimli üreticilerin bazen bir tür etiketi veya diğerine aşırı basitleştirdiği harmanlar üretiyor.
Riffusion'ın yetersiz kaldığı yer
Doku yerine şarkı istediğinizde boşluk beliriyor.
Tam şarkı yapısı en belirgin kısıtlama. Riffusion klipleri güvenilir biçimde kıta-nakarat-köprü mimarisini takip etmiyor. Vibes'ın parçacıklarını alıyorsunuz, dramatik yayları olan şarkıları değil. Aracın döngü özellikleri kullanılarak klipleri genişletmek biraz yardımcı oluyor, ama bölümler arasındaki geçişler nadiren bir dinleyicinin şarkının ilerlediğini hissettireceği dinamik kaymaya sahip.
Vokal tutarlılığı hızla bozuluyor. Riffusion şarkı söylemeye benzer bir şey üretebiliyor, ama fonemler çoğunlukla bulanık veya hayali. Bir melodi hattını, sözel nakaratı veya vokallerin 90 saniyelik bir klip boyunca notada kalıp kalmayacağını kontrol edemiyorsunuz. Sözlerin önemli olduğu herhangi bir proje için — rap, pop, R&B, şarkı yazarı — bu tek başına diskalifiye edici.
Uzunluk sert bir tavan. Platform dört dakikalık parçaları yerel olarak üretmiyor. Geçici çözümler var, ama manuel dikiş gerektiriyor ve nihai sonucu baltalayan duyulabilir dikişler ortaya çıkarıyor.
Prompt kontrolü tasarım gereği gevşek. Spekülatif yaklaşım, parça meta verileri ve yapı üzerinde daha doğrudan eğitilmiş modellerden doğası gereği daha az prompt sadık. Bir yön zorlayabilirsiniz ama nadiren birini belirleyebilirsiniz. Bu, iterasyonu yavaşlatıyor: bir parametreyi ayarlamak yerine olasılık uzayını daraltıyorsunuz.
Stem dışa aktarımı mevcut değil. Enstrümantal katmanı enstrümantaldan çekemezsiniz; bu, remix yapmak, yeniden perde ayarlamak veya sadece ritmi tek başına kullanmak istiyorsanız önemli.
Ticari kullanım lisanslaması tarihsel olarak belirsiz olmuştur. Açık kaynak kökenleri ve barındırılan ürünün şartları "bunu ticarileştirebilirsiniz"e açıkça çözümlenmüyor. Profesyonel kullanım için bu belirsizliğin gerçek bir maliyeti var.
Tam şarkı işini üstlenen beş alternatif
Suno
Suno, gerçek yapıya sahip yapay zeka üretilen şarkılar için kıyaslama. Tanınabilir pop ve hip-hop şarkı şekillerini takip eden parçalar üretiyor — giriş, kıta, nakarat, köprü, bitiş — gerçekten melodik ifade eden ve yaklaşık olarak notada kalan vokaller. Söz entegrasyonu bu kategoride en güçlü: prompt'a yazdıklarınız tanınabilir biçimde seste iniyor.
Zayıflığı ölçekte tekdüzelik. Suno'nun çıktıları Suno gibi ses çıkarma eğiliminde. Tonal palet, reverb profili, nakaratın yükselme biçimi — bu örüntüler promptlar arasında tekrar ediyor. Bir veya iki şarkı için kalite yüksek. Bir katalog için, parmak izi belirgin hale geliyor. Model ayrıca gerçekten garip veya türü zorlayan isteklere sınırlı tolerans gösteriyor; belirsizliği en fazla eğitildiği prodüksiyon stillerine doğru çözümleme eğiliminde.
Fiyatlandırma, birkaç parçaya ulaşmadan sınıra çarpmadan önce sizi iletecek ücretsiz katmanlı kullanım tabanlı. Ticari lisanslama ücretli planlarda mevcut. Hızla dinlenebilir şarkı isteyen çoğu insan için Suno denemeye değer ilk araç — özellikle vokal ağırlıklı türler için.
Udio
Udio, tam şarkı sorununa biraz farklı bir açıdan yaklaşıyor. Suno melodik tutarlılığı önceliklendirirken, Udio çoğunlukla enstrümantal olarak daha ayrıntılı görünen çıktılar üretiyor — davul programlama, akor seslendirme ve prodüksiyon aranjman genellikle parça başına daha çeşitli.
Vokal kalitesi güçlü alımlarda Suno ile rekabetçi, ama varyans daha yüksek. Gerçekten etkileyici alımlar ve bir yapay zeka vocalin ifade ile mücadele ettiğini işaret eden buzlu, ifade ortası his arasında gidip geleceksiniz. Prompt sistemi özgüllüğü ödüllendiriyor: BPM'i, tonu, prodüksiyon on yılını ve belirli enstrümantasyonu söylemek belirsiz stil referanslarından daha sıkı sonuçlar veriyor.
Udio, Riffusion'dan daha uzun çıktıları destekliyor ve bazı yapısal özelleştirmeye izin veriyor. Herhangi bir proje için Suno ile paralel olarak test etmeye değer — farklı promptlar farklı motorları tercih ediyor ve Udio'nun aynı kısa için bir soul balad üretimi Suno'nun alımından daha iyi performans gösterebiliyor.
aisonggen
aisonggen'in ayırt edici özelliği paralel üretim: müzik üreticisi tek prompttan beş varyant eş zamanlı olarak işliyor; böylece bir bekleme, reddetme ve sıfırdan başlama yerine alımları karşılaştırıyorsunuz. Engelleme kısıtının kalite tavanı değil iterasyon döngüsü olduğu projeler için bu yapı göründüğünden daha önemli.
En güçlü bireysel alımlardaki vokal ifadesi rekabetçi ama tutarlı biçimde Suno'nun en iyi çıktılarının önünde değil. Dürüst çerçeve şu: aisonggen, kabul edilebilir bir alıma ulaşmak için gerçekleştirdiğiniz yeniden üret-ve-bekle döngülerinin sayısını azaltıyor, ama doruk vokal kalitesinde kazanmıyor. Beş eş zamanlı çıktı, diğer üçü kaçırsa bile en iyi nakarat sunumuna sahip olanı seçmenizi sağlıyor.
Üretimin ötesinde aisonggen, sözleri üretmeye bağlamadan önce yazmak ve düzenlemek için ayrı bir Lyric Studio yüzeyine sahip; vokallerin gerçekten söylediklerini modelin doğaçlamasını kabul etmek yerine kontrol etmek istiyorsanız yardımcı oluyor. Ayrıca mevcut parçayı farklı bir stilde yeniden işleyen bir kapak üreticisi var — çoğunlukla beğendiğiniz ama farklı prodüksiyonla duymak istediğiniz bir alım varsa yararlı.
Fiyatlandırma ücretsiz katmandan başlıyor; fiyatlandırma sayfası plan sınırlarını ayrıntılı kapsıyor. Özellikle onu değerlendiriyorsanız, değerlendirmeler sayfası özellikle Suno ve Udio'ya karşı kullanıcı karşılaştırmalarına sahip.
Mureka
Mureka, belirli prompt türlerinde, özellikle gerçek enstrümantal aranjman karmaşıklığına sahip parçalarda en üst düzey çıktı kalitesiyle rekabet eden daha az görünür bir seçenek. Suno ve Udio'nun bazen homojen bir mixa katlayan çok enstrümanlı aranjmanları, Mureka'nın çıktıları kulaklıkta tutunan bir şekilde enstrümanların mekansal ayrımını koruyabiliyor.
Değiş tokuş, ürün yüzeyinin daha az cilalı olması. Prompt arayüzü gündelik girişe Suno'dan daha az müsamahakarlıkla yaklaşıyor ve üretim hızı Suno'dan yavaş. Düzenleme kalitesinin iterasyon hızını aştığı profesyonel kullanım için makul bir değiş tokuş. Hızlıca dinlenebilir bir şey isteyen günlük projeler için ulaşılacak ilk araç değil.
Mureka'nın ticari lisanslama şartları Riffusion'dan daha net; bu, video, reklamcılık veya dağıtıma giren müzik için önemli. Ücretsiz katman değerlendirme için sınırlı ama işlevsel.
Stable Audio
Stability AI'dan Stable Audio (Stable Audio), Riffusion'ın doku-önce yaklaşımı ile Suno'nun şarkı-önce yaklaşımı arasında orta bir yerde yer alıyor. Riffusion'dan daha yüksek doğrulukta ses üretiyor ve bazı yapılandırmalarda üç dakikaya kadar daha uzun klipleri destekliyor; çoğu üreticiden süre ve stil üzerinde daha hassas kontrol sağlıyor.
Çıktı enstrümantale kayıyor. Vokal üretimi Stable Audio'nun güçlü yanı değil; bu yüzden bitmiş vokal şarkılardan ziyade alt parçalar, enstrümantal kompozisyonlar ve ses tasarımı için daha uygun. Kendi vokalleri üzerine yerleştirmek için işlenmiş enstrümantal aranjman isteyen prodüktörler için güçlü bir seçenek. Yapay zekanın vokalleri de ele almasına ihtiyaç duyan herkes için Suno veya Udio daha uygun.
Model, Riffusion'ın altındaki açık ağırlık felsefesinden yararlanıyor — teknik kullanıcılar için yerel olarak çalıştırmak veya ince ayar yapmak için araştırmaya yönelik bir versiyon mevcut — ama barındırılan ürün herhangi bir teknik kurulum olmadan erişilebilir.
Nasıl seçilir — üç soru
- Çıktının ne kadar uzun olması gerekiyor ve ne kadar yapıya ihtiyaç duyuyor? Tanınabilir kıta-nakarat yapısıyla iki dakikanın üzerinde bir şeye ihtiyacınız varsa, Riffusion devre dışı. Suno veya aisonggen düzgün biçimlendirilmiş şarkıya giden en hızlı yol. İki dakikanın altında enstrümantal alt parçaya ihtiyacınız varsa ve vokalleri önemsemiyorsanız, Stable Audio veya Udio test etmeye değer.
- Lisans durumunuz ne gerektiriyor? Çıktı ticari bir projeye gidiyorsa — video, reklamcılık, yayın yayını — taahhüt etmeden önce şartlarda netlik gerekiyor. Riffusion'ın lisanslaması en az çözümlü. Suno, Udio ve aisonggen hepsinin ücretli planlarda açık ticari şartları var. Belirli katmanınızı kontrol edin; ücretsiz katman çıktıları çoğunlukla ücretli olandan farklı kısıtlamalar taşıyor.
- Çıktı üzerinde ne kadar kontrole ihtiyacınız var? Sözleri, melodi yönünü veya prodüksiyon detaylarını belirlemeniz gerekiyorsa, yapılandırılmış girdi alan bir araç kullanın. aisonggen'in Lyric Studio'su ve Suno'nun özel modu her ikisi de bu tür yönsel kontrol için tasarlanmış. Stil promptundan iterate etmekten ve en iyi alımı seçmekten memnunsanız, yukarıdaki beş araçtan herhangi biri bu iş akışını destekleyebiliyor — ve aisonggen'in paralel işleme yaklaşımı seçim adımını daha hızlı hale getiriyor.
20 dakikalık test planı
- Gerçek kullanım senaryonuzu temsil eden bir prompt seçin. "Neşeli pop şarkısıyla" test etmeyin — gerçekten göndermeniz gerekenle test edin. Projeniz 85 BPM'de lo-fi hip-hop enstrümantallar ise bu prompt. Yapay test promptları yapay sonuçlar üretiyor.
- Aynı promptu en az iki araçta aynı anda çalıştırın. Üretim platforma ve kuyruk yüküne göre yaklaşık 30 ila 90 saniye alıyor. Her ikisini incelemeden önce her ikisine gönderin.
- Önce sizin için en önemli boyutta değerlendirin. Vokaller kritikse, ilk geçişinizde yalnızca vokal performansını dinleyin ve prodüksiyon kalitesini yoksayın. Aranjman kritikse, önce o kulakla dinleyin. Değerlendirmeleri karıştırmak sinyali azaltıyor.
- En iyi performans gösterenin aynı kısa üzerinde üç ila beş varyant çalıştırın. Tek iyi çıktı varyans olabilir. Aynı kısa üzerinde beş çıktı, aracın prompt türünüzdeki gerçek güvenilirliği hakkında daha net bir fikir veriyor.
- İzleyicinin kullanacağı oynatma cihazında çıktıyı kontrol edin. Yapay zeka üretilen ses bazen stüdyo monitörlerinde mükemmel ses çıkarıyor ve kulaklıklarda zayıf, ya da tersi. Bir araca bağlanmadan önce, izleyicilerinizin gerçekten kullandığı yerden dinleyin.
Riffusion keşfi ödüllendiriyor. Önceden tanımlayamayacağınız bir şeyi keşfetmek istediğinizde doğru araç. Ama net bir kısadan başlıyorsanız — belirli bir yapı, bir söz seti, gerçek bir kitleye ulaşması gereken bir tür — yukarıdaki araçlar bir hafta yerine bir oturumda sizi oraya ulaştırma olasılığı daha yüksek.
aisonggen'i özellikle değerlendiriyorsanız, müzik üreticisi ilk testinizi yapmanın en hızlı yolu ve paralel varyant çıktısı 20 dakikalık planınızın aynı saat diliminde daha fazla zemin kaplaması anlamına geliyor.