AISongGen logoAISongGen

Najlepšie alternatívy k Riffusion — keď chcete celé piesne namiesto zvukových krajín

Silnou stránkou Riffusion je textúra a experiment; nie je to to, po čo siahnete, keď potrebujete štyri minúty dlhú pieseň sloky-refrénu. Päť nástrojov, ktoré uzatvárajú medzeru.

7 min čítania

Otvorte Riffusion, napíšte prompt ako „lo-fi jazz s dažďom a vzdialená trúbka“, stlačte generovanie a vyjde niečo skutočne zaujímavé. Vlhká, rozmazaná textúra, ktorá znie, akoby bola nahraná v kaviarnickej kúpeľni v roku 1973. Dvakrát to prehráte, prikývnete a potom si uvedomíte: je to 28 sekúnd dlhé, nie je tam žiadna sloky ani refrén a nemáte tušenia, či to môžete vložiť do komerčného projektu. To je skúsenosť Riffusion v jednom odseku.

Nič z toho nie je útok na to, čo projekt zamýšľal urobiť. Riffusion začal ako open-source experiment — generovanie zvuku spustením difúzie cez spektrogramové obrázky, zaobchádzanie so zvukom ako problémom vizuálneho latentného priestoru. Bol skutočne nový. Ale „skutočne nový“ a „nástroj, ktorý môžem použiť na dokončenie piesne dnes“ sú odlišné požiadavky. Ak potrebujete štvor-minútovú stopu so správnou štruktúrou, zrozumiteľnými vokálmi a jasnou licenciou, Riffusion nie je správnym východiskovým bodom. Tento článok pokrýva päť alternatív, ktoré sú, a vysvetľuje, ako si medzi nimi vybrať.

Na čo je Riffusion skutočne dobrý

Pred prechodom cez alternatívy stojí za to byť presný o tom, kde Riffusion stále zaráva miesto v pracovnom postupe.

Textúra a atmosféra sú jeho najsilnejšími výstupmi. Ak potrebujete ambientný základ, industriálny drone alebo niečo, čo znie ako dva žánre narážajúce sa v lete, spektrogramové generovanie Riffusion môže produkovať výsledky, ktoré pôsobia menej ako „vyleštený AI pop“ a viac ako „terénna nahrávka plus syntéza“. To je skutočný diferenciátor pre zvukových dizajnérov, editorov trailera a experimentálnych producentov.

Krátke slučky sú jeho štrukturálne najsilnejším miestom. Keď nepotrebujete pieseň — potrebujete 8-taktovú slučku sedieť pod hlasovým komentárom alebo textúru na vrstvenie za intro podcastu — dĺžka výstupu prestáva byť obmedzením a stáva sa funkciou. Klipy sú dostatočne krátke na rýchle preskúmanie a zamietnutie bez veľkých nákladov.

Žánrové mixy, ktoré by sa v štruktúrovanejšom generátore javili nepohodlne, sú v Riffusion bežné. „Bossa nova, ale cez zlomený kazetový prehrávač“ tam nie je zvláštny prompt. Difúzny prístup modelu produkuje zmesi, ktoré viac vokálne trénované generátory niekedy zjednodušujú do jedného žánrového štítku alebo druhého.

Kde Riffusion zaostáva

Medzera sa objavuje v momente, keď chcete pieseň namiesto textúry.

Štruktúra celej piesne je najzrejmejším obmedzením. Klipy Riffusion spoľahlivo nenasledujú architektúru sloky-refrénu-bridge. Dostávate útržky atmosféry, nie piesne s dramatickými oblúkmi. Rozšírenie klipov pomocou nástrojov na opakovanie nástroja pomáha do určitej miery, ale prechody medzi sekciami zriedkakedy pristávajú s tým druhom dynamického posunu, ktorý spôsobuje, že poslucháč cíti pohyb piesne.

Koherentnosť vokálov sa rýchlo zhoršuje. Riffusion môže generovať niečo, čo znie aproximatívne ako spev, ale fonémy sú often rozmazané alebo fiktívne. Nemôžete kontrolovať melodickú líniu, lyrický háčik alebo dokonca to, či vokály zostávajú na tóne naprieč 90-sekundovým klipom. Pre akýkoľvek projekt, kde záleží na textoch — rap, pop, R&B, singer-songwriter — je to samo o sebe diskvalifikujúce.

Dĺžka je tvrdý strop. Platforma natívne negeneruje štvorminútové stopy. Existujú obchádzania, ale vyžadujú manuálne spájanie a zavádzajú počuteľné švy, ktoré podkopávajú konečný výsledok.

Kontrola promptu je zámerne voľná. Spektrogramový prístup je inherentne menej verný promptu ako modely trénované priamejšie na metadátach a štruktúre piesní. Môžete nalákať smer, ale zriedkakedy ho špecifikujete. To spomaľuje iteráciu: zužujete priestor pravdepodobnosti namiesto ladenia parametra.

Export stemov nie je dostupný. Nemôžete vytiahnuť vokálnu vrstvu z inštrumentálnej, čo záleží, ak chcete remixovať, zmeniť výšku alebo jednoducho použiť samotný beat.

Licencovanie komerčného použitia bolo historicky nejasné. Open-source pôvod a podmienky hostovaného produktu sa zjavne nevyriešia na „môžete to monetizovať“. Pre profesionálne použitie má táto nejednoznačnosť reálne náklady.

Päť alternatív, ktoré zvládajú prácu celej piesne

Suno

Suno je referenciou pre AI generované piesne so skutočnou štruktúrou. Produkuje stopy, ktoré nasledujú rozoznateľné tvary pop a hip-hop piesní — intro, sloky, refrén, bridge, outro — s vokálmi, ktoré skutočne frázujú melodicky a zostávajú zhruba na tóne. Integrácia textov je najsilnejšia v tejto kategórii: to, čo napíšete v prompte, pristáva vo zvuku v rozoznateľnej forme.

Jeho slabosťou je uniformita v mierke. Výstupy Suno majú tendenciu znieť ako Suno. Tonálna paleta, profil reverbu, spôsob výstupu refrénu — tieto vzory sa opakujú naprieč promptmi. Pre jednu alebo dve piesne je kvalita vysoká. Pre katalóg sa odtlačok stáva zrejmým. Model má tiež obmedzené tolerancie pre skutočne zvláštne alebo žánrovo-vzdorujúce požiadavky; má tendenciu riešiť nejednoznačnosť smerom k najviac trénovaným produkčným štýlom.

Ceny sú na základe použitia s bezplatnou úrovňou, ktorá vám dá hrsť stôp pred dosiahnutím limitov. Komerčné licencovanie je dostupné na platených plánoch. Pre väčšinu ľudí, ktorí chcú rýchlo kompletnú, počúvateľnú pieseň, je Suno prvý nástroj na vyskúšanie — obzvlášť pre vokálne-orientované žánre.

Udio

Udio pristupuje k rovnakému problému celej piesne z mierne odlišného uhla. Kde Suno uprednostňuje melodickú koherencia, Udio produkuje výstupy, ktoré sa niekedy cítia inštrumentálne detailnejšie — programovanie bicích, hlasovanie akordov a produkčná aranžácia sú often rozmanitejšie stopa od stopy.

Kvalita vokálov je konkurencieschopná so Suno na silných snímkach, ale variácia je vyššia. Dostanete niektoré snímky, ktoré sú skutočne pôsobivé a niektoré, ktoré majú zasklený pocit v strede frázy, ktorý charakterizuje AI vokál bojujúci s frázovaním. Promptový systém odmeňuje špecifickosť: povedanie BPM, tóniny, desaťročia produkcie a konkrétnej inštrumentácie prináša tesnejšie výsledky ako vágne štylistické referencie.

Udio podporuje dlhšie výstupy ako Riffusion a umožňuje určité štrukturálne prispôsobenie. Stojí za testovanie paralelne so Suno pri akomkoľvek projekte — rôzne prompty uprednostňujú rôzne enginy a to, čo Udio renderuje pre soul baladu, môže prekonať verziu Suno na rovnakom stručnom popise.

aisonggen

Odlišujúcou funkciou aisonggen je paralelné generovanie: generátor hudby renderuje päť variantov z jedného promptu súčasne, takže porovnávate snímky namiesto čakania na jednu, zamietnuť ju a začať znovu. Pre projekty, kde je blokujúcim obmedzením iteračná slučka — nie strop kvality — táto štruktúra záleží viac, ako sa zdá.

Vokálne frázovanie na najsilnejších individuálnych snímkach je konkurencieschopné, ale nie trvale pred najlepšími výstupmi Suno. Úprimný rámec je: aisonggen nevyhráva na vrcholnej vokálnej kvalite, ale znižuje počet generovacích-a-čakacích cyklov, ktoré spálite na dosiahnutie prijateľnej snímky. Päť súčasných výstupov vám umožní vybrať ten s najlepším podaním refrénu aj keď tri ostatné nevyšli.

Okrem generovania má aisonggen samostatný povrch Lyric Studio, kde môžete písať a upravovať texty pred záväzkom k renderovaniu, čo pomáha, ak chcete kontrolovať, čo vokály skutočne hovoria namiesto nechania modelu improvizovať. Je tiež generátor koverov, ktorý re-renderuje existujúcu stopu v odlišnom štýle — užitočné, ak máte snímku, ktorá sa vám vo väčšine páči, ale chcete ju počuť s odlišnou produkciou.

Ceny začínajú na bezplatnej úrovni; stránka s cenami pokrýva podrobnosti limitu plánu. Ak ho hodnotíte popri iných nástrojoch, stránka recenzií má porovnania používateľov oproti Suno a Udio konkrétne.

Mureka

Mureka je menej viditeľná možnosť, ktorá produkuje kvalitu výstupu konkurujúcu vrcholu kategórie pri určitých typoch promptov, najmä pre stopy so skutočnou inštrumentálnou aranžačnou zložitosťou. Kde Suno a Udio niekedy kolabujú viac-inštrumentálnu aranžáciu do homogénneho mixu, výstupy Mureka môžu zachovávať priestorové oddelenie nástrojov spôsobom, ktorý obstojí na slúchadlách.

Kompromis je, že produktový povrch je menej vyleštený. Promptové rozhranie je menej odpúšťajúce bežného vstupu a rýchlosť generovania je pomalšia ako Suno. Pre profesionálne použitie, kde kvalita aranžácie prevažuje nad rýchlosťou iterácie, je to rozumný obchod. Pre bežné projekty, kde chcete niečo počúvateľné rýchlo, nie je to prvý nástroj, po ktorý siahnete.

Licenčné podmienky komerčného použitia Mureka sú jasnejšie ako Riffusion, čo záleží pre hudbu, ktorá ide do videa, reklamy alebo distribúcie. Bezplatná úroveň je obmedzená, ale funkčná pre hodnotenie.

Stable Audio

Stable Audio (od Stability AI) zaujíma stredný terén medzi textúrou-prvým prístupom Riffusion a pieseň-prvým prístupom Suno. Generuje zvuk pri vyššej vernosti ako Riffusion a podporuje dlhšie klipy — až tri minúty v niektorých konfiguráciách — pričom dáva presnejšiu kontrolu nad trvaním a štýlom ako väčšina generátorov.

Výstup sa skláňa k inštrumentálnemu. Vokálne generovanie nie je silnou stránkou Stable Audio, takže je vhodnejšie pre sprievodné stopy, inštrumentálne kompozície a zvukový dizajn ako pre hotové piesne so spievanými textami. Pre producentov, ktorí chcú renderovanú inštrumentálnu aranžáciu, aby nad ňou potom umiestnili vlastné vokály, je to silná možnosť. Pre kohokoľvek, kto potrebuje, aby AI zvládala vokály tiež, sú Suno alebo Udio vhodnejšie.

Model profituje z rovnakej filozofie open-weights, ktorá podkladá Riffusion — existuje výskumom orientovaná verzia dostupná pre technických používateľov, ktorí ju chcú spustiť lokálne alebo doladiť — ale hostovaný produkt je dostupný bez akéhokoľvek technického nastavenia.

Ako vyberať — tri otázky

  1. Ako dlhý musí byť výstup a akú štruktúru musí mať? Ak potrebujete čokoľvek dlhšie ako dve minúty s rozoznateľnou štruktúrou sloky-refrénu, Riffusion je vylúčený. Suno alebo aisonggen sú najrýchlejšou cestou k správne tvarovanej piesni. Ak potrebujete inštrumentálnu sprievodnú stopu kratšiu ako dve minúty a nezáleží vám na vokáloch, Stable Audio alebo Udio stojí za testovanie.
  2. Čo vyžaduje vaša licenčná situácia? Ak ide výstup do komerčného projektu — video, reklama, streamovacie vydanie — potrebujete jasnosť o podmienkach pred záväzkom. Licencovanie Riffusion je najmenej vyriešené. Suno, Udio a aisonggen majú explicitné komerčné podmienky na platených plánoch. Skontrolujte konkrétnu úroveň, na ktorej ste; výstupy bezplatnej úrovne often nesú odlišné obmedzenia ako platené.
  3. Koľko kontroly potrebujete nad výstupom? Ak potrebujete špecifikovať texty, smer melódie alebo produkčné detaily, použite nástroj, ktorý berie štruktúrovaný vstup. Lyric Studio aisonggen a vlastný režim Suno sú oba navrhnuté pre tento druh smerujúcej kontroly. Ak ste spokojní s iterovaním zo štýlového promptu a výberom najlepšej snímky, ktorýkoľvek z piatich nástrojov vyššie môže tento pracovný postup podporiť — a paralelný prístup renderovania aisonggen robí výberový krok rýchlejším.

20-minútový plán testovania

  1. Vyberte si jeden prompt, ktorý predstavuje váš skutočný prípad použitia. Netestujte s „upbeat pop piesňou“ — testujte s tým, čo by ste skutočne potrebovali vydať. Ak je váš projekt lo-fi hip-hop inštrumentálie pri 85 BPM, to je prompt. Umelé testovacie prompty produkujú umelé výsledky.
  2. Spustite rovnaký prompt na aspoň dvoch nástrojoch súčasne. Generovanie trvá zhruba 30 až 90 sekúnd v závislosti od platformy a zaťaženia fronty. Odošlite do oboch pred prezeraním každého.
  3. Hodnoťte na dimenzii, ktorá vám záleží najviac, ako prvý. Ak sú vokály kritické, počúvajte len vokálny výkon na svojom prvom prechode a ignorujte kvalitu produkcie. Ak je aranžácia kritická, počúvajte s tým uchom ako prvý. Miešanie hodnotení riedi signál.
  4. Spustite tri až päť variácií na nástroji, ktorý podal najlepší výkon. Jeden dobrý výstup môže byť odchýlkou. Päť výstupov naprieč rovnakým stručným popisom vám dáva jasnejší zmysel pre skutočnú spoľahlivosť nástroja na vašom type promptu.
  5. Skontrolujte výstup na prehrávacom zariadení, ktoré bude vaše publikum používať. Zvuk generovaný AI niekedy znie výborne na štúdiových monitoroch a tenký na slúchadlách, alebo naopak. Ak vaše publikum streamuje na telefónoch, to je miesto, kde treba počúvať pred záväzkom k nástroju.

Riffusion odmeňuje prieskum. Je to správny nástroj, keď chcete objaviť niečo, čo ste nedokázali vopred opísať. Ale ak začínate od jasného stručného popisu — konkrétnej štruktúry, sady textov, žánru, ktorý musí pristáť pre skutočné publikum — nástroje vyššie vás budú s väčšou pravdepodobnosťou dostať tam v priebehu relácie namiesto týždňa.

Ak konkrétne hodnotíte aisonggen, generátor hudby je najrýchlejší spôsob, ako spustiť prvý test a výstup paralelného variantu znamená, že váš 20-minútový plán pokryje viac terénu v rovnakom čase.

Vaša ďalšia skladba je len jeden bezplatný prompt vzdialená

Otvorte štúdio, napíšte atmosféru, počujte hotovú pieseň za 30 sekúnd. Bezplatne na začiatok, bez licenčných poplatkov na vydanie, bez kreditnej karty.