Avaa Riffusion, kirjoita kehote kuten "lo-fi jazz sateella ja kaukaisella trumpetilla", paina generoi ja jotain aidosti mielenkiintoista tulee ulos. Kostea, sumea tekstuuri, joka kuulostaa kuin se olisi äänitetty kahvilakylpyhuoneessa vuonna 1973. Toista sen kahdesti, nyökkää ja huomaa sitten: se on 28 sekuntia pitkä, siinä ei ole säettä tai kertosäettä, eikä sinulla ole aavistustakaan, voitko laittaa sen kaupalliseen projektiin. Se on Riffusion-kokemus yhdessä kappaleessa.
Mikään tästä ei ole kritiikki siitä, mihin projekti pyrki. Riffusion alkoi avoimen lähdekoodin kokeiluna — äänen luomisella ajamalla diffuusiota spektrogrammikuvien yli, käsitellen ääntä visuaalisena latenttitila-ongelmana. Se oli aidosti uudenlaista. Mutta "aidosti uudenlainen" ja "työkalu, jota voin käyttää kappaleen viimeistelyyn tänään" ovat eri vaatimuksia. Jos tarvitset neliminuuttisen raidan asianmukaisella rakenteella, ymmärrettävillä lauluilla ja selkeällä lisenssillä, Riffusion ei ole oikea lähtökohta. Tässä artikkelissa käsitellään viisi vaihtoehtoa, jotka ovat, ja selitetään miten valita niiden väliltä.
Missä Riffusion todella ansaitsee paikan työnkulussa
Ennen vaihtoehtojen läpikäymistä on syytä olla tarkka siitä, missä Riffusion edelleen ansaitsee paikkansa työnkulussa.
Tekstuuri ja atmosfääri ovat sen vahvimpia tuotoksia. Jos tarvitset ambienssikerroksen, teollisen dronen tai jotain, joka kuulostaa kuin kaksi genreä törmäilisi kesken lennon, Riffusionin spektrogrammipohjainen generointi voi tuottaa tuloksia, jotka tuntuvat vähemmän "kiilloitetulta tekoälypopilta" ja enemmän "kenttätallennus plus synteesi". Se on todellinen erottava tekijä äänin suunnittelijoille, trailerieditoijille ja kokeellisille tuottajille.
Lyhyet silmukat ovat se, missä se loistaa rakenteellisesti. Kun et tarvitse kappaletta — tarvitset kahdeksan tahdin silmukan äänenpäälliäänenkannalta tai tekstuurin podcastin intron alle kerrosta — tuotoksen pituus lakkaa olemasta rajoite ja muuttuu ominaisuudeksi. Klipit ovat riittävän lyhyitä nopeaan tarkastukseen ja hylkäämiseen pienin kustannuksin.
Genreen yhdistelmät, jotka tuntuisivat kömpelöiltä rakenteellisemmassa generaattorissa, ovat rutiinitapauksia Riffusionissa. "Bossa nova rikkinäisen kasettipakan kautta" ei ole outo kehote siinä. Mallin diffuusiolähestymistapa tuottaa yhdistelmiä, joita äänivokaalisia generaattorit joskus yksinkertaistavat liikaa yhdelle tyyli-label tai toiselle.
Missä Riffusion jää puuttumaan
Kuilu ilmestyy heti, kun haluat kappaleen eikä tekstuurin.
Koko kappaleen rakenne on ilmeisin rajoite. Riffusion-klipit eivät luotettavasti seuraa säe-kertosäe-silta-arkkitehtuuria. Saat vihje-pätsiä, ei kappaleita dramatisilla kaarilla. Klippien laajentaminen työkalun silmukkaominaisuuksien avulla auttaa jonkin verran, mutta osioiden väliset siirtymät laskeutuvat harvoin sellaisella dynaamisella siirtymällä, joka saisi kuuntelijan tuntemaan kappaleen liikkuvan.
Äänellinen koherenssi heikkenee nopeasti. Riffusion voi luoda jotain, joka kuulostaa suunnilleen laulamiselta, mutta foneemit ovat usein hämärtyneissä tai fiktiivisiä. Et pysty hallitsemaan melodialinjaa, sanoituksellista hookia tai edes sitä, pysyykö laulu vireessä 90 sekunnin klipissä. Millekään projektille, jossa sanoituksilla on merkitystä — rap, pop, R&B, laulaja-lauluntekijä — tämä on yksinään hylkäävä.
Pituus on kova katto. Alusta ei luo neliminuuttisia raitoja natiivisti. Kiertotapoja on olemassa, mutta ne vaativat manuaalista yhteenliittämistä ja aiheuttavat kuultavia saumoja, jotka heikentävät lopputulosta.
Kehotteen hallinta on löysä suunnittelultaan. Spektrogrammilähestymistapa on luonnostaan vähemmän kehote-uskollinen kuin mallit, jotka on koulutettu suoremmin kappaletagien ja rakenteen pohjalta. Voit ohjata suuntaa muttei harvoin määrittää sitä. Tämä tekee iteroinnista hidasta: kavennat todennäköisyystilaa etkä säädä parametria.
Stemman vienti ei ole saatavissa. Et pysty irrottamaan laulukerrosta instrumentaalista, mikä on tärkeää, jos haluat remiksata, uudelleen sävelkorjata tai vain käyttää biittiä yksin.
Kaupallinen lisensiointi on ollut historiallisesti epäselvää. Avoimen lähdekoodin alkuperät ja isännöidyn tuotteen ehdot eivät ilmiselvästi ratkea "voit ansaita tällä rahaa". Ammattikäytössä tällä moniselitteisyydellä on todellinen kustannus.
Viisi vaihtoehtoa, jotka käsittelevät koko kappaleen tehtävän
Suno
Suno on viitekohdas tekoälygeneroiduille kappaleille, joissa on todellinen rakenne. Se tuottaa raitoja, jotka seuraavat tunnistettavia pop- ja hip-hop-kappalemaisia muotoja — intro, säe, kertosäe, silta, outro — äänillä, jotka todella fraasaavat melodisesti ja pysyvat suunnilleen vireessä. Sanoitusten integrointi on vahvinta tässä kategoriassa: mitä kirjoitat kehotteeseen, se laskeutuu ääneen tunnistettavassa muodossa.
Sen heikkous on yhdenmukaisuus mittakaavassa. Sunon tuotokset kuulostavat Sunolta. Tonal-paletti, kaikuprofiili, tapa, jolla kertosäe nousee — nämä mallit toistuvat eri kehotteissa. Yhdelle tai kahdelle kappaleelle laatu on korkea. Katalogille sormenjälki tulee ilmeiseksi. Mallilla on myös rajallinen sietokyky aidosti outoihin tai genrejä ylittäviin pyyntöihin; se pyrkii ratkaisemaan moniselitteisyyden eniten koulutettuihin tuotantotyyleihin.
Hinnoittelu on käyttöpohjainen, ilmaistasolla muutama raita ennen rajojen saavuttamista. Kaupallinen lisensiointi on saatavissa maksullisissa suunnitelmissa. Useimmille ihmisille, jotka haluavat valmiin, kuunteltavan kappaleen nopeasti, Suno on ensimmäinen kokeiltava työkalu — erityisesti äänipainotteisissa genreissä.
Udio
Udio lähestyy samaa koko kappaleen ongelmaa hieman eri kulmasta. Siinä missä Suno priorisoi melodista koherenssia, Udio tuottaa tuotoksia, jotka toisinaan tuntuvat instrumentaalisesti yksityiskohtaisemmilta — rumpuohjelmointi, sointuäänenväreys ja tuotantosovitus ovat usein vaihtelevampia raidasta toiseen.
Äänentarkkuus on kilpailukykyinen Sunon kanssa vahvissa otoissa, mutta vaihtelu on suurempaa. Saat joitakin ottoja, jotka ovat aidosti vaikuttavia, ja joitakin, joilla on lasitettu, lauseen kesken tunne, joka merkitsee tekoälyn ääntä kamppaile fraasauksen kanssa. Kehotejärjestelmä palkitsee tarkkuutta: BPM:n, sävellajin, tuotantoaikakauden ja tietyn instrumentoinnin kertominen tuottaa tiukempia tuloksia kuin epämääräiset viitteet tyyleihin.
Udio tukee pidempiä tuotoksia kuin Riffusion ja mahdollistaa joitakin rakenteellisia muokkauksia. Se on testaamisen arvoinen rinnakkain Sunon kanssa missä tahansa projektissa — eri kehotteet suosivat eri moottoreita, ja mitä Udio renderöi soul-balladin osalta saattaa ylittää Sunon vastaavan tehtävän tuotoksen.
aisonggen
aisonggenin erottava piirre on rinnakkainen generoinit: musiikkigeneraattori renderöi viisi varianttia yhdestä kehotteesta samanaikaisesti, joten vertaat ottoja odottamisen sijaan yhden, hylkäämisen ja uudelleen aloittamisen. Projekteissa, joissa estävä rajoite on iterointisilmukka — ei laadun katto — tuo rakenne on tärkeämpi kuin miltä kuulostaa.
Äänellinen fraasaus vahvimmissa yksittäisissä otoissa on kilpailukykyinen, muttei johdonmukaisesti edellä Sunon parhaita tuotoksia. Rehellinen muotoilu on: aisonggen ei voita äänellisen laadun huipulla, mutta se vähentää uudelleenluomis-ja-odota-syklien määrää, jotka poltat läpi päästäksesi hyväksyttävään ottoon. Viisi samanaikaista tuotosta antaa sinulle valita parhaalla kertosäkeen toimituksella vaikkapa kolme muuta olisi missannut.
Generoinnin lisäksi aisonggenillä on erillinen Sanoitusstudio -pinta, jossa voit kirjoittaa ja muokata sanoituksia ennen renderöintiin sitoutumista, mikä auttaa, jos haluat hallita mitä äänet todella sanovat eikä antaa mallin improvisoida. On myös kansigeneraattori, joka uudelleenrenderöi olemassa olevan raidan eri tyylillä — hyödyllinen, jos sinulla on otto, josta pidät enimmäkseen, mutta haluat kuulla eri tuotannolla.
Hinnoittelu alkaa ilmaistasolta; hinnoittelusvu kattaa suunnitelmien rajoitukset yksityiskohtaisesti. Jos arvioit sitä muiden työkalujen rinnalla, arvostelusvu sisältää käyttäjien vertailuja nimenomaan Sunoon ja Udioon.
Mureka
Mureka on vähemmän näkyvä vaihtoehto, joka tuottaa kilpailevan tuotoslaadun kategorian huipussa tietyillä kehotetyyppylä, erityisesti raidoilla, joilla on todellinen instrumentaalisovituksen monimutkaisuus. Siinä missä Suno ja Udio joskus supistuvat moniinstrumenttisovituksen homogeeniseen miksaukseen, Mureken tuotoksissa voi säilyä instrumenttien avaruudellinen erottelu tavalla, joka kestää kuulokekuuntelussa.
Vaihtokauppa on, että tuotepinta on vähemmän kiilloitettu. Kehotekäyttöliittymä on vähemmän anteeksiantava epäviralliselle syötteelle, ja luomisnopeus on hitaampi kuin Sunolla. Ammattikäytössä, jossa sovituksen laatu ylittää iterointinopeuden, se on kohtuullinen vaihtokauppa. Satunnaisiin projekteihin, joissa haluat kuunteltavaa nopeasti, se ei ole ensimmäinen työkalu.
Murekan kaupalliset lisenssiehdot ovat selkeämmät kuin Riffusionin, mikä on tärkeää musiikille, joka menee videoihin, mainontaan tai jakeluun. Ilmaistaso on rajattu mutta toiminnallinen arviointia varten.
Stable Audio
Stable Audio (Stability AI:lta) sijoittuu Riffusionin tekstuuri-ensin-lähestymistavan ja Sunon kappale-ensin-lähestymistavan väliin. Se luo ääntä korkeammalla tarkkuudella kuin Riffusion ja tukee pidempiä klippejä — enintään kolme minuuttia joissakin konfiguraatioissa — antaen samalla tarkemman hallinnan kestosta ja tyylistä kuin useimmat generaattorit.
Tuotos painottuu instrumentaaliin. Laulungenerointi ei ole Stable Audion vahvuus, joten se sopii paremmin säestysraitoihin, instrumentaalikappaleisiin ja äänisuunnitteluun kuin lauluilla varustettuihin valmiisiin kappaleisiin. Tuottajille, jotka haluavat renderöidyn instrumentaalin, jolle voivat sitten laittaa oman laulunsa päälle, se on vahva vaihtoehto. Kenelle tahansa, joka tarvitsee myös tekoälyn käsittelevän laulua, Suno tai Udio sopivat paremmin.
Malli hyötyy samasta avoimen painon filosofiasta, joka pohjustaa Riffusion — on olemassa tutkimuspainotteinen versio teknisille käyttäjille, jotka haluavat ajaa sitä paikallisesti tai hienosäätää — mutta isännöity tuote on saavutettavissa ilman teknistä perehdytystä.
Miten valita — kolme kysymystä
- Kuinka pitkä tuotoksen täytyy olla ja kuinka paljon rakennetta se tarvitsee? Jos tarvitset yli kaksi minuuttia tunnistettavalla säe-kertosäerakenteella, Riffusion on poissa. Suno tai aisonggen ovat nopein tie kunnolla muodostettuun kappaleeseen. Jos tarvitset instrumentaalisen säestysraidan alle kaksi minuuttia eikä välitä äänistä, Stable Audio tai Udio ovat testaamisen arvoisia.
- Mitä lisenssitilanne vaatii? Jos tuotos menee kaupalliseen projektiin — videoon, mainontaan, suoratoistuun julkaisuun — tarvitset ehtojen selkeyden ennen sitoutumista. Riffusionin lisensointi on vähiten selvitetty. Sunolla, Udiolla ja aisonggenillä on kaikilla selkeät kaupalliset ehdot maksullisissa suunnitelmissa. Tarkista erityinen tasosi; ilmaistason tuotoksilla on usein erilaiset rajoitukset kuin maksullisilla.
- Kuinka paljon hallintaa tarvitset tuotoksesta? Jos sinun täytyy määrittää sanoitukset, melodian suunta tai tuotannon yksityiskohdat, käytä työkalua, joka ottaa rakenteellista syötettä. aisonggenin Sanoitusstudio ja Sunon mukautettu tila ovat molemmat suunniteltu sellaiselle suunnannäyttöhallinnalle. Jos olet tyytyväinen iterointiin tyylipehotteesta ja parhaan oton valitsemiseen, jokainen yllä mainituista viidestä voi tukea sitä työnkulkua — ja aisonggenin rinnakkaisrenderöintilähestymistapa tekee valintaaskeleesta nopeampaa.
20 minuutin testisuunnitelma
- Valitse yksi kehote, joka edustaa todellista käyttötapaustasi. Älä testaa "energisellä poppikappaleella" — testaa millä tahansa, mitä todella täytyisi lähettää. Jos projektisi on lo-fi hip-hop instrumentaaleja 85 BPM:ssä, se on kehote. Keinotekoiset testikehotteet tuottavat keinotekoisia tuloksia.
- Aja sama kehote vähintään kahdessa työkalussa samanaikaisesti. Luominen kestää noin 30–90 sekuntia riippuen alustasta ja jonon kuormituksesta. Lähetä molemmille ennen kummankaan tarkistamista.
- Arvioi ensimmäisellä kuuntelukerralla eniten tärkeimmällä ulottuvuudella. Jos laulu on kriittinen, kuuntele vain äänellinen luonnollisuus ja ymmärrettävyys ensimmäisellä kerralla ja jätä tuotantolaatu huomiotta. Jos sovitus on kriittinen, kuuntele sitä ensin. Yhdistetyt arvioinnit heikentävät signaalia.
- Aja kolme-viisi variaatiota parhaiten suoriutuneella työkalulla. Yksi hyvä tuotos saattaa olla variaatiota. Viisi tuotosta saman tehtävän yli antavat selkeämmän käsityksen työkalun todellisesta luotettavuudesta kehotetyypilläsi.
- Tarkista tuotos toistovälineellä, jota yleisösi käyttää. Tekoälygenetoitu ääni kuulostaa toisinaan erinomaiselta studiomonitoreilla ja ohuelta kuulokkeissa, tai päinvastoin. Jos yleisösi suoratoistaa puhelimissa, siellä on kuuntelu ennen työkaluun sitoutumista.
Riffusion palkitsee tutkimisen. Se on oikea työkalu, kun haluat löytää jotain, mitä et olisi voinut kuvata etukäteen. Mutta jos aloitat selkeästä tehtävästä — tietystä rakenteesta, joukosta sanoituksia, genrestä, jonka pitää laskeutua todelliselle yleisölle — yllä mainitut työkalut todennäköisemmin vievät sinut perille istunnossa eikä viikossa.
Jos arvioit aisonggenin nimenomaisesti, musiikkigeneraattori on nopein tapa ajaa ensimmäinen testi, ja rinnakkaisvariantin tuotos tarkoittaa, että 20 minuutin suunnitelmasi kattaa enemmän pelikenttää samassa kellonajassa.