AISongGen logoAISongGen

Parhaat Stable Audio -vaihtoehdot — viisi työkalua, kun tarvitset laulua, lyriikoita tai käyttäjäystävällisemmän käyttöliittymän

Stable Audio on erinomainen äänimaisemien ja instrumentaalien luomiseen. Tässä on viisi generaattoria, jotka täyttävät laulumuodon, vokaalivetoisen ja kuluttajaystävällisen käytön aukot.

7 min lukea

Stability AI:n Stable Audio on ansainnut todellisen seuraajajoukon äänialan tutkijoiden ja äänimaisemasuunnittelijoiden keskuudessa. Perussyy on yksi, joka merkitsee tietylle käyttäjäryhmälle: jotkut versiot toimitetaan avoimilla malleilla, mikä tarkoittaa, että voit ladata, hienosäätää ja isännöidä mallia itse sen sijaan, että lähettäisit istuntosi kaupallisen API:n kautta. Generatiivisessa äänityössä — peliympäristöjen säveltämisessä, omien harjoitusdatajoukkojen rakentamisessa tai diffuusioon perustuvien synteesimenetelmien kokeilemisessa — tätä läpinäkyvyyttä on vaikea korvata.

Sanottakoon kuitenkin, että Stable Audiota ei koskaan suunniteltu pop-kappalekoneeeksi. Jos tavoitteesi on valmis vokaaliraita, koukkuvetoinen original lyriikoilla tai yksinkertaisesti paikka, jossa voit kuunnella jotain alle minuutissa, törmäät työkalun arkkitehtuurisiin rajoituksiin melko nopeasti. Alla olevat viisi vaihtoehtoa on valittu täyttämään juuri nämä aukot. Mikään niistä ei korvaa Stable Audiota itse isännöidyssä, tutkimuslaatuisessa työssä; ne palvelevat eri luovaa pintaa.

Mihin Stable Audio on rakennettu

Stable Audion diffuusioarkkitehtuuri loistaa äänitekstuurien ja instrumentaalikerrosten luomisessa soinnillisella koherenssilla, johon aiemmat silmukkapohjaiset työkalut eivät kyenneet. Syötä sille yksityiskohtainen kehote timbrasta, temposta ja tunnelmasta, niin saat jotain, joka kuulostaa harkitulta eikä satunnaisesti kootulta.

Avoimet malliversiot (erityisesti Stable Audio Open) antavat teknisesti suuntautuneille käyttäjille mahdollisuuden, jota suljetut kaupalliset alustat eivät yksinkertaisesti tarjoa: suorita päättely paikallisesti, rajaa tulokset omaan datajoukkoosi tai mukauta malli kapealle alueelle ilman API-ehtojen neuvottelua. Peligludiostudiot, akateemiset ääni-ML-tiimit ja ambient-säveltäjät, jotka haluavat offline-generoinnin, voivat perustella tämän yksin.

Missä Stable Audio myös suoriutuu hyvin: generatiiviset taustaraidat, kokeelliset äänimaisemaisemaiset, foley-tyyppiset tekstuurit ja pitkät ambient-kappaleet. Jos sana "laulaja" ei esiinny projektisi kuvauksessa, Stable Audio on vakava ensimmäinen vaihtoehto, jota kannattaa vertailla.

Missä Stable Audio törmää rajoituksiinsa

Laulajat ovat ilmeisin puute. Mallia ei koulutettu syntetisoimaan luonnollista lauluesitystä, ja yritykset viedä se laulutyyliseen vokaalilähtöön tuottavat artefakteja, jotka vaihtelevat hienovaraisesta suttuisuudesta uncanny valley -tason kummajaisuuteen. Erityisesti kappalegeneroinnin ympärille rakennetut kilpailijat — joita on koulutettu valtavilla vokaaliäänityskorpuksilla — tuottavat huomattavasti puhtaampia tuloksia suoraan paketista.

Tähän liittyen: Stable Audion oletustulosteen kestot ovat lyhyempiä. Jäsennellyn kappaleen luominen säkeistö-kertosäe-säkeistö-kaarella, sillalla ja häivyttämisellä vaatii huolellista kehotesuunnittelua ja usein useita käsin yhteen ommeltuja generointeja. Erityisesti kappaleen tuottamiseen tarkoitetut työkalut käsittelevät tuon rakenteen natiivisti.

Käyttöliittymä heijastaa tuotteen tutkimustyökaluperiminäistä. Ei ole ohjattua lyriikkasyötettä, ei yhden napin tyylinvalitsinta eikä reaaliaikaista edistymispalautetta ei-tekniselle yleisölle kalibroituna. Lauluntekijälle, joka haluaa kokeilla ilman dokumentaation lukemista, oppimiskäyrä on jyrkkä suhteessa tuloshyötyyn. Kehotevetoinen laulunkirjoitus — jossa kuvailet konseptin ja työkalu tuottaa sanat, melodian ja sovituksen yhdessä — ei yksinkertaisesti ole sitä, mihin Stable Audio on suunniteltu.

Lisäksi kaupallisen käytön hinnoittelu Stability AI:n API:n kautta voi olla läpinäkymätöntä. Ilmaiset tasot ovat rajoitettuja, ja polku ilmaisesta kokeilusta lisensoituun kaupalliseen tuottoon edellyttää ehtojen selvittämistä, jotka muuttuvat useammin kuin omistautuneiden musiikkialustojen ehdot.

Viisi vaihtoehtoa käyttötarkoituksittain

Suno

Suno on alusta, joka toi tekoälykappalegeneroinnin valtavirran yleisölle, ja nykyinen versio on edelleen yksi ominaisimmista päästä päähän kappaleen tuottajista saatavilla. Lähetä lyhyt kuvaus — genre, tunnelma, käsitteen palanen — ja Suno tuottaa täydellisen raidan synteettisillä vokaaleilla, tunnistettavalla rakenteella ja tuotantoviilauksella, joka kestää kuluttajakaiuttimilla.

Vokaalilaatu on otsikko. Sunon koulutusdata ja mallisuunnittelu tähtäävät laulavaan tuottoon, ja useimmissa pop-, hip-hop- ja country-tyyppisissä genreissä tulokset ovat kilpailukykyisiä sen kanssa, mitä kuulet demoreeliltä. Arkkitehtuuriin sisäänrakennettu koukkujen havaitseminen tarkoittaa, että tulokset sijoittuvat automaattisesti säkeistö-kertosäe-alueelle, mikä on joko vahvuus tai rajoitus tavoitteistasi riippuen.

Rajoitus, jonka Suno jakaa jokaisen suljetun alustan kanssa: ei pääsyä mallipainoksiin, ei paikallista päättelyä eikä polkua itse isännöintiin. Jos haluat muokata matalaa päätä tai poistaa virityshäntää virvelissä, teet sen jälkikäteen DAW:ssa, et generaattorin sisällä. Tutkijoille Suno on musta laatikko. Lauluntekijöille se on yleensä hyvä.

Udio

Udio painottaa tyylien laajuutta ja genrejen sekoittamista tavalla, joka tuntuu laadullisesti erilaiselta kuin Suno. Siinä missä Suno laskeutuu luotettavasti genren keskiöön, Udio käsittelee epätavallisia leikkauksia — jazz-vaikutteinen lo-fi Afrobeats-lyömäsoittimilla, orkesterimainen metalli puhuttujen jaksojen kera — ilman, että sinun tarvitsee kehittää kehottetta voimakkaasti. Generointi yllättää usein tuottavalla tavalla.

VokaalilaatuUdiossa on kilpailukykyinen Sunon kanssa monissa genreissä ja ylittää sen toisinaan genreissä, joissa on erityinen lausunta: soul, gospel, teatterimaisema ja tietyt alueelliset tyylit, joita pienemmän korpuksen mallit käsittelevät huonosti. Käyttöliittymä on parantunut merkittävästi ensimmäisen vuotensa aikana ja tarjoaa nyt tarpeeksi rakennetta, jotta ei-tekninen käyttäjä voi orientoitua nopeasti.

Käyttäjille, jotka löysivät alkuperäisen Suno-tuloksensa liian kaavamaiseksi, Udio on luonnollinen seuraava kokeilu. Kuten Suno, se on täysin suljettu, pelkästään isännöity ja kaupallisesti lisensoitu. Itse isännöinnin polkua ei ole.

aisonggen

aisonggenin musiikkigeneraattori noudattaa kehote-kappale-lähestymistapaa yhdellä rakenteellisella ominaisuudella, joka erottaa sen yhden tulosteen työkaluista: alusta luo viisi rinnakkaista varianttia yhdestä kehotteesta, jolloin voit kuunnella suuntia ennen sitoutumista yhteen. Tuo rinnakkaistuotos on hyödyllinen luovan istunnon alussa, kun löydät vielä, mikä versio ideastasi todellisuudessa kuulostaa oikealta.

Työkalu kattaa koko kappaleen tuotantoputken yhdessä paikassa. Lyriikastudio käsittelee lyriikan luomista ja muokkaamista suoraan alustalla, joten et kopioi ja liitä kielimallin ja musiikkigeneraattorin välillä. Cover-generaattori laajentaa työnkulkua visuaalisiin resursseihin tuottaen albumikansitason kuvia raidan tunnelmaan sovitettuna. Käyttäjille, jotka haluavat siirtyä konseptista jaettavaan pakettiin poistumatta käyttöliittymästä, työkalusarja on koherentti.

Rajoituksista suoraan: aisonggen on suljetun mallin, isännöity alusta. Ei ole mahdollista ladata mallipainoksia, paikallista päättelyvaihtoehtoa eikä polkua itse isännöintiin. Jos käyttötapauksesi on itse isännöity generointi, akateeminen toistettavuus tai hienosäätö omaan datajoukkoosi, Stable Audion avoimet malliversiot ovat parempi vastaus, eikä aisonggen muuta sitä laskelmaa. Lauluntekijälle, sisällöntuottajalle tai tuottajalle, joka tarvitsee laulumuotoista tuottoa oikeilla vokaaleilla nopeasti, kuilu on merkittävästi kapeampi.

Hinnoittelu noudattaa kredit-pohjaista rakennetta ilmaistasolla arviointia varten. Arvostelusivu kattaa itsenäisesti lähetetyt arviot, jos haluat saada käsityksen tuloslaadusta ennen generointia.

Mureka

Mureka asemoituu ammattiluokan tekoälymusiikkialustaksi, jossa korostetaan voimakkaammin tuotantolaatua tulosalueen huipulla. Malli on erityisen huomattava instrumentaalisovituksen tiheydessä — generoiduissa raidoissa on yleensä enemmän kerroksia ja dynaamista aluetta kuin monilla kilpailijoilla vastaavalla kehotteiden monimutkaisuudella.

Vokaalisuoritukset Murekassa ovat kykeneviä, erityisen vahvoja emotionaalisesti ilmaisevassa toimituksessa baladeissa ja R&B-tyyppisissä materiaaleissa. Siinä missä jotkut työkalut luovat vokaaleja, jotka istuvat mekaanisesti instrumentaalin päällä, Murekan tulokset kuulostavat useammin siltä, että vokaali on tuotettu raidan rinnalla eikä sijoitettu sen päälle jälkeenpäin.

Käyttöliittymä on enemmän suunnattu käyttäjille, joilla on jo äänentuotannon kontekstia. Saat enemmän irti Murekasta, jos voit kuvata kehotteesi tuotantotermein — tempo, sävel, instrumenttiviittaukset — kuin jos työskentelet puhtaasti käsitteellisellä tasolla. Se on arvokas vertailukohta käyttäjille, jotka ovat testanneet Sunoa jaUdioa ja haluavat kolmannen vertailupisteen ennen ensisijaisen alustan valitsemista.

Riffusion

Riffusion alkoi avoimen lähdekoodin sivuprojektina — spektrogrammipohjaisena diffuusiomallina, joka kääntää kuvagenerointitekniikat äänisynteesiin — ja tuo tutkimusperimä näkyy edelleen siinä, miten se käsittelee tuotosta. Malli ei yritä olla pop-kappaleekone; se luo ääntä, joka kuulostaa enemmän kehittyvältä tekstuurilta kuin jäsennellyltä kappaleelta, mikä tekee siitä mielenkiintoisen ambient-, elektronisen ja kokeellisen tuotannon konteksteissa.

Käyttäjille, jotka ovat tottuneet Stable Audion kokeellisempaan tuottoon, Riffusion on vierekkäisellä alueella. Vokaalisuoritus ei ole sen vahvuus, eikä jäsennelty kappaleen tuotos ole tavoite. Se tarjoaa erilaisen generatiivisen luonteen — jotain, joka reagoi kehotteisiin tavoilla, joita muut alustat eivät tee — mikä tekee siitä hyödyllisen täydennyksen eikä suoran korvikkeen.

Riffusionin avoimen lähdekoodin juuret tarkoittavat, että kokeilun kynnys on matala ja yhteisöresurssit ovat saatavilla. Se ei vastaa Stable Audion avoimen mallin syvyyttä vakavaan itse isännöintiin, mutta kevyenä selainpohjaisen generatiivisen tekstuurin vaihtoehtona se on istunnon arvoinen.

Miten valita — kolme kysymystä

  1. Tarvitsetko avoimia malleja tai paikallista päättelyä? Jos kyllä, Stable Audio (erityisesti Stable Audio Open) on oikea vastaus riippumatta tässä luetelluista vaihtoehdoista. Mikään niistä ei tarjoa itse isännöintiä, ja kaikki ne edellyttävät datan lähettämistä kaupalliseen API:hin. Se on tiukka raja.
  2. Onko laulaja ensisijainen vai toissijainen elementti? Jos tuotat kappaleita, joissa vokaalisuoritus kantaa raitaa, testaa ensin Sunoa,Udioa ja aisonggenä. Jos rakennat instrumentaalisia taustaraitoja, peliäänien tai äänimaisemasuunnittelun materiaaleja, joissa laulajat ovat joko poissa tai kevyttä tekstuuria, Stable Audio ja Riffusion todennäköisemmin tyydyttävät.
  3. Kuinka suuren osan työnkulusta haluat yhden työkalun sisälle? Jos haluat lyriikankirjoituksen, musiikingeneraation ja visuaaliset resurssit yhdessä käyttöliittymässä, aisonggenin työkalusarja on rakennettu siihen. Jos mieluummin koostat eri osat työnkulustasi erikoistuneisiin työkaluihin ja yhdistät ne itse, tehtäväkohtaiset erikoistyökalut antavat sinulle enemmän hallintaa jokaisessa vaiheessa.

Kohdennettu testaussuunnitelma

  1. Perustaso nykyisestä työkalustasi. Luo sama kehote Stable Audiossa ja kirjaa tulokset: äänenpituus, vokaalien läsnäolo (tai puuttuminen), tuotannon tiheys ja luomisaika. Tämä on vertailupistesi.
  2. Aja sama kehote kahden vaihtoehdon läpi. Valitse viidestä yllä olevasta vastaustesi perusteella kolmeen kysymykseen. Käytä identtisiä kehotteita kaikilla kolmella alustalla mallimuuttujan eristämiseksi.
  3. Arvioi erityisesti tärkeällä dimensiolla. Jos laulajat ovat tavoite, pisteytä vain vokaaliluonnollisuus ja ymmärrettävyys. Jos tekstuuri on tavoite, pisteytä spektraalinen rikkaus ja kehitys ajan myötä. Vältä vaihtoehtojen arviointia Stable Audion vahvuuksien perusteella — tiedät jo, että se voittaa siellä.
  4. Testaa reunatapaus omassa genressäsi. Pop-kehotteen keskiarvot suosivat tekoälymusiikki-alustoja. Testaa genreä, joka on haasteellisempi valitsemallesi vaihtoehdolle — muuta kieltä kuin englantia, ei-länsimaista asteikkoa, epätavallista tahtilajia — ja seuraa, hajoaako tulos sulavasti vai katastrofaalisesti.
  5. Tarkista kaupalliset lisensointiehdot. Ennen kuin rakennat työnkulun minkä tahansa alustan ympärille, vahvista tuotoksen lisensointi aiottuun käyttöön. Ehdot eroavat merkittävästi Sunon, Udion, aisonggenin, Murekan ja Riffusionin välillä, ja ne muuttuvat. Lue nykyinen versio sen sijaan, että luotat yhteenvetoihin.

Stable Audio on oikeutettu työkalu, ja avointen mallien argumentti ei ole vähäinen alaviite — se edustaa perustavanlaatuisesti erilaista suhdetta luojan ja generatiivisen mallin välillä. Työnkuluille, joihin se on suunniteltu, sitä on vaikea lyödä.

Laulumuotoiseen, vokaalilähtöiseen, kuluttajavalmiiseen tuottoon yllä olevat viisi alustaa vastaavat puutteisiin. Aloita kysymyksestä, joka todella rajoittaa nykyistä projektiasi, ja valitse työkalu, joka vastaa siihen.

Seuraava kappaleesi on yhden ilmaisen kehotteen päässä

Avaa studio, kirjoita tunnelma, kuule valmis kappale 30 sekunnissa. Ilmainen aloitus, rojaltivapaa julkaisu, ei luottokorttia tarvita.