AISongGen logoAISongGen

Ako vytvárať AI hudbu, ktorá nezneje ako AI hudba

Praktický návod — od zárodku promptu po stopu, ktorú môžete zaradiť do playlistu. Rozhodnutia, iterácie, spôsob, ako vedieť, kedy zastaviť.

9 min čítania

Ťažká časť vytvárania AI hudby nie je stlačenie tlačidla. Ťažká časť je vedieť, čo vložiť pred stlačením, čítať to, čo sa vráti, s nejakým rozoznávaním a rozhodovať, či pokračovať alebo zastaviť. Väčšina ľudí, ktorí nazývajú AI hudbu „generickou“, sa nemýli — len skončili príliš skoro v procese alebo začali bez dostatočnej jasnosti o tom, čo sa skutočne snažia vyrobiť.

Toto je návod procesu, ktorý som prechádzal niekoľko stokrát. Zaobchádza s generovaním ako s iteráciou, nie ako s transakciou automatu na predaj. Keď to funguje, výstup nezneje, ako keby ho napísal stroj. Keď to zlyhá, budete presne vedieť, ktoré rozhodnutie revidovať.

Rozhodnite, aký druh piesne skutočne chcete

Pred otvorením akéhokoľvek nástroja si sadnite s jednou otázkou: čia skúsenosť žije v tejto piesni? Nie „aký žáner“ a nie „akú atmosféru“ — tie prídu neskôr. Začnite perspektívou, potom miestom, potom emocionálnym ťažiskovým bodom.

Jednoduchý rámec pre toto:

A [KTO] robí [ČO], moment tesne pred [ZLOMOVÝM BODOM]. Emócia underneath je [POCIT], nie [POVRCHOVÝ POCIT]. Udržte to [JEDNO TÓNOVÉ SLOVO].

Rozdiel medzi povrchovým pocitom a pocitom underneath nie je cvičenie v písaní — je to inštrukcia generátora. Pieseň o „smútku“ znie jedným spôsobom; pieseň o konkrétnom podráždení z neschopnosti plakať na pohrebe znie ako úplne iná nahrávka. Konkrétnosť cestuje do generovania spôsobmi, akými tagy žánru jednoducho nemôžu.

Kým stále premýšľate na papieri, rozhodnite o dĺžke. Dvojminútová stopa a štvorminútová stopa si vyžadujú odlišné štrukturálne voľby a generátor bez cieľa bude unášaný. Vyberte si jeden pred pohybom.

Krok 1: napíšte prompt, ktorý pomenúva postoj, nie textúru

Väčšina prvých promptov opisuje zvuk: „lo-fi beat, teplé klávesy, melancholický“. To opisuje, ako by stopa mala znieť pre poslucháča tri kroky vzdialené od emócie. Postoj opisuje, čo interpret robí so svojím telom a pozornosťou.

Porovnajte tieto dve:

  • Prompt textúry: „Pomalé R&B, mäkký falsetto, neskorá noc, túžba.“
  • Prompt postoja: „Niekto číta staré správy, ktoré si sľúbil, že zmaže. Stále číta. Vokál je tichý, akoby nechcel, aby ho niekto počul.“

Obe ukazujú na podobný emocionálny cieľ. Prompt postoja dáva modelu niečo na predvedenie. Prompt textúry mu dáva zvukovú referenciu a nič iné. Výsledky nie sú ekvivalentné.

Udržiavajte prompty postoja na tri alebo štyri vety. Strop je nižší, ako si myslíte — po zhruba piatich vetách model začína priemerovať naprieč inštrukciami namiesto budovania na nich.

Krok 2: vyberte generátor, ktorý vám umožňuje porovnávať snímky

Generátory s jednou snímkou spomaľujú iteráciu konkrétnym, otravným spôsobom: dostanete výsledok, je takmer správny, re-generujete s malou úpravou a nová snímka pristane v úplne odlišnom smere, pretože neexistovala žiadna spoločná kotva. Skončíte naháňaním pôvodnej snímky, ktorá bola „takmer v poriadku“ po šiestich cykloch.

Spustenie paralelných variantov to rieši. Generátor hudby aisonggen renderuje päť snímok súčasne z rovnakého promptu, takže môžete porovnávať ich vedľa seba pred záväzkom k smeru. Ak dve z piatich sú v správnom priestore, už ste preskočili väčšinu iteračnej slučky.

Spravodlivá poznámka: päť snímok stojí viac kreditov ako jedna. Ak máte veľmi tesný kredit-rozpočet, spustite dve snímky namiesto piatich a zaobchádzajte s jednou ako so svojou referenciou. Pointou je mať aspoň jedno porovnanie, nie mať päť.

Krok 3: napíšte alebo spolu-napíšte texty ako prvé

Oblast textov generátora je malé textové pole a model bežiaci za ním má silnú a priori k zachovaniu toho, čo mu dávate — pôvodný počet riadkov, pôvodnú schému rýmovania, dokonca pôvodný vzor slabík. Ak píšete texty vo vnútri tohto poľa a neskôr sa rozhodnete, že chcete pridať bridge, budete bojovať s modelom pri každom re-generovaní.

Návrhy textov robte oddelene pred ich vkladaním. Lyric Studio vám dáva dostatok miesta na skutočné videnie, čo píšete. Môžete revidovať celú sloky, vyskúšať iný refrénový háčik, presunúť pre-refrén predtým, ako sa stane štrukturálnym — všetko pred odovzdaním čohokoľvek generátoru.

Texty na prvom mieste vám tiež umožňujú skontrolovať jednu vec, ktorú generátor nemôže: či má text prirodzený rečový rytmus, ktorý spevák skutočne môže pristáť. Prečítajte si refrén nahlas. Ak sa potkýnate, model to tiež urobí.

Ak budujete text interaktívne spolu s hudbou — prompt ako prvý, revidujte texty druhé — tento pracovný postup je tiež platný. Kľúčom je, že úprava textov sa deje niekde so skutočným editačným priestorom, nie v textovom poli generátora.

Krok 4: vyberte ovládacie prvky štýlu s úmyslom

Tagy žánru sú semená, nie zmluvy. „Indie folk“ nezamkne výstup do žiadneho konkrétneho produkčného štýlu — nakláňa model k zhlukom zvukov spojených s týmto štítkom, čo je východiskový bod, nie záruka. Ak chcete pochopiť, ako model skutočne interpretuje tieto tagy pred záväzkom, sprievodca tagmi žánru stojí za desať minút vášho času.

Čo skutočne obmedzuje výstup spoľahlivejšie:

  • Nálada, pomenovaná presne. „Sladkohorká“ a „resignovaná“ pristávajú odlišne aj v rámci rovnakého tagu žánru.
  • Scéna alebo nastavenie. „Prázdné parkovisko o polnoci“ dáva mixovacímu inžinierovi (tu modelu) vizuálnu referenciu pre reverb a priestor.
  • Pohlavie a register vokálu. Väčšina generátorov prijíma explicitné inštrukcie tu a predvolené nastavenie nie je vždy správne pre váš text.

Nastavte BPM, ak ho poznáte. Nie rozsah — číslo. „Okolo 90“ dáva modelu príliš veľa priestoru. „88 BPM“ mu dáva hodinky. To isté platí pre dĺžku stopy: napíšte cieľové trvanie explicitne namiesto ponechania na predvolenom nastavení.

Krok 5: renderujte, potom počúvajte na najhoršom reproduktore, ktorý vlastníte

AI-generované stopy majú známy mód zlyhania: znejú na slúchadlách lepšie, ako si zaslúžia. Stereofónne pole je often wide, nízky koniec je ovládaný, mix je čistý spôsobom, ktorý sa odhalí ako umelý len keď ho počujete na niečom bez milosti.

Po prvom renderovaní prejdite na reproduktor svojho telefónu. Alebo vstavaný notebook. Alebo, ak máte prístup k jednému, auto-stereo s otvorenými oknami. Tieto reproduktory skladajú stereofónne pole, odhaľujú nízko-stredné bahno a surfujú drsnosť vo vrchnom strednom rozsahu. Ak stopa stále znie ako stopa — nie nevyhnutne dobrá, ale koherentná — potom máte niečo hodné práce.

Ak sa rozpadne do kaše, to nie je vždy znak na re-generovanie. Je to znak na pohľad na vaše ovládacie prvky štýlu. Tag žánru s dôrazom na nízky koniec plus nastavenie teplej miestnosti plus pomalé BPM often produkuje stopu, ktorá necestuje. Upravte jednu premennú, nie všetky tri.

Krok 6: koverok, re-render alebo zastavenie

Vedieť, kedy zastaviť, je zručnosť, ktorá oddeľuje ľudí, ktorí vydávajú od ľudí, ktorí majú štyri stá uložených návrhov a nič v playliste.

Tri signály, že snímka je hotová:

  • Refrén skutočne ťahá. Cítite príchod pred premýšľaním o ňom. Ak musíte zdôvod, prečo refrén funguje, nefunguje.
  • Vokál sedí v kapacity. Spevák znie, akoby spíval túto pieseň, nie demonštroval, že dokáže zasiahnuť tieto noty. AI vokály often príliš artikulujú spoluhlásky — dobrá snímka to nerobí.
  • Nezostali žiadne AI-znaky, ktoré si všimnete pri treťom počúvaní. Vzory bicích, ktoré sú príliš metronomicky čisté. Akordové prechody, ktoré nemajú žiadnu variáciu rýchlosti. Predĺžená nota, ktorá nikdy nedýcha. Toto sú znaky. Jeden z nich je often prijateľný. Tri sú príliš veľa.

Ak snímka prechádza dvoma z troch, zastavte sa a nazvite to návrhom. Ak prejdete všetkými tromi, zastavte sa a nazvite to hotovým.

Re-renderovanie má zmysel, keď je jeden konkrétny parameter nesprávny a môžete ho pomenovať. „Vokál je príliš jasný pre text“ je inštrukcia re-renderovanie. „Niečo sa cíti posunuté“ nie je — to je problém počúvania, nie problém generovania a viac snímok to neopraví.

Bežné chyby

  • Prompt príliš krátky. Jedna veta nie je prompt; je to tag žánru s obalom vety. Tri vety sú minimum pre výsledok s akýmkoľvek charakterom.
  • Prompt príliš dlhý. Osem viet detailného world-building dáva modelu príliš veľa obmedzení na simultánne splnenie. Bude ich priemerovať a neprodukovať nič konkrétne.
  • Prepínanie nástrojov uprostred iterácie. Každý generátor má odlišný interný model a „rovnaký prompt“ produkuje štrukturálne odlišné výsledky naprieč nástrojmi. Ak prepnete uprostred relácie, resetujete svoje porovnávacie základné hodnoty a stratíte históriu iterácií. Vyberte si jeden nástroj na stopu a zostaňte pri ňom.
  • Re-generovanie s rovnakými vstupmi a očakávanie odlišného výsledku. Variácia vo výstupoch pre identické prompty je skutočná, ale obmedzená. Ak tri po sebe idúce snímky sú všetky nesprávne rovnakým spôsobom, prompt je problém, nie náhodné semeno.
  • Ignorovanie nesúladu vokálu. Timbre vokálu, register a energia implikovaná vaším textom musia zodpovedať hlasu, ktorý si model vyberá. Text napísaný pre drsný barytón doručený ľahkým tenorom je chyba v obsadení a žiadne množstvo re-renderovania neopraví obsadenie.

Po prvej stope, ktorá funguje

Stiahnite stemy, ak to nástroj ponúka. Aj keď neplánujete mixovať, mať vokál a inštrumentálnu oddelenú znamená, že môžete neskôr zmeniť hlas alebo odovzdať inštrumentálnu skutočnému spevákovi bez začínania od nuly.

Uložte prompt presne tak, ako bol, keď fungoval. Nie verziu, cez ktorú ste iterovali — finálnu verziu. Skopírujte ju do súboru poznámok, tabuľky, kdekoľvek, čo nie je vo vnútri samotného nástroja. Väčšina nástrojov neuchováva prompty naprieč reláciami vo forme, ktorú môžete ľahko prehľadávať. Knižnica hudby aisonggen automaticky ukladá vašu históriu generovania a prompty, ktoré produkovali každú stopu, čo znižuje, koľko toho musíte sami spravovať, ale stále stojí za to uchovávať vlastnú kópiu promptov, ktoré produkovali vaše najlepšie výsledky.

Zaznamenajte dve veci pre každú stopu, ktorá funguje: kombináciu tagov žánru-nálady, ktorú ste použili, a akúkoľvek frázu postoja, ktorá sa cítila generatívna. Naprieč desiatimi alebo pätnástimi stopami sa objavujú vzory — nájdete kombinácie tagov, ktoré zodpovedajú vášmu kreatívnemu rozsahu, a frázovanie, ktoré spoľahlivo produkuje niečo hodné zachovania. Tento denník je hodnotnejší ako akýkoľvek sprievodca, vrátane tohto.

Ak chcete vidieť, ako ostatní ľudia používajú generátor pred záväzkom k vlastnému pracovnému postupu, stránka recenzií ukazuje, ako skutoční používatelia pristupujú k rôznym žánrom a prípadom použitia.

Cieľom nie je generovať hudbu. Generovanie hudby je teraz ľahká časť — ktokoľvek môže stlačiť tlačidlo. Cieľom je písať piesne. Piesne, ktoré majú perspektívu, konkrétne emocionálne centrum, štruktúru, ktorá si zaslúži záver. AI je produkčná vrstva: zvláda aranžáciu, mix, hlas. Stále musíte robiť písanie. Čím viac z toho prinesiete do promptu, tým menej toho počujete chýbajúceho vo výstupe.

Vaša ďalšia skladba je len jeden bezplatný prompt vzdialená

Otvorte štúdio, napíšte atmosféru, počujte hotovú pieseň za 30 sekúnd. Bezplatne na začiatok, bez licenčných poplatkov na vydanie, bez kreditnej karty.