Těžkou částí tvorby AI hudby není stisk tlačítka. Těžkou částí je vědění, co vložit předtím, než ho stisknete, čtení toho, co se vrátí s jakýmkoli rozlišením, a rozhodnutí, zda pokračovat nebo přestat. Většina lidí, kteří označují AI hudbu za „generickou“, se nemýlí — jen v procesu přestali příliš brzy nebo začali bez dostatečné jasnosti o tom, co se vlastně pokoušeli vytvořit.
Toto je postup procesu, který jsem prošel několik set krát. Považuje generování za iteraci, nikoli za transakci vending automatu. Když to funguje, výstup nezní, jako by ho napsaný stroj. Když selhává, budete přesně vědět, které rozhodnutí přezkoumat.
Rozhodněte, jaký druh písně skutečně chcete
Před otevřením jakéhokoli nástroje seďte s jednou otázkou: čí zkušenost tato píseň žije uvnitř? Ne „jaký žánr“ a ne „jaká nálada“ — ty přijdou později. Začněte perspektivou, pak místem, pak emocionálním těžištěm.
Jednoduchý rámec pro toto:
A [KDO] dělající [CO], moment těsně před [PŘELOMOVÝM BODEM]. Emoce pod tím je [POCIT], ne [POVRCHOVÝ POCIT]. Udržte to [JEDNO TÓNOVÉ SLOVO].
Rozdíl mezi povrchovým pocitem a pocitem pod ním není jen cvičení ve psaní — je to instrukce generátoru. Píseň o „zármutku“ zní jedním způsobem; píseň o specifické podrážděnosti z neschopnosti plakat na pohřbu zní jako zcela jiná nahrávka. Specificita se přenáší do generování způsoby, které žánrové tagy jednoduše nemohou.
Zatímco stále přemýšlíte na papíře, rozhodněte o délce. Dvěminutová stopa a čtyřminutová stopa vyžadují různé strukturální volby a generátor bude bloudit bez cíle. Vyberte jeden předtím, než se přesunete.
Krok 1: napište prompt, který pojmenovává postoj, ne texturu
Většina prvních promptů popisuje zvuk: „lo-fi beat, teplé klávesy, melancholické.“ To popisuje, jak by stopa měla působit na posluchače tři kroky vzdálené od emoce. Postoj popisuje, co performer dělá svým tělem a pozorností.
Porovnejte toto:
- Texturový prompt: „Pomalý R&B, jemné falsetto, pozdní noc, touha.“
- Postojový prompt: „Někdo čte staré zprávy, které si slíbil smazat. Pokračuje v čtení. Vokál je tichý, jako by nikdo nechtěl slyšet.“
Oba ukazují na podobný emocionální cíl. Postojový prompt dává modelu něco k provedení. Texturový prompt mu dává zvukovou referenci a nic jiného. Výsledky nejsou ekvivalentní.
Udržujte postojové prompty na tři nebo čtyři věty. Strop je nižší, než si myslíte — po přibližně pěti větách model začíná průměrovat přes instrukce, spíše než na nich stavit.
Krok 2: vyberte generátor, který vám umožní porovnávat pokusy
Jednopokusové generátory zpomalují iteraci konkrétním, otravným způsobem: dostanete výsledek, je téměř správný, regenerujete s malou úpravou a nový pokus přistane v úplně jiném směru, protože neexistuje sdílená kotva. Skončíte honbou za původním pokusem, který byl „téměř správný“ po šesti cyklech.
Spuštění paralelních variant to řeší. Hudební generátor aisonggen vykresluje pět pokusů současně ze stejného promptu, takže je můžete porovnávat vedle sebe před zavázáním se ke směru. Pokud jsou dva z pěti ve správném území, většinu regenerovací smyčky jste již přeskočili.
Spravedlivá poznámka: pět pokusů stojí více kreditů než jeden. Pokud máte velmi těsný kredit rozpočet, spusťte místo pěti dva pokusy a jeden berte jako referenci. Jde o to mít alespoň jedno srovnání, nikoli mít pět.
Krok 3: napište nebo spolunapište texty nejprve
Oblast textů generátoru je malé textové pole a model běžící za ní má silnou preferenci pro zachování čehokoli, co mu dáte — původní počet řádků, původní schéma rýmu, dokonce i původní sylabický vzorec. Pokud napíšete texty uvnitř toho pole a poté rozhodnete, že chcete přidat bridge, budete s modelem bojovat při každé regeneraci.
Texty navrhujte samostatně předtím, než je vložíte. Lyric Studio vám dává dostatek prostoru na skutečné vidění toho, co píšete. Můžete přepsat celou sloky, zkusit jiný refrénní hák, přesunout pre-refrén předtím, než se stane strukturálním — to vše předtím, než cokoli předáte generátoru.
Texty-první vám také umožní zkontrolovat jednu věc, kterou generátor nemůže: zda text má přirozený řečový rytmus, který zpěvák skutečně může přistát. Přečtěte si refrén nahlas. Pokud klopýtnete, model také bude.
Pokud budujete text interaktivně vedle hudby — prompt první, texty druhé — je tento pracovní postup také platný. Klíčem je, aby se editace textů děla někde se skutečným editačním prostorem, nikoli v textovém poli generátoru.
Krok 4: vyberte ovládací prvky stylu se záměrem
Žánrové tagy jsou semena, nikoli smlouvy. „Indie folk“ nezamkne výstup do žádného konkrétního produkčního stylu — posouvá model směrem ke shluku zvuků spojeného s tímto štítkem, což je výchozí bod, nikoli záruka. Pokud chcete pochopit, jak model skutečně interpretuje tyto tagy před zavázáním se, průvodce žánrovými tagy stojí za deset minut vašeho času.
Co skutečně omezuje výstup spolehlivěji:
- Nálada, pojmenovaná přesně. „Hořkosladký“ a „rezignovaný“ přistávají různě i v rámci stejného žánrového tagu.
- Scéna nebo prostředí. „Prázdné parkoviště o půlnoci“ dává mixovému inženýrovi (modelu zde) vizuální referenci pro reverb a prostor.
- Pohlaví vokálu a rejstřík. Většina generátorů přijímá explicitní instrukce zde a výchozí nastavení nemusí být vždy to správné pro váš text.
Nastavte BPM, pokud ho znáte. Ne rozsah — číslo. „Kolem 90“ dává modelu příliš mnoho prostoru. „88 BPM“ mu dává hodiny. Totéž platí pro délku stopy: napište cílovou délku explicitně, spíše než ji nechte na výchozím nastavení.
Krok 5: vykreslete, pak poslouchejte na nejhorším reproduktoru, který máte
AI generované stopy mají known mode selhání: zní lépe na sluchátkách, než si zaslouží. Stereo pole je often wide, basové frekvence jsou kontrolované a mix je čistý způsobem, který se odhalí jako umělý teprve když ho slyšíte na něčem bez slitování.
Po prvním vykreslení přejděte na reproduktor svého telefonu. Nebo notebook vestavěný. Nebo, pokud máte přístup, na autorádio se staženými okénky. Tyto reproduktory kolabují stereo pole, odhalují basově-střední bahno a vynáší tvrdomost ve výškovém středním pásmu. Pokud stopa stále zní jako stopa — ne nutně dobře, ale koherentně — máte něco, s čím stojí za to pracovat.
Pokud se zhroutí do kaše, to není vždy znamení k regeneraci. Je to znamení k pohledu na ovládací prvky stylu. Žánrový tag těžký na basové frekvence plus teplé nastavení místnosti plus pomalé BPM often produkují stopu, která necestuje. Upravte jednu proměnnou, ne všechny tři.
Krok 6: cover, re-vykreslete, nebo přestaňte
Vědět, kdy přestat, je dovednost, která odlišuje lidi, kteří vydávají, od lidí, kteří mají čtyři sta uložených návrhů a nic na playlistu.
Tři signály, že pokus je hotový:
- Refrén skutečně táhne. Cítíte příjezd dříve, než o něm přemýšlíte. Pokud se musíte přesvědčovat, proč refrén funguje, nefunguje.
- Vokál sedí v kapese. Zpěvák zní, jako by zpíval tuto píseň, ne demonstroval, že dokáže trefovat tyto noty. AI vokály often přehnaně artikulují souhlásky — dobrý pokus to nedělá.
- Na třetím poslechu si nevšimnete žádných AI-indikátorů. Rytmické vzorce bicích, které jsou příliš metronomicky čisté. Přechody akordů, které postrádají jakoukoli variaci rychlosti. Dlouhá nota, která nikdy nedýchá. To jsou indikátory. Jeden z nich je often přijatelný. Tři jsou příliš mnoho.
Pokud pokus projde dvěma ze tří, zastavte a označte to jako návrh. Pokud projde všemi třemi, zastavte a označte to za hotové.
Re-vykreslení má smysl, když je jeden konkrétní parametr špatný a vy ho dokážete pojmenovat. „Vokál je pro text příliš jasný“ je instrukce re-vykreslení. „Něco se cítí špatně“ není — to je problém poslechu, nikoli generování, a více pokusů ho neopraví.
Běžné chyby
- Prompt příliš krátký. Jedna věta není prompt; je to žánrový tag s oberlem věty. Tři věty jsou minimem pro výsledek s jakýmkoli charakterem.
- Prompt příliš dlouhý. Osm vět detailního budování světa dává modelu příliš mnoho omezení k simultánnímu splnění. Průměruje je a produkuje nic zvláštního.
- Přepínání nástrojů uprostřed iterace. Každý generátor má jiný vnitřní model a „stejný prompt“ produkuje strukturálně různé výsledky napříč nástroji. Pokud přepnete uprostřed relace, resetujete srovnávací základnu a ztratíte historii iterací. Vyberte jeden nástroj na stopu a zůstaňte u něj.
- Regenerování se stejnými vstupy a očekávání jiného výsledku. Variace ve výstupech pro identické prompty je reálná, ale ohraničená. Pokud jsou tři po sobě jdoucí pokusy špatně stejným způsobem, prompt je problém, nikoli náhodné semeno.
- Ignorování nesouladu vokálu. Barva vokálu, rejstřík a energie implikované vaším textem musí být v souladu s hlasem, který model zvolí. Text napsaný pro drsný baryton podaný lehkým tenorem je chyba obsazení a žádné množství re-vykreslení obsazení neopraví.
Po první stopě, která funguje
Stáhněte stemy, pokud je nástroj nabízí. I pokud neplánujete mixovat, mít vokál a instrumentál oddělené znamená, že můžete pozůstatky zpracovat později nebo předat instrumental skutečnému zpěvákovi bez začátku od nuly.
Uložte přesně prompt tak, jak byl, když fungoval. Ne verzi, přes kterou jste iterovali — finální verzi. Zkopírujte ji do poznámkového souboru, tabulky, kamkoli mimo samotný nástroj. Většina nástrojů neudržuje prompty napříč relacemi ve formě, kterou snadno prohledáte. Hudební knihovna aisonggen auto-ukládá historii generování a prompty, které produkují každou stopu, což snižuje, kolik toho musíte spravovat sami, ale stále stojí za to si uchovávat vlastní kopii promptů, které produkovaly vaše nejlepší výsledky.
Zaznamenejte pro každou stopu, která funguje, dvě věci: kombinaci žánrový tag-nálada, kterou jste použili, a jakékoli postojové fráze, které se cítily generativní. Přes deset nebo patnáct stop se objevují vzorce — najdete kombinace tagů, které odpovídají vašemu kreativnímu rozsahu, a formulace, které spolehlivě produkují něco, co stojí za zachování. Tento záznam má větší hodnotu než jakákoli příručka, včetně téhle.
Pokud chcete vidět, jak jiní lidé generátor používají, než se zavážete k vlastnímu pracovnímu postupu, stránka s recenzemi ukazuje, jak skuteční uživatelé přistupují k různým žánrům a případům použití.
Cílem není generovat hudbu. Generovat hudbu je teď snadnou částí — kdokoli může stisknout tlačítko. Cílem je psát písně. Písně, které mají perspektivu, specifické emocionální centrum, strukturu, která si vydělá svůj konec. AI je produkční vrstva: zvládá aranžmá, mix, hlas. Psaní musíte stále dělat vy. Čím více z toho přinesete do promptu, tím méně ho uslyšíte chybějící ve výstupu.