Az AI zene készítésének nehéz része nem a gomb megnyomása. A nehéz rész az, hogy tudd, mit tegyél bele, mielőtt megnyomod, hogy bármilyen megkülönböztetőképességgel olvasd el, mi jön vissza, és hogy eldöntsd, folytatod-e vagy megállsz. A legtöbb ember, aki az AI zenét „általánosnak” nevezi, nincs tévedésben — csak túl korán hagyták abba a folyamatot, vagy nem volt elég egyértelmű elképzelésük arról, mit próbálnak valójában csinálni.
Ez egy útmutató a folyamathoz, amelyet több száz alkalommal futottam végig. Az iterálást generálásnak, nem eladási-automata tranzakciónak tekinti. Ha működik, a kimenet nem fog olyannak hangzani, mintha egy gép írta. Ha nem sikerül, pontosan tudni fogod, melyik döntést kell újralátogatni.
Döntsd el, milyen dalt akarsz valójában
Mielőtt bármilyen eszközt megnyitnál, ülj egy kérdéssel: kinek a tapasztalatán belül él ez a dal? Nem „milyen műfaj” és nem „milyen hangulatú” — ezek később jönnek. Kezd a perspektívával, majd a hellyel, majd az érzelmi gravitációs középponttal.
Egy egyszerű keret ehhez:
Egy [KI] aki [MIT] csinál, a [FORDULÓPONT] előtti pillanat. Az alatta lévő érzelem [ÉRZELEM], nem [FELSZÍNI ÉRZÉS]. Tartsd meg [EGY HANGZATI SZÓ].
A felszíni érzés és az alatta lévő érzés közötti különbség nem egy írási gyakorlat — ez egy generátori utasítás. Egy „gyász”-ról szóló dal egyféleképpen hangzik; egy daldarab a temetésen sírni képtelenség konkrét irritációjáról egy teljesen különböző hanglemeznek hangzik. A konkrétság átviteles a generálásba olyan módon, ahogy a műfajcímkék egyszerűen nem tudják.
Amíg még papíron gondolkodsz, döntsd el a hosszt. Egy kétperces sáv és egy négyperces sáv különböző strukturális döntéseket igényel, és a generátor cél nélkül eltévedhet. Döntsd el az egyiket, mielőtt továbblépnél.
1. lépés: írj promptot, amely álláspontot nevez meg, nem textúrát
A legtöbb első prompt leírja a hangzást: „lo-fi beat, meleg billentyűk, melankolikus.” Ez azt írja le, milyen érzést kelt a sáv a három lépéssel távolabb lévő hallgató számára az érzéstől. Egy álláspont azt írja le, mit csinál az előadó a testével és figyelmével.
Hasonlítsd össze ezt a kettőt:
- Textúra prompt: „Lassú R&B, lágy falsetto, éjszakai, vágyakozó.”
- Álláspont prompt: „Valaki régi üzeneteket olvas, amelyeket megígérte magának, hogy töröl. Tovább olvassák. A vokál halk, mintha nem akarnák, hogy bárki hallja.”
Mindkettő egy hasonló érzelmi célra mutat. Az álláspont-prompt valamit ad a modellnek az előadáshoz. A textúra-prompt egy hangzói referenciát ad és semmi mást. Az eredmények nem egyenértékűek.
Tartsd az álláspont-promptokat három-négy mondatban. A felső határ alacsonyabb, mint gondolnád — körülbelül öt mondatnál a modell az utasítások átlagolni kezd, nem pedig ráépíteni.
2. lépés: válassz olyan generátort, amely lehetővé teszi a felvételek összehasonlítását
Az egylövéses generátorok az iterálást egy specifikusan bosszantó módon lassítják: kapsz egy eredményt, majdnem jó, újragenerálsz egy apró módosítással, és az új felvétel egy teljesen más irányba landol, mert nem volt közös horgony. Azt az eredeti felvételt kergeted, amely „majdnem az volt” hat körön keresztül.
A párhuzamos variánsok futtatása megoldja ezt. Az aisonggen zenegenerátora öt felvételt renderel egyidejűleg ugyanabból a promptból, így irány elkötelezése előtt összehasonlíthatod azokat egymás mellett. Ha az öt közül kettő a megfelelő területen van, már kihagytad az újragenerálási hurok nagy részét.
Egy méltányos megjegyzés: öt felvétel több kreditbe kerül, mint egy. Ha nagyon szoros a kreditmérleged, futtass kettőt az öt helyett, és egyet referenciának kezelj. A lényeg az, hogy legyen legalább egy összehasonlítás, nem az, hogy öt legyen.
3. lépés: először írj vagy co-írj dalszövegeket
A generátor dalszöveg-területe egy kis szövegmező, és a mögötte futó modellnek erős előzménye van arra, hogy megtartsa, amit adsz neki — az eredeti sorállászmot, az eredeti rímrendszert, sőt az eredeti szótagmintát is. Ha dalszövegeket írsz ott és később hidat szeretnél hozzáadni, a modellel fogsz harcolni minden újragenerálásnál.
Külön vázolj dalszövegeket, mielőtt beillesztenéd azokat. A Dalszöveg Stúdió elegendő helyet ad, hogy valóban lásd, mit írsz. Módosíthatsz egy teljes versszakot, kipróbálhatsz egy eltérő refrén-hookot, áthelyezheted az előrefrént, mielőtt minden a generátorhoz kerül.
A dalszöveg-első lehetővé teszi egy dolog ellenőrzését, amelyet a generátor nem tud: rendelkezik-e a dalszöveg olyan természetes beszédritmussal, amelyet egy énekes valóban elképzel. Olvass hangosan a refréned. Ha megbotlasz, a modell is megbotlik.
Ha interaktívan építed a dalszöveget a zene mellett — először prompt, majd finomíts dalszövegeket — ez a munkafolyamat is érvényes. A kulcs az, hogy a dalszöveg-szerkesztés valódi szerkesztési területen történjen, nem a generátor szövegmezőjében.
4. lépés: válaszd meg a stílus-vezérlőket szándékkal
A műfajcímkék magok, nem szerződések. Az „indie folk” nem rögzíti a kimenetet egyetlen konkrét produkciós stílusba — elfogulttá teszi a modellt az adott névhez kapcsolt hangzások halmaza felé, ami kiindulópont, nem garancia. Ha meg akarod érteni, hogyan értelmezi valójában a modell ezeket a tageket, mielőtt elköteleznéd magad, a műfajcímkékről szóló útmutató tíz percedbe kerül.
Ami valójában megbízhatóbban korlátozza a kimenetet:
- Hangulat, pontosan megnevezve. A „keserédes” és a „lemondó” eltérően landol még ugyanazon műfajcímkén belül is.
- Jelenet vagy helyszín. Az „üres parkoló éjfélkor” vizuális referenciát ad a keverőmérnöknek (itt a modellnek) a reverbhez és a térhez.
- Vokális nem és regiszter. A legtöbb generátor explicit utasításokat fogad el itt, és az alapértelmezés nem mindig a megfelelő a dalszövedhez.
Állíts be BPM-t, ha tudod. Nem egy tartomány — egy szám. A „körülbelül 90” túl sok helyet hagy a modellnek. A „88 BPM” egy órát ad neki. Ugyanez vonatkozik a sáv hosszára: írj ki egy célhosszt kifejezetten, ahelyett hogy az alapértelmezésre hagynád.
5. lépés: renderelj, majd hallgass a legrosszabb hangszóródon
Az AI-generált sávoknak van egy ismert hibaformájuk: fejhallgatón jobban hangzanak, mint megérdemelnék. A sztereó tér gyakran széles, a mélyhangzás irányított, a keverék tiszta oly módon, amely csak akkor tárul fel mesterségesként, amikor valami megbocsátatlanan hallod.
Az első render után menj a telefonos hangszóródhoz. Vagy beépített laptopéhoz. Vagy ha hozzáférsz egynek, egy autós sztereóhoz, nyitott ablakokkal. Ezek a hangszórók összeomlasztják a sztereó teret, felszínre hozzák a közép-mélyhangzás zagyvaságát és megmutatják a keménységet a felső középtartományban. Ha a sáv még mindig sávnak tűnik — nem szükségszerűen jónak, de koherensnek —, akkor van valami, amin érdemes dolgozni.
Ha összegázyba esik, ez nem mindig a jel az újrageneráláshoz. Ez az a jel, hogy megvizsgáld a stílus-vezérlőidet. Egy mélyhangzás-nehéz műfajcímke plusz meleg szoba beállítás plusz lassú BPM gyakran produkál olyan sávot, amely nem terjed tovább. Módosíts egy változót, nem mindhármat.
6. lépés: cover, re-renderelj vagy állj meg
A megállás pillanatának ismerete az a készség, amely elválasztja a szállítókat azoktól, akiknek négyszáz mentett vázlatuk van és semmi nincs egy lejátszási listán.
Három jel, hogy egy felvétel kész:
- A refrén valóban magával ragad. Gondolkodás előtt érzed az érkezést. Ha racionalizálni kell magadnak, hogy miért működik a refrén, nem működik.
- A vokál beleül a zsebébe. Az énekes olyannak tűnik, mintha ezt a dalt énekelné, nem demonstrálva, hogy eljut ezekbe a hangokba. Az AI vokálok gyakran túlhangsúlyozzák a mássalhangzókat — egy jó felvétel nem.
- A harmadik meghallgatáson már nincs AI-nyom, amelyet észreveszel. A dob minták, amelyek túl metronomikusan tiszták. Az akkordváltások, amelyeknek hiányzik a sebesség-variáció. Egy tartott hang, amely soha nem lélegzik. Ezek a nyomok. Egy közülük általában elfogadható. Három túl sok.
Ha a felvétel átmegy kettőnél, állj meg és hívd vázlatnak. Ha mindhárman átmegy, állj meg és hívd készen.
Az újrarenderelés akkor van értelme, amikor egy konkrét paraméter hibás és meg tudod nevezni. A „vokál túl fényes a dalszöveghez” egy újrarenderelési utasítás. A „valami nem stimmel” nem — ez egy hallgatási probléma, nem egy generálási probléma, és több felvétel nem javítja.
Általános hibák
- Prompt túl rövid. Egy mondat nem prompt; ez egy műfajcímke mondatcsomagolással. Három mondat a minimum egy bármilyen karakterrel rendelkező eredményhez.
- Prompt túl hosszú. Nyolc mondatnyi részletes világépítés egyszerre túl sok korlátot ad a modellnek. Átlagolja azokat és nem produkál semmit különösebben.
- Eszközök cseréje az iterálás közepén. Minden generátornak más a belső modellje, és „ugyanaz a prompt” strukturálisan különböző eredményeket produkál az eszközök között. Ha közepén váltasz, visszaállítod az összehasonlítási kiindulópontot és elveszíted az iterálási előzményt. Válassz egy eszközt sávonként és maradj nála.
- Újragenerálás ugyanazokkal a bemenetekkel, eltérő eredményt várva. Az azonos promptok kimeneti varianciája valódi, de korlátozott. Ha három egymást követő felvétel mind ugyanolyan módon hibás, a prompt a probléma, nem a véletlen mag.
- Vokális inkonzisztencia figyelmen kívül hagyása. A dalszöveg által sugallt vokális hangszín, regiszter és energia szükségszerűen igazodjon a modell által választott hanghoz. A férfias baritonhoz írt dalszöveg könnyű tenor által előadva casting-hiba, és nem javítható újragenerálással.
Az első működő sáv után
Töltsd le a szárakat, ha az eszköz kínálja. Még ha nem is tervezel keverést, a vokál és a hangszeres szétválasztása azt jelenti, hogy később újra hangolhatod, vagy átadhatod a hangszerest egy igazi énekesnek nulláról indulás nélkül.
Mentsd el a promptot pontosan úgy, ahogy volt, amikor működött. Nem azt a verziót, amelyen végigiteráltál — a végső verziót. Másold be egy notes-fájlba, egy táblázatba, bárhová, ami nem az eszközön belül van. A legtöbb eszköz nem tartja meg a promptokat munkamenetek között könnyen kereshető formában. Az aisonggen zenei könyvtára automatikusan menti a generálási előzményedet és az egyes sávokat létrehozó promptokat, ami csökkenti, mennyit kell mindezt saját magad kezelned, de még mindig érdemes megőrizni a legjobb eredményeidet létrehozó promptok saját másolatát.
Jegyezz fel két dolgot minden működő sávhoz: a műfaj-hangulat tag kombinációt, amelyet használtál, és minden álláspont-kifejezést, amely termékenynek érezte magát. Tíz-tizenöt sáv után minták jelennek meg — megtalálod azokat a tag-kombinációkat, amelyek illeszkednek a kreatív tartományodhoz, és azokat a fogalmazásokat, amelyek megbízhatóan produkálnak megőrzésre érdemes dolgot. Ez a napló értékesebb, mint bármilyen útmutató, beleértve ezt is.
Ha a generátort mások hogyan használják előtt szeretnéd látni, mielőtt saját munkafolyamatodat kötelezed el, a vélemények oldala megmutatja, hogyan közelítik meg a valódi felhasználók a különböző műfajokat és felhasználási eseteket.
A cél nem a zene generálása. A zene generálása most már az egyszerű rész — bárki megnyomhatja a gombot. A cél dalokat írni. Olyan dalokat, amelyeknek van perspektívájuk, egy konkrét érzelmi középpontjuk, egy struktúrájuk, amely megérdemli a befejezését. Az AI a termelési réteg: ő kezeli az elrendezést, a keveréket, a hangot. Neked még mindig meg kell csinálnod az írást. Minél többet hozol ebből a promptba, annál kevesebbet hallasz hiányzón a kimenetben.