Jak tworzyć muzykę AI, która nie brzmi jak muzyka AI

Trudną częścią tworzenia muzyki AI nie jest naciskanie przycisku. Trudną częścią jest wiedza, co wpisać przed naciśnięciem, czytanie tego, co wraca, z jakimkolwiek rozeznaniem i decydowanie, czy kontynuować czy przestać. Większość ludzi, którzy nazywają muzykę AI "generyczną", nie myli się — po prostu zatrzymali się zbyt wcześnie w procesie lub zaczęli bez wystarczającej jasności co do tego, co faktycznie próbowali zrobić.

To jest przewodnik przez proces, który przeszedłem kilkaset razy. Traktuje generowanie jako iterację, a nie transakcję przy maszynie sprzedającej. Gdy działa, wyjście nie brzmi jak napisane przez maszynę. Gdy nie powiedzie się, będziesz dokładnie wiedział, którą decyzję należy zrewidować.

Zdecyduj, jakiej piosenki naprawdę chcesz

Zanim otworzysz jakiekolwiek narzędzie, usiądź z jednym pytaniem: w czyjej perspektywie żyje ta piosenka? Nie "jaki gatunek" i nie "jaki klimat" — to przyjdzie później. Zacznij od perspektywy, potem miejsca, potem emocjonalnego centrum ciężkości.

Prosta ramka do tego:

[KTO] robiący [CO], moment tuż przed [PUNKTEM ZWROTNYM]. Emocja pod spodem to [UCZUCIE], nie [POWIERZCHOWNE UCZUCIE]. Zachowaj [JEDNO SŁOWO TONALNE].

Rozróżnienie między powierzchownym uczuciem a uczuciem pod spodem to nie ćwiczenie pisarskie — to instrukcja dla generatora. Piosenka o "żalu" brzmi w jeden sposób; piosenka o konkretnym irytowaniu się nieumiejętnością płakania na pogrzebie brzmi jak zupełnie inny utwór. Konkretność podróżuje do generowania w sposób, w jaki tagi gatunkowe po prostu nie mogą.

Gdy nadal myślisz na papierze, zdecyduj o długości. Dwuminutowa ścieżka i czterominutowa ścieżka wymagają różnych wyborów strukturalnych, a generator będzie dryfował bez celu. Wybierz jeden przed ruszeniem.

Krok 1: napisz prompt, który nazywa postawę, a nie teksturę

Większość pierwszych promptów opisuje dźwięk: "lo-fi beat, ciepłe klawisze, melancholijny". To opisuje, jak ścieżka powinna czuć się słuchaczowi trzy kroki z dala od emocji. Postawa opisuje, co wykonawca robi ze swoim ciałem i uwagą.

Porównaj te dwa:

Prompt tekstury: "Wolne R&B, miękki falsetto, późna noc, tęsknota".
Prompt postawy: "Ktoś czytający stare wiadomości, które obiecał sobie usunąć. Ciągle czyta. Wokal jest cichy, jakby nie chciał, żeby ktoś usłyszał".

Oba wskazują na podobny emocjonalny cel. Prompt postawy daje modelowi coś do wykonania. Prompt tekstury daje mu dźwiękowe odniesienie i nic więcej. Wyniki nie są równoważne.

Prompty postawy trzymaj na trzech lub czterech zdaniach. Sufit jest niższy, niż myślisz — po około pięciu zdaniach model zaczyna uśredniać instrukcje zamiast budować na nich.

Krok 2: wybierz generator pozwalający porównywać ujęcia

Generatory jednoujęciowe sprawiają, że iteracja jest powolna w konkretny, irytujący sposób: dostajesz wynik, jest prawie właściwy, regenerujesz z drobną poprawką i nowe ujęcie ląduje w zupełnie innym kierunku, bo nie było wspólnej kotwicy. Skończyć się gonisz za oryginalnym ujęciem, które było "prawie to", przez sześć cykli.

Uruchamianie równoległych wariantów rozwiązuje ten problem. Generator muzyki aisonggen renderuje pięć ujęć jednocześnie z tego samego promptu, więc możesz porównywać je obok siebie przed zobowiązaniem się do kierunku. Jeśli dwa z pięciu są w właściwym terytorium, właśnie pominąłeś większość pętli regeneracji.

Uczciwa uwaga: pięć ujęć kosztuje więcej kredytów niż jedno. Jeśli masz bardzo napięty budżet kredytów, uruchom dwa ujęcia zamiast pięciu i traktuj jedno jako swoją referencję. Chodzi o posiadanie przynajmniej jednego porównania, a nie pięciu.

Krok 3: najpierw napisz lub współpisz swoje teksty

Obszar tekstu generatora to małe pole tekstowe, a model działający za nim ma silną preferencję do zachowywania wszystkiego, co mu podasz — oryginalną liczbę wierszy, oryginalny schemat rymów, nawet oryginalny wzorzec sylabiczny. Jeśli piszesz teksty wewnątrz tego pola i decydujesz się później dodać bridge, będziesz walczyć z modelem przy każdym regenerowaniu.

Szkicuj teksty osobno przed wklejeniem ich. Studio tekstów daje Ci wystarczająco dużo miejsca, by naprawdę zobaczyć, co piszesz. Możesz poprawić pełną zwrotkę, wypróbować inny hook refrenu, przenieść pre-refren zanim stanie się strukturalny — wszystko przed podaniem czegokolwiek generatorowi.

Teksty-first pozwalają też sprawdzić jedną rzecz, której generator nie może: czy tekst ma naturalny rytm mowy, który wokalista może faktycznie wylądować. Czytaj refreny na głos. Jeśli się potykasz, model też się potknie.

Jeśli budujesz tekst interaktywnie obok muzyki — najpierw prompt, potem popraw teksty — ten przepływ pracy jest również ważny. Kluczem jest to, że edycja tekstu odbywa się gdzieś z prawdziwą przestrzenią edycji, a nie w polu tekstowym generatora.

Krok 4: wybieraj kontrole stylu z intencją

Tagi gatunkowe to ziarna, nie kontrakty. "Indie folk" nie blokuje wyjścia w żadnym konkretnym stylu produkcji — nakleja model w kierunku skupienia dźwięków związanych z tą etykietą, co jest punktem startowym, a nie gwarancją. Jeśli chcesz zrozumieć, jak model faktycznie interpretuje te tagi przed zaangażowaniem się, przewodnik po tagach gatunkowych jest wart dziesięciu minut Twojego czasu.

Co faktycznie ogranicza wyjście bardziej niezawodnie:

Nastrój, nazwany precyzyjnie. "Gorzko-słodki" i "zrezygnowany" lądują różnie nawet w ramach tego samego tagu gatunkowego.
Scena lub otoczenie. "Pusty parking o północy" daje inżynierowi miksowania (modelowi, tutaj) wizualną referencję dla pogłosu i przestrzeni.
Płeć wokalna i rejestr. Większość generatorów akceptuje eksplicytne instrukcje tutaj, a domyślne ustawienie nie zawsze jest właściwe dla Twojego tekstu.

Ustaw BPM, jeśli je znasz. Nie zakres — liczba. "Około 90" daje modelowi zbyt dużo miejsca. "88 BPM" daje mu zegar. To samo z długością ścieżki: napisz docelowy czas trwania eksplicytnie, zamiast pozostawiać go domyślnemu.

Krok 5: renderuj, a potem słuchaj na najgorszym głośniku, jaki posiadasz

Ścieżki generowane przez AI mają znany tryb awarii: brzą lepiej na słuchawkach niż zasługują. Pole stereo jest często szerokie, bas jest kontrolowany, miks jest czysty w sposób, który ujawnia się jako sztuczny tylko gdy słyszysz go na czymś bezlitosnym.

Po pierwszym renderze przejdź na głośnik telefonu. Lub wbudowany laptopa. Lub, jeśli masz do niego dostęp, system samochodowy z otwartymi oknami. Te głośniki zawierają pole stereo, ujawniają mątnistość niskiego-środka i powierzchniują ostrość w górnym paśmie środkowym. Jeśli ścieżka nadal brzmi jak ścieżka — niekoniecznie dobra, ale spójna — to masz coś wartego pracy.

Jeśli rozpadnie się w bałagan, to nie zawsze znak do regenerowania. To znak do spojrzenia na kontrole stylu. Tag gatunkowy z ciężkim basem plus ustawienie ciepłego pokoju plus wolne BPM często produkuje ścieżkę, która nie podróżuje. Dostosuj jedną zmienną, a nie wszystkie trzy.

Krok 6: cover, re-render lub zatrzymaj się

Wiedza, kiedy się zatrzymać, to umiejętność, która oddziela ludzi, którzy publikują, od tych, którzy mają czterysta zapisanych szkiców i nic na playliście.

Trzy sygnały, że ujęcie jest gotowe:

Refren faktycznie pociąga. Czujesz przybycie zanim o tym pomyślisz. Jeśli musisz przekonywać siebie, dlaczego refren działa, nie działa.
Wokal siedzi w kieszeni. Wokalista brzmi jakby śpiewał tę piosenkę, a nie demonstrował, że może trafić te nuty. AI wokale często nadmiernie artykułują spółgłoski — dobre ujęcie tego nie robi.
Nie ma już sygnałów AI, które zauważasz przy trzecim słuchaniu. Wzorce perkusji zbyt metronomicznie czyste. Zmiany akordów bez wariacji dynamiki. Dłużona nuta, która nigdy nie oddycha. To są sygnały. Jeden z nich jest często akceptowalny. Trzy to za dużo.

Jeśli ujęcie zdaje dwa z trzech, zatrzymaj się i nazwij to szkicem. Jeśli zdasz wszystkie trzy, zatrzymaj się i nazwij to gotowym.

Re-rendering ma sens, gdy jeden konkretny parametr jest zły i możesz go nazwać. "Wokal jest zbyt jasny dla tekstu" to instrukcja re-renderowania. "Coś czuje się nie tak" — nie — to problem ze słuchaniem, a nie problem generowania, i więcej ujęć go nie naprawi.

Powszechne błędy

Prompt zbyt krótki. Jedno zdanie to nie prompt; to tag gatunkowy z owijką zdaniową. Trzy zdania to minimum dla wyniku z jakimkolwiek charakterem.
Prompt zbyt długi. Osiem zdań szczegółowego budowania świata daje modelowi zbyt wiele ograniczeń do jednoczesnego spełniania. Uśredni je i wyprodukuje nic konkretnego.
Przełączanie narzędzi w środku iteracji. Każdy generator ma inny wewnętrzny model, a "ten sam prompt" produkuje strukturalnie różne wyniki między narzędziami. Jeśli przełączasz się w środku sesji, resetujesz swoją bazę porównawczą i tracisz historię iteracji. Wybierz jedno narzędzie na ścieżkę i trzymaj się go.
Regenerowanie z tymi samymi wejściami i oczekiwanie innego wyniku. Wariancja w wyjściach dla identycznych promptów jest realna, ale ograniczona. Jeśli trzy kolejne ujęcia są wszystkie złe w ten sam sposób, problem leży w promptcie, nie w losowym ziarnie.
Ignorowanie niezgodności wokalnej. Barwa, rejestr i energia wokalna implikowane przez Twój tekst muszą zgadzać się z głosem, który wybiera model. Tekst napisany dla chropowatego barytonisty dostarczony przez lekkiego tenora to błąd obsady i żadna ilość re-renderingu nie naprawia obsady.

Po pierwszej ścieżce, która działa

Pobierz stemy, jeśli narzędzie je oferuje. Nawet jeśli nie planujesz miksować, posiadanie wolalu i instrumentalu osobno oznacza, że możesz ponownie nagrać głos później lub podać instrumental prawdziwemu wokalista bez zaczynania od zera.

Zapisz prompt dokładnie tak, jak był gdy działał. Nie wersję, przez którą iterowałeś — finalną wersję. Skopiuj ją do pliku notatek, arkusza kalkulacyjnego, gdziekolwiek, co nie jest wewnątrz samego narzędzia. Większość narzędzi nie utrwala promptów między sesjami w formie, którą możesz łatwo przeszukiwać. Biblioteka muzyki aisonggen automatycznie zapisuje Twoją historię generowania i prompty, które wyprodukowały każdą ścieżkę, co zmniejsza to, jak dużo musisz zarządzać sam, ale nadal warto trzymać własną kopię promptów, które wyprodukowały Twoje najlepsze wyniki.

Rejestruj dwie rzeczy dla każdej ścieżki, która działa: kombinację tagu gatunek-nastrój, której użyłeś, oraz wszelkie frazy postawy, które czuły się generatywne. Po dziesięciu lub piętnastu ścieżkach wyłaniają się wzorce — znajdziesz kombinacje tagów pasujące do Twojego twórczego zakresu i sformułowania niezawodnie produkujące coś wartego zachowania. Ten dziennik jest bardziej wartościowy niż jakikolwiek przewodnik, w tym ten.

Jeśli chcesz zobaczyć, jak inni ludzie używają generatora przed zaangażowaniem się we własny przepływ pracy, strona recenzji pokazuje, jak prawdziwi użytkownicy podchodzą do różnych gatunków i przypadków użycia.

Celem nie jest generowanie muzyki. Generowanie muzyki jest teraz łatwą częścią — każdy może nacisnąć przycisk. Celem jest pisanie piosenek. Piosenek, które mają perspektywę, konkretne emocjonalne centrum, strukturę zasługującą na swoje zakończenie. AI to warstwa produkcji: obsługuje aranżację, miks, głos. Nadal musisz robić pisanie. Im więcej tego wniesiesz do promptu, tym mniej słyszysz brakującego w wyjściu.

Jak tworzyć muzykę AI, która nie brzmi jak muzyka AI

Zdecyduj, jakiej piosenki naprawdę chcesz

Krok 1: napisz prompt, który nazywa postawę, a nie teksturę

Krok 2: wybierz generator pozwalający porównywać ujęcia

Krok 3: najpierw napisz lub współpisz swoje teksty

Krok 4: wybieraj kontrole stylu z intencją

Krok 5: renderuj, a potem słuchaj na najgorszym głośniku, jaki posiadasz

Krok 6: cover, re-render lub zatrzymaj się

Powszechne błędy

Po pierwszej ścieżce, która działa

Czytaj dalej

Jak tworzyć AI covery, które nie brzmią jak remiks

Jak używać text-to-speech, żeby przestał brzmieć jak robot czytający zadania domowe

Prompty do pisania piosenek, które naprawdę ruszają utwór

Twój następny utwór jest jeden darmowy prompt dalej