如何製作不像 AI 音樂的 AI 音樂

製作 AI 音樂難的部分不是按那個按鈕。難的部分是知道在按下它之前放入什麼、以任何辨別力閱讀返回的內容，以及決定是繼續還是停下。大多數把 AI 音樂稱為「通俗」的人並沒有錯——他們只是在過程太早停下，或者開始時對自己實際想製作的東西不夠清楚。

這是我跑過幾百次的過程的指南。它把生成當作迭代，而非自動販賣機交易。當它有效時，輸出聽起來不像是機器寫的。當它失敗時，你會確切知道要重新檢視哪個決策。

決定你實際想要什麼樣的歌

在打開任何工具之前，先思考一個問題：這首歌活在誰的體驗裡？不是「什麼類型」，也不是「什麼氛圍」——那些稍後才來。從視角開始，然後是地點，然後是情感重心。

一個簡單的框架：

一個[誰]在做[什麼]，就在[轉折點]之前的那一刻。底下的情感是[感覺]，而非[表面感覺]。保持[一個語調詞]。

表面感覺和底下感覺之間的區別不是一個寫作練習——它是一個生成器指令。一首關於「悲傷」的歌聽起來是一種方式；一首關於在葬禮上無法哭泣的特定惱怒感的歌聽起來像完全不同的唱片。這種具體性以類型標籤根本無法做到的方式傳入生成中。

在還在用紙思考時，決定長度。兩分鐘的音軌和四分鐘的音軌需要不同的結構選擇，而且沒有目標的話生成器會漂移。在繼續之前先選一個。

第一步：寫一個命名姿態而非質感的提示詞

大多數第一次的提示詞描述聲音：「lo-fi 節拍、溫暖鍵盤、憂鬱」。那描述的是音軌對三步之外的聽者應該是什麼感覺。姿態描述的是表演者用身體和注意力在做什麼。

比較這兩個：

質感提示詞：「慢板 R&B，柔和假聲，深夜，渴望。」
姿態提示詞：「某人正在閱讀他們答應自己要刪除的舊訊息。他們繼續在看。人聲很安靜，像是他們不想讓任何人聽到。」

兩者都指向相似的情感目的地。姿態提示詞給模型一些可以表演的東西。質感提示詞給它一個音效參考，此外什麼都沒有。結果不是同等的。

將姿態提示詞控制在三到四句。上限比你想像的低——大約五句之後，模型開始對指令取平均而非在其上構建。

第二步：選擇一個讓你能比較版本的生成器

單版本生成器讓迭代以特定的、惱人的方式變慢：你得到一個結果，它幾乎正確，你用一個細微調整重新生成，新版本落在完全不同的方向，因為沒有共同錨點。你最終追逐那個「幾乎對了」的原始版本長達六個循環。

並行運行多個變體解決了這個問題。aisonggen 的音樂生成器從相同的提示詞同時渲染五個版本，所以你可以在決定一個方向之前並排比較它們。如果五個中有兩個在正確的範圍內，你已經跳過了大多數重新生成的循環。

公平說明：五個版本比一個版本花更多點數。如果你的點數預算非常緊，跑兩個版本而非五個，並把其中一個當作參考。重點是至少有一個比較，而非五個。

第三步：先寫或共同創作你的歌詞

生成器的歌詞欄位是一個小文字框，在它背後運行的模型對保留你給它的任何東西有強烈的傾向——原始行數、原始押韻方案，甚至原始的音節模式。如果你在那個欄位內寫歌詞，後來決定你想加一個橋段，你將在每次重新生成時與模型搏鬥。

在貼入之前單獨起草歌詞。歌詞工作室給你足夠的空間讓你真正看到你在寫什麼。你可以修改完整的一段、嘗試不同的副歌鉤子、在把任何東西交給生成器之前移動前副歌。

歌詞優先也讓你能夠檢查一件生成器無法做的事：歌詞是否有歌手實際上能落地的自然說話節奏。大聲朗讀你的副歌。如果你絆倒了，模型也會。

如果你在與音樂一起互動地構建歌詞——先提示詞，然後修改歌詞——那個工作流程也是有效的。關鍵是歌詞編輯發生在有真正編輯空間的地方，而非在生成器的文字框中。

第四步：有意圖地選擇你的風格控制項

類型標籤是種子，不是合約。「獨立民謠」不會將輸出鎖定在任何特定的製作風格——它使模型偏向與那個標籤相關的聲音群組，這是一個起點，不是保證。如果你想在承諾之前了解模型實際上如何詮釋這些標籤，關於類型標籤的指南值得你花十分鐘。

實際上能更可靠地限制輸出的東西：

精確命名的情緒。「苦樂參半」和「心灰意冷」即使在相同的類型標籤下也會不同落地。
場景或情境。「午夜的空停車場」給混音工程師（這裡是模型）提供了一個混響和空間的視覺參考。
人聲性別和音域。大多數生成器接受明確的指令，預設值不總是適合你的歌詞。

如果你知道 BPM，就設定它。不是一個範圍——一個數字。「大約 90」給模型太多空間。「88 BPM」給它一個節拍器。音軌長度也一樣：明確寫出目標時長，而非讓它使用預設值。

第五步：渲染，然後在你擁有的最差音箱上聆聽

AI 生成的音軌有一個已知的失敗模式：它們在耳機上聽起來比它們應有的好。立體聲場通常很寬，低頻受控，混音在一種只有當你在某些無情的環境聆聽時才顯露為人工的方式上很乾淨。

第一次渲染後，換到你的手機音箱。或筆電內置音箱。或者，如果你能取得，車用音響開著車窗。這些音箱折疊立體聲場，暴露低中頻的渾濁，並呈現高中頻的刺耳感。如果音軌在這些音箱上聽起來仍然像是一個音軌——不一定好，但連貫——那麼你就有了值得工作的東西。

如果它崩潰成一團混亂，那不一定是重新生成的信號。那是一個查看你的風格控制項的信號。低頻重的類型標籤加上溫暖房間設定加上慢 BPM，通常會產生一個無法傳播的音軌。調整一個變數，而非全部三個。

第六步：製作封面、重新渲染，或停止

知道何時停止是把東西發布出去的人與有四百個已儲存草稿但播放清單上什麼都沒有的人之間的技能差異。

一個版本已完成的三個信號：

副歌確實讓人著迷。你在思考副歌為什麼有效之前就感受到了到來。如果你必須說服自己副歌有效，它就沒有效。
人聲坐在節奏裡。歌手聽起來像是在演唱這首歌，而不是示範他們能唱到這些音符。AI 人聲常常過度清晰輔音——好的版本不會。
在第三次聆聽時你注意到的 AI 痕跡不再存在。太精確的鼓模式。缺乏任何速度變化的和弦轉換。從不呼吸的持音。這些是痕跡。其中一個通常是可以接受的。三個就太多了。

如果一個版本通過了三個標準中的兩個，停下並稱它為草稿。如果你通過了全部三個，停下並稱它為完成。

當一個特定參數是錯誤的且你能說出它是什麼時，重新渲染是合理的。「人聲對歌詞來說太亮了」是一個重新渲染的指令。「感覺有些不對」不是——那是一個聆聽問題，而非生成問題，更多版本不會修正它。

常見錯誤

提示詞太短。一句話不是一個提示詞；它是一個帶有句子包裝的類型標籤。三句話是得到任何有個性的結果的最低要求。
提示詞太長。八句話的詳細世界構建給模型太多同時需要滿足的限制。它會對它們取平均，什麼都不特別地產生。
迭代中途更換工具。每個生成器都有不同的內部模型，「相同的提示詞」在工具之間產生結構上不同的結果。如果你在中途切換，你就重置了你的比較基準，失去了迭代歷史。每個音軌選擇一個工具並堅持到底。
用相同的輸入重新生成，卻期望不同的結果。相同提示詞輸出的變化是真實的，但有限度。如果三個連續的版本都以相同的方式出了問題，問題是提示詞，而非隨機種子。
忽視人聲不匹配。你的歌詞隱含的聲音音色、音域和能量必須與模型選擇的聲音一致。為低沉男中音寫的歌詞由輕盈的男高音演唱是一個選角錯誤，而再多的重新渲染也無法修正選角問題。

在第一個有效的音軌之後

如果工具提供分軌，就下載。即使你不打算混音，擁有分開的人聲和器樂意味著你以後可以重新配音，或把器樂交給真正的歌手而不必從零開始。

保存提示詞，正好是它有效時的樣子。不是你迭代過的版本——是最終版本。把它複製到一個筆記檔案、試算表、任何不在工具本身內的地方。大多數工具不以你能輕鬆搜尋的形式跨對話持久保存提示詞。aisonggen 的音樂庫自動儲存你的生成歷史和產生每個音軌的提示詞，這減少了你需要自己管理的內容，但仍然值得保留你自己的產生最佳結果的提示詞副本。

為每個有效的音軌記錄兩件事：你使用的類型-情緒標籤組合，以及任何感覺有生產力的姿態短語。十到十五個音軌之後，模式就會浮現——你會找到適合你創意範圍的標籤組合，以及能可靠地產生值得保留的東西的短語。那份記錄比任何指南都更有價值，包括這一份。

如果你想在承諾自己的工作流程之前看看其他人如何使用生成器，評價頁面展示了真實用戶如何處理不同類型和使用場景。

目標不是生成音樂。生成音樂現在是容易的部分——任何人都可以按按鈕。目標是寫歌。有觀點的歌、有特定情感中心的歌、結構能贏得結尾的歌。AI 是製作層：它處理編排、混音、聲音。你仍然必須做寫作。你帶給提示詞的越多，你在輸出中聽到缺失的就越少。