AISongGen logoAISongGen

如何製作不只像混音的 AI 翻唱歌曲

選對參考曲、寫對風格說明,知道什麼時候該停下來。一份製作有說服力的翻唱的實用指南。

閱讀 8 分鐘

一首成功的翻唱,是對他人歌曲截然不同的藝術詮釋——不同的角度、不同的情感重心,甚至完全不同的類型。當它成功時,你能同時聽到原曲的骨架與全新的東西。一首失敗的翻唱,只是同一首歌配上更混濁的混音和一個聽起來隱約有些怪的聲音。兩者之間的差異幾乎永遠不在於你使用的工具,而在於你按下渲染鍵之前做出的選擇。

AI 翻唱生成器讓你真正能夠輕鬆地取一段音樂,並在不同的聲音、風格或編排中重新呈現它。但更容易獲得這個過程,並不會自動改善輸出。你仍然需要知道哪些歌曲值得翻唱、如何寫一份給模型真正有效的風格說明,以及何時停止修改並宣告完成。這份指南一步步帶你走過這一切。

在開始之前:授權問題

這是大多數教學略去的部分,所以讓我們先把它處理掉。如果你翻唱的歌曲不屬於你,那首歌幾乎肯定受著作權保護。將 AI 生成的受著作權保護歌曲翻唱上傳到串流平台,或在 YouTube 上獲利,是衍生作品,在未取得授權或機械版權許可的情況下這樣做,會讓你進入可能演變為版權聲明或下架的灰色地帶。規則因國家而異,但「我沒有對原始音訊進行取樣」並不能自動讓你安全——可識別的旋律或歌詞仍然受到保護。

最安全的立足點:翻唱你自己的素材、翻唱擁有允許衍生作品的創用 CC 授權的歌曲,或翻唱已進入公共領域的作品(在美國,這通常意味著著作權已過期的作品——請針對具體作品查清楚)。如果你想翻唱當代作品並商業發行,考慮提供機械授權的服務。對於個人、非獲利用途,風險較低,但在投入數小時於一個專案之前,仍值得了解自己的立場。

第一步:挑選有呼吸空間的參考曲

並非每首歌都適合翻唱。傾向於能撐過這個過程的歌曲結構簡單:清晰的旋律線、可管理的和弦轉換數量、對製作質感的情感衝擊依賴最小。不插電民謠、三和弦民謠和簡約的軟流行是天然候選。好的旋律能在截然不同的編排中支撐自己。建立在簡約上的好歌,通常在幾乎任何風格中都能有趣地呈現。

難以翻唱的歌曲,是那些原始製作就是這首歌本身的作品。《Bohemian Rhapsody》其實不是一段旋律——它是交互編排、人聲層次和動態轉換的一道牆,與聆聽體驗密不可分。2010 年代的體育場混音搖滾(厚重的混響、層疊的吉他、壓縮一切)也是同樣的問題。你可以把那些歌曲剝去外殼,但結果往往與原版差異巨大,以至於失去了聯繫。這並不一定是壞事——有時徹底的解構是有趣的——但這是一個比大多數人開始時預期的更難的創意問題。

問問自己:如果有人在街角不插電演唱這首歌,它仍然是可辨認的嗎?仍然能打動你嗎?如果是,它很可能是好的候選。如果答案是「只有在他們完美模仿錄音室版本的情況下」,那首歌可能還沒準備好被翻唱。

第二步:寫一份風格說明,而不只是類型標籤

「把它做成爵士風格」幾乎沒有給模型任何有用的資訊。爵士既是 Coltrane,也是飯店酒吧的鋼琴,也是巴薩諾瓦,也是咆勃爵士。一個單詞的類型說明幾乎總是產生通俗的輸出,因為模型必須猜測一切:速度、樂器重量、人聲方式、製作密度。這個猜測通常在技術上正確但在美學上令人難忘。

好的風格說明將情感和音效世界縮小到某種具體的東西。不要說類型,而是描述房間、夜晚的時間、那種感覺。說明越具體、越有畫面感,模型越有可能做出凝聚成真正詮釋而非那個類型所有東西的混合平均的選擇。

深夜鋼琴酒吧翻唱,凌晨 4 點,最後一輪的氛圍。聲音應該幾乎像是在說話——低沉、不急促,像歌手只是在自言自語。刷子鼓刷聲在混音的很後方,幾乎聽不見。沒有弦樂。鋼琴應該聽起來稍微走音,那種在老飯店大廳裡才找得到的。控制在 3 分鐘以內。

那份說明告訴模型要強調什麼、要省略什麼。它給了模型一個觀點。你的說明不需要那麼長,但它需要有一個觀點。

第三步:上傳參考曲並設定正確的控制項

一旦你有了參考音訊和風格說明,實際的渲染過程相當直接——但有幾個設定比其他的更重要。aisonggen 的翻唱生成器接受參考音訊檔案和風格說明,讓你在渲染前調整聲音特性、類型權重和編排密度。同樣的一般工作流程在大多數目前的工具中都適用。

渲染前要確認的一件事:工具是否將參考人聲與參考整首歌分開。有些生成器讓你上傳完整歌曲作為結構參考,同時上傳獨立的人聲(或選擇一個聲音特性)作為輸出人聲。這是工具之間顯著的能力差距——如果你可以單獨指定人聲,你可以在保持原版旋律和和聲骨架完整的同時改變誰在演唱。這種組合通常會產生最有說服力的翻唱。

如果你是新手,先從翻唱生成器開始,在觸碰任何其他設定之前寫好你的風格說明。說明做的工作比任何滑桿都多。

第四步:渲染多個版本並在不同音箱上聆聽

不要只渲染一次就決定。用說明或聲音特性的小變化渲染三四個版本,然後在決定之前全部聽過。AI 翻唱生成有足夠的輸出隨機性,兩個設定相同的渲染可能產生明顯不同的結果。好好利用這一點。

最重要的測試:在你的手機上、透過聽筒、在嘈雜的房間裡聽起來怎麼樣?AI 翻唱經常在錄音室監聽音箱或好的耳機上聽起來精緻,然後在手機音箱上完全瓦解。這是因為大多數 AI 生成的音訊是為全頻寬清晰度混音的——低頻帶來了很多豐富感,當你在小音箱上失去低頻,聲音或樂器中空洞或不自然的品質就變得明顯。能通過手機測試的版本幾乎總是正確的版本,即使它在監聽音箱上聽起來稍微沒那麼令人印象深刻。

也在不看螢幕的情況下透過筆電音箱試聽。你的眼睛會推著你選擇看起來應該聲音更好的版本。你的耳朵在降質回放系統上會告訴你真相。

第五步:找出 AI 痕跡,用重新渲染或手動編輯修正它們

目前的 AI 翻唱有一致的失敗模式。一旦你知道要聽什麼,就能在發布前抓住它們,並決定是重新渲染還是在 DAW 中手動修正。

  • 過於清晰的輔音。聲音每個 T、D 和 P 都比人類歌手更用力。真正的歌手在句尾模糊輔音;AI 模型常常把它們銳化。
  • 不衰減的顫音。人類的顫音根據呼吸和句子位置自然加速和減速。AI 生成的顫音常常鎖定在穩定速率並維持不變,這在持音上聽起來很機械。
  • 太乾淨的鼓擊。現場打鼓有細微的時間不一致和鬼音。如果你翻唱中的鼓聽起來像是在格線上程式化的,它們很可能確實如此,而且這一點很明顯。
  • 突然截斷而非釋放的句尾。歌手是自然地尾音減弱。AI 人聲有時直接停止,或以不符合呼吸實際運作方式的方式淡出。
  • 過緊的音高校正。如果每個音符都精確落在音高上,沒有滑音,沒有微小的偏差,沒有任何藍調音符,這個聲音聽起來是被校正過的而非真正歌唱的。

大多數這些問題可以透過用修改後的說明重新渲染(例如「更放鬆的輔音,讓句子在結尾呼吸」)或之後輕微的手動處理來修正。

關於人聲的提醒:恐怖谷比混音更響亮

大多數 AI 翻唱不足的原因不是樂器——而是聲音。樂器可以不完美但感覺對。稍微跑掉的鋼琴聲被讀作個性。但稍微不對的聲音被讀作令人不安。人類聽覺系統對人聲真實性極為敏感;我們有一整套演化出來的模式識別工具,用於檢測真實與模擬的人類語音和歌唱。如果你翻唱中的聲音不對,再多的製作潤飾也無法挽救它。不要花三次迭代調整一個不管用的人聲的混響和 EQ。先嘗試不同的聲音特性,重新渲染,看看問題是否消失。聲音是最關鍵的決定。

何時停止

這是任何迭代創意過程中最難的部分,而 AI 工具讓它更難,因為下一次渲染總是感覺可能是修正問題的那一次。幾個你已完成的信號:

  • 你聆聽了兩個不同的渲染,真的說不出哪個更好。那是一個丟硬幣的問題,而非品質差異。
  • 你在調整三次迭代前聽起來還好但現在感覺有問題的設定。那是聆聽疲勞,不是改進。
  • 其他人聽了它並沒有帶著修飾語回應。如果他們說的第一句話是「但是……」,你還有工作要做。如果他們只說「那很好」,那就是好的。
  • 你試圖讓它聽起來像原版。那不再是翻唱了。
  • 你不滿意的東西是即使完美渲染也無法修正的——原素材中的結構選擇,而非輸出中的執行問題。

在那裡停下。匯出它。

翻唱是寫給一首歌的情書,而非仿製品。最好的翻唱訴說著為什麼那首歌有意義——為什麼值得回頭聆聽,為什麼透過不同的一組體驗或不同的音樂環境聽起來不同。在你渲染另一個版本之前,問問你的版本是否已經有了觀點。如果有,你很可能比你想的更接近完成。如果沒有,沒有任何工具設定能為你添加一個。那部分仍然需要你帶來。想要看完成的作品是什麼樣子的靈感,請查看 AI 音樂庫聽聽別人如何處理轉化,或瀏覽 定價頁面了解哪個方案給你足夠的渲染次數來好好迭代。

你的下一首歌,只差一個免費 prompt

打開工作室、輸入氛圍,30 秒後聽見一首完整的歌。免費開始、免授權上架,不需信用卡。