打開 Riffusion,輸入「帶有雨聲和遠處小號的 lo-fi 爵士」這樣的提示詞,按下生成,就會出現一些真正有趣的東西。一種潮濕、模糊的質感,聽起來像是 1973 年在咖啡廳浴室裡錄製的。你聽了兩遍,點頭,然後意識到:它只有 28 秒長,沒有主歌或副歌,你不知道是否可以把它放在商業專案中。這就是 Riffusion 體驗的一段話概述。
這些都不是對該專案設定初衷的批評。Riffusion 起初是一個開源實驗——通過在頻譜圖圖像上執行擴散來生成音訊,將聲音視為視覺潛空間問題。它確實是新穎的。但「真正新穎」和「我今天可以用來完成一首歌的工具」是不同的需求。若你需要一個有適當結構、清晰人聲和明確授權的四分鐘音軌,Riffusion 不是正確的起點。本文涵蓋五款是的替代工具,並解釋如何在它們之間選擇。
Riffusion 真正擅長的地方
在介紹替代方案之前,值得精確說明 Riffusion 在工作流程中仍然賺到一席之地的場景。
質感和氛圍是其最強的輸出。若你需要一個氛圍背景、工業無人機,或聽起來像兩種類型在飛行中碰撞的東西,Riffusion 基於頻譜圖的生成可以產生感覺不那麼像「精緻 AI 流行」而更像「實地錄音加合成」的結果。這是音效設計師、預告片編輯和實驗製作人的真正差異化因素。
短循環在結構上是其閃光點。當你不需要一首歌——你需要一個八小節的循環坐在旁白下方,或一個質感層放在 Podcast 片頭後面——輸出長度停止成為約束,反而成為功能。短片段可以快速檢視和拒絕,成本不高。
在更結構化的生成器中感覺尷尬的類型混搭在 Riffusion 中是例行公事。「破損卡帶播放的 bossa nova」在那裡不是奇怪的提示詞。模型的擴散方式產生的混搭,比更多人聲訓練的生成器有時將模糊性簡化為一個類型標籤或另一個的方式更豐富。
Riffusion 的不足之處
一旦你想要一首歌而非一種質感,差距就出現了。
完整歌曲結構是最明顯的約束。Riffusion 短片段不能可靠地遵循主歌-副歌-橋段結構。你得到的是氛圍片段,而非有戲劇弧度的歌曲。使用工具的循環功能延伸短片段有所幫助,但各段落之間的過渡很少以讓聽眾感覺歌曲在推進的動態轉換方式落地。
人聲連貫性迅速降級。Riffusion 可以生成聽起來大致像演唱的東西,但音素往往模糊或虛構。你無法控制旋律線、歌詞副歌,甚至人聲在 90 秒短片段上是否保持在音調上。對於任何歌詞重要的專案——說唱、流行、R&B、創作歌手——這本身就是排除條件。
長度是硬上限。平台不能原生生成四分鐘的音軌。存在變通辦法,但它們需要手動拼接並引入破壞最終結果的可聽見縫合。
提示詞控制設計上是寬鬆的。頻譜圖方法本質上比直接在歌曲元資料和結構上訓練的模型更少提示詞忠實。你可以引導一個方向,但很少能指定一個。這使迭代緩慢:你在縮小一個概率空間而非調整參數。
分軌匯出不可用。你無法從器樂中抽出人聲層,這在你想要重混、重新音調或只是單獨使用節拍時很重要。
商業使用授權在歷史上一直不清晰。開源起源和託管產品的條款沒有明顯地解決為「你可以將此商業化」。對於專業使用,那種模糊性有真實的代價。
五款處理完整歌曲工作的替代工具
Suno
Suno 是帶有實際結構的 AI 生成歌曲的基準。它生成遵循可識別流行和嘻哈歌曲形式的音軌——引言、主歌、副歌、橋段、尾奏——帶有真正按旋律措辭且大致保持在音調上的人聲。歌詞整合在此類別中最強:你在提示詞中寫的在音訊中以可識別的形式落地。
其弱點是大規模的均一性。Suno 的輸出往往聽起來像 Suno。音調調色盤、混響設定、副歌提升的方式——這些模式在不同提示詞中重複。對於一兩首歌,品質很高。對於一個目錄,指紋變得明顯。模型對真正奇怪或超越類型界定的請求也有有限的容忍度;它傾向於將模糊性解析向其最多訓練的製作風格。
定價是使用量計費,有免費方案讓你在達到限制前生成少量音軌。商業授權在付費方案上可用。對於大多數想快速獲得完整可聆聽歌曲的人,Suno 是第一個嘗試的工具——特別是對人聲前導類型。
Udio
Udio 從稍微不同的角度處理同樣的完整歌曲問題。Suno 優先考慮旋律連貫性,而 Udio 生成的輸出有時感覺在器樂上更詳細——鼓程式設計、和弦聲部和製作編排往往在不同音軌間更有變化。
強版本上的人聲品質與 Suno 競爭,但變異性更高。你會得到一些真正令人印象深刻的版本,也有一些帶有 AI 人聲在措辭上掙扎的那種茫然、短語中途感。提示詞系統對特殊性有所獎勵:告訴它 BPM、調性、製作的年代和具體的樂器配置,產生比模糊風格參考更緊密的結果。
Udio 支援比 Riffusion 更長的輸出,並允許一些結構自定。在任何專案中並行於 Suno 測試是值得的——不同提示詞偏好不同引擎,而 Udio 為靈魂民謠渲染的東西可能優於 Suno 對同一簡報的處理。
aisonggen
aisonggen 的差異化功能是並行生成:音樂生成器從單一提示詞同時渲染五個變體,所以你在比較版本而非等待一個、拒絕它、然後重新開始。對於阻塞約束是迭代循環而非品質上限的專案,那個結構比聽起來更重要。
最強個別版本的人聲措辭具有競爭力,但並非始終超前於 Suno 的最佳輸出。誠實的框架是:aisonggen 不在峰值人聲品質上勝出,但它減少了你到達可接受版本前燃燒的重新生成等待循環。五個同時輸出讓你選擇副歌表達最好的那個,即使其他三個有所失誤。
除了生成,aisonggen 有一個獨立的 Lyric Studio 介面,讓你在承諾渲染前寫作和編輯歌詞,若你想控制人聲實際說什麼而非讓模型即興,這很有幫助。還有一個 翻唱生成器,可以以不同風格重新渲染現有音軌——若你有一個你大部分喜歡但想聽到不同製作的版本,這很有用。
定價從免費方案開始;定價頁面詳細涵蓋方案限制。若你在評估它與其他工具,評價頁面有針對 Suno 和 Udio 的用戶比較。
Mureka
Mureka 是一個在特定提示詞類型上能在頂級類別競爭的能見度較低的選項,特別是對有真正器樂編排複雜性的音軌。Suno 和 Udio 有時將多樂器編排折疊成均質混音,而 Mureka 的輸出可以保持樂器之間的空間分離,以一種在耳機上站得住腳的方式。
取捨是產品介面不那麼精緻。提示詞介面對隨意輸入的容忍度較低,生成速度比 Suno 慢。對於編排品質超過迭代速度的專業使用,這是合理的取捨。對於想要快速獲得可聆聽東西的休閒專案,這不是首選工具。
Mureka 的商業授權條款比 Riffusion 的更清晰,這對要進入影片、廣告或發行的音樂很重要。免費方案有限但足夠評估。
Stable Audio
Stable Audio(來自 Stability AI)在 Riffusion 的質感優先方式和 Suno 的歌曲優先方式之間佔據中間位置。它生成比 Riffusion 更高保真度的音訊,在某些設定中支援最多三分鐘的更長短片段,同時比大多數生成器對時長和風格提供更精確的控制。
輸出偏向器樂。人聲生成不是 Stable Audio 的優勢,所以它更適合伴奏音軌、器樂創作和音效設計,而非帶有演唱歌詞的完整歌曲。對於想要渲染器樂編排然後在其上疊加自己人聲的製作人,這是一個強大的選擇。對於任何需要 AI 同時處理人聲的人,Suno 或 Udio 更合適。
模型受益於與 Riffusion 相同的開放權重哲學——有一個面向研究的版本供想在本地運行或微調的技術用戶使用——但託管產品無需任何技術設定即可存取。
如何選擇——三個問題
- 輸出需要多長,需要多少結構?若你需要任何超過兩分鐘且有可識別主歌-副歌結構的東西,Riffusion 就排除了。Suno 或 aisonggen 是到達正確形式歌曲最快的路徑。若你需要不到兩分鐘的器樂伴奏音軌且不關心人聲,Stable Audio 或 Udio 值得測試。
- 你的授權情況需要什麼?若輸出要進入商業專案——影片、廣告、流媒體發行——你需要在承諾前對條款有清晰認識。Riffusion 的授權是最少解決的。Suno、Udio 和 aisonggen 在付費方案上都有明確的商業條款。查看你所在的具體等級;免費等級輸出通常與付費輸出攜帶不同的限制。
- 你需要對輸出有多少控制?若你需要指定歌詞、旋律方向或製作細節,使用接受結構化輸入的工具。aisonggen 的 Lyric Studio 和 Suno 的自定模式都為那種方向性控制而設計。若你樂於從風格提示詞迭代並選擇最佳版本,上述五款工具都能支援那個工作流程——而 aisonggen 的並行渲染方式使選擇步驟更快。
20 分鐘測試計劃
- 選擇一個代表你實際使用場景的提示詞。不要用「活潑的流行歌曲」測試——用你實際需要交付的東西測試。若你的專案是 85 BPM lo-fi 嘻哈器樂,那就是提示詞。人工測試提示詞產生人工結果。
- 同時在至少兩個工具上跑相同提示詞。生成根據平台和隊列負載大約需要 30 到 90 秒。在審閱任何一個之前,向兩個提交。
- 首先評估對你最重要的維度。若人聲至關重要,在第一遍只聆聽人聲表演,忽略製作品質。若編排至關重要,先用那個耳朵聆聽。混合評估削弱訊號。
- 對表現最佳的工具跑三到五個變體。一個好的輸出可能是變異性。同一簡報的五個輸出讓你對工具在你提示詞類型上的實際可靠性有更清晰的認識。
- 在你的受眾將使用的播放裝置上聆聽輸出。AI 生成的音訊有時在錄音室監聽音箱上聽起來很好,在耳機上卻薄弱,或反之。若你的受眾在手機上串流,在承諾工具前在那裡聆聽。
Riffusion 獎勵探索。當你想發現你無法提前描述的東西時,它是正確的工具。但若你從一個清晰的簡報開始——一個特定結構、一組歌詞、一個需要為真實受眾落地的類型——上述工具在一次對話而非一週內讓你到達那裡的可能性更高。
若你在具體評估 aisonggen,音樂生成器是跑第一個測試最快的方式,而並行變體輸出意味著你的 20 分鐘計劃在相同的時鐘時間內覆蓋更多範圍。