AISongGen logoAISongGen

Riffusionの代替ツール — サウンドスケープではなくフルソングが欲しいとき

Riffusionの強みはテクスチャと実験にあります。4分のバース-コーラス楽曲が必要なときに手を伸ばすものではありません。ギャップを埋める5つのツール。

7 分で読めます

Riffusionを開いて「雨と遠いトランペットのlo-fiジャズ」のようなプロンプトを入力してジェネレートを押すと、本当に興味深いものが出てきます。1973年のカフェのバスルームで録音されたような湿気があり、ぼんやりとしたテクスチャ。2回再生して頷いて、気づきます。28秒しかなく、バースもコーラスもなく、商業プロジェクトに使えるかどうかわかりません。それが1段落のRiffusion体験です。

これはプロジェクトが目指したことへの批判ではありません。Riffusionはオープンソースの実験として始まりました——スペクトログラムイメージに拡散を実行することでオーディオを生成し、サウンドをビジュアルな潜在空間の問題として扱いました。それは本当に新規でした。しかし「本当に新規」と「今日楽曲を完成させるために使えるツール」は異なる要件です。適切な構造、明瞭なボーカル、明確なライセンスを持つ4分のトラックが必要な場合、Riffusionは正しい出発点ではありません。この記事では、そうである5つの代替ツールをカバーし、それらの選び方を説明します。

Riffusionが本当に得意なこと

代替ツールを紹介する前に、Riffusionがまだワークフローに居場所を持つところを正確に述べる価値があります。

テクスチャと雰囲気が最も強い出力です。アンビエントベッド、インダストリアルドローン、または2つのジャンルが飛行中に衝突するようなものが必要な場合、Riffusionのスペクトログラムベースの生成は「磨かれたAIポップ」よりも「フィールドレコーディングプラスシンセシス」のように感じる結果を生成できます。それはサウンドデザイナー、トレーラーエディター、実験的なプロデューサーにとって本物の差別化要因です。

短いループが構造的に輝く場所です。楽曲が必要ないとき——ボイスオーバーの下に置く8小節のループ、またはポッドキャストのイントロの後ろにレイヤーするテクスチャ——出力の長さは制約ではなく機能になります。クリップは素早く検査して大したコストなしに却下するほど短いです。

より構造化されたジェネレーターでは厄介に感じるジャンルのマッシュアップがRiffusionでは日常的です。「壊れたカセットデッキを通したボサノバ」はそこでは奇妙なプロンプトではありません。モデルの拡散アプローチは、他のより多くのボーカルトレーニングされたジェネレーターが一方または他方のジャンルラベルに単純化することがあるブレンドを生成します。

Riffusionが不足している場面

ギャップはテクスチャではなく楽曲が欲しい瞬間に現れます。

フルソング構造が最も明白な制約です。Riffusionクリップはバース-コーラス-ブリッジアーキテクチャに確実に従いません。感情的なアークを持つ楽曲ではなく、バイブのスニペットが得られます。ツールのループ機能を使ってクリップを拡張することはある程度助けになりますが、セクション間のトランジションが、リスナーが楽曲の動きを感じさせる種類のダイナミックなシフトで着地することはめったにありません。

ボーカルの一貫性はすぐに低下します。Riffusionは歌唱のようなものを生成できますが、音素はしばしばぼやけているか架空のものです。90秒のクリップにわたってメロディーライン、歌詞のフック、またはボーカルがピッチに留まるかどうかも制御できません。歌詞が重要なプロジェクト——ラップ、ポップ、R&B、シンガーソングライター——のために、これだけで資格剥奪です。

長さはハードな上限です。プラットフォームはネイティブに4分のトラックを生成しません。回避策は存在しますが、手動のステッチングが必要で、最終結果を損なう可聴のシームが導入されます。

プロンプトコントロールは設計によりゆるいです。スペクトログラムアプローチは本質的に、楽曲メタデータと構造に対してより直接的にトレーニングされたモデルよりもプロンプトへの忠実度が低いです。方向を誘導できますが、指定することはめったにできません。これによりイテレーションが遅くなります。パラメータをダイヤルするのではなく確率空間を絞り込んでいます。

ステムエクスポートが利用できません。インストゥルメンタルからボーカルレイヤーを引き出すことはできず、これはリミックス、ピッチ変更、またはビートだけを使用したい場合に重要です。

商業使用ライセンスは歴史的に不明確でした。オープンソースの起源とホスト製品の条件は「これを収益化できる」に明らかには解決しません。プロフェッショナルな使用のために、その曖昧さは実際のコストを持ちます。

フルソングの仕事を処理する5つの代替ツール

Suno

Sunoは実際の構造を持つAI生成楽曲のベンチマークです。認識可能なポップとヒップホップの楽曲形状——イントロ、バース、コーラス、ブリッジ、アウトロ——に従うトラックを生成し、実際にメロディーを組むことができてほぼピッチに留まるボーカルがあります。歌詞統合はこのカテゴリで最も強いです。プロンプトに書いたものが認識可能な形で音楽に着地します。

弱点は大規模での均一性です。Sunoの出力はSunoのように聞こえる傾向があります。音調パレット、リバーブプロファイル、コーラスのリフトの仕方——これらのパターンはプロンプトにわたって繰り返されます。1〜2曲では品質は高いです。カタログでは指紋が明らかになります。モデルはまた、本当に奇妙またはジャンルを超えたリクエストへの許容度が限られています。最も多くトレーニングされたプロダクションスタイルに向けて曖昧さを解決する傾向があります。

価格設定はフリーティアで数曲を取得できる使用ベースです。商業ライセンスは有料プランで利用可能です。素早く完全でリスナブルな楽曲を望むほとんどの人にとって、Sunoはまず試すべきツールです——特にボーカルフォワードのジャンル向け。

Udio

Udoはわずかに異なる角度から同じフルソングの問題にアプローチします。Sunoがメロディーの一貫性を優先するところで、Udoはしばしばよりインストゥルメンタルに詳細な——ドラムプログラミング、コードボイシング、プロダクションアレンジが各トラックでより多様な——出力を生成します。

ボーカル品質は強いテイクでSunoと競争力がありますが、分散が高いです。本当に印象的なテイクと、フレーズの途中で空虚なAIボーカルの感覚を持つテイクが得られます。プロンプトシステムは具体性に報います。BPM、キー、10年単位のプロダクション、特定のインストゥルメンテーションを伝えると、漠然としたスタイルのリファレンスよりもタイトな結果が得られます。

Udoは任意のプロジェクトでSunoと並行してテストする価値があります——異なるプロンプトは異なるエンジンを好みます。同じブリーフにUdoがソウルバラードにレンダリングするものはSunoのテイクを上回るかもしれません。

aisonggen

aisonggenの際立った機能は並列生成です。音楽ジェネレーターは1つのプロンプトから5つのバリアントを同時にレンダリングするため、1つを待って却下してやり直すのではなくテイクを比較しています。プロジェクトがブロックする制約がイテレーションループ——品質の上限ではなく——である場合、その構造は聞こえる以上に重要です。5つの同時出力により、他の3つが外れた場合でも最良のコーラス表現を持つものを選べます。

ボーカルフレーズの個々の最強テイクは競争力がありますが、Sunoの最良の出力を一貫して上回るわけではありません。率直なフレーミング:aisonggenはピークのボーカル品質で勝つのではなく、受け入れられるテイクに到達するために燃やす再生成と待機のサイクルの数を減らします。5つの同時出力により、他のすべてが外れた場合でも最良のコーラス表現を持つものを選べます。

生成を超えて、aisonggenにはレンダリングにコミットする前に歌詞を書き編集できる別のLyric Studio表面があり、モデルが即興するものではなくボーカルが実際に言うことを制御したい場合に役立ちます。既存のトラックを異なるスタイルで再レンダリングするカバージェネレーターもあります——ほぼ気に入っているテイクがあるが異なるプロダクションで聞きたい場合に役立ちます。

価格設定はフリーティアから始まります。料金ページにプランの制限の詳細があります。他のツールと並んで評価する場合、レビューページには特にSunoとUdioに対するユーザー比較があります。

Mureka

Murekaは特定のプロンプトタイプ、特に実際のインストゥルメンタルアレンジの複雑さを持つトラック、でカテゴリのトップで競争力のある出力品質を生成するあまり目立たないオプションです。SunoとUdoが時々マルチインストゥルメントのアレンジを均質なミックスに崩壊させるところで、Murekaの出力はヘッドフォンで持ちこたえるほどの楽器の空間的な分離を保持できます。

トレードオフは製品表面がより磨かれていないことです。プロンプトインターフェースはカジュアルな入力に対してより厳しく、生成速度はSunoより遅いです。アレンジ品質がイテレーション速度よりも重要なプロフェッショナルな使用のために、それは合理的なトレードです。すぐにリスナブルなものが欲しいカジュアルなプロジェクトには、最初に手を伸ばすツールではありません。

Murekaの商業ライセンス条件はRiffusionのものよりも明確で、ビデオ、広告、または配信に入る音楽に重要です。フリーティアは限定的ですが評価には機能的です。

Stable Audio

Stable Audio(Stability AI製)はRiffusionのテクスチャファーストのアプローチとSunoの楽曲ファーストのアプローチの中間的な地盤を占めています。Riffusionよりも高い忠実度でオーディオを生成し、いくつかの構成では最大3分の長いクリップをサポートしながら、ほとんどのジェネレーターよりもデュレーションとスタイルに対するより精確なコントロールを提供します。

出力はインストゥルメンタルに傾いています。ボーカル生成はStable Audioの強みではないため、歌われた歌詞を持つ完成した楽曲よりも、バッキングトラック、インストゥルメンタル作曲、サウンドデザインに適しています。AIに歌声も処理してもらいたい人には、SunoやUdioがより適切です。

モデルはRiffusionの基礎にあるのと同じオープンウェイツの哲学から恩恵を受けています——技術的なユーザーがローカルで実行したりファインチューニングしたりするための研究向けバージョンが利用可能ですが、ホストされた製品はテクニカルなセットアップなしにアクセス可能です。

選び方——3つの質問

  1. 出力はどのくらいの長さで、どれくらいの構造が必要ですか? 認識可能なバース-コーラス構造を持つ2分以上のものが必要な場合、Riffusionは除外されます。Sunoまたはaisonggenが適切に形成された楽曲への最速のパスです。ボーカルを気にしない2分未満のインストゥルメンタルバッキングトラックが必要な場合、Stable AudioまたはUdoはテストする価値があります。
  2. ライセンスの状況は何を必要としていますか? 出力が商業プロジェクト——ビデオ、広告、ストリーミングリリース——に入る場合、コミットする前に条件の明確さが必要です。RiffusionのライセンスはDを最も解決していません。Suno、Udio、aisonggenはすべて有料プランで明示的な商業条件を持っています。使用しているティアを確認してください。フリーティアの出力はしばしば有料のものとは異なる制限を持っています。
  3. 出力に対してどれくらいのコントロールが必要ですか? 歌詞、メロディーの方向、またはプロダクションの詳細を指定する必要がある場合、構造化された入力を取るツールを使用してください。aisonggenのLyric StudioとSunoのカスタムモードはどちらもその種の方向性のコントロールのために設計されています。スタイルプロンプトからイテレートして最良のテイクを選ぶことに満足しているなら、上記の5つのツールはそのワークフローをサポートできます——aisonggenの並列レンダーアプローチは選択ステップを速くします。

20分のテストプラン

  1. 実際のユースケースを表す1つのプロンプトを選ぶ。 「アップビートなポップソング」でテストしないでください——実際に出荷する必要があるものでテストしてください。プロジェクトが85 BPMのlo-fiヒップホップインストゥルメンタルであれば、それがプロンプトです。人工的なテストプロンプトは人工的な結果を生み出します。
  2. 同じプロンプトを少なくとも2つのツールで同時に実行する。 生成はプラットフォームとキュー負荷に応じて約30〜90秒かかります。どちらかをレビューする前に両方に送信します。
  3. 最初にあなたに最も重要な次元で評価する。 ボーカルが重要な場合は、最初のパスでボーカルパフォーマンスだけ聴いてプロダクション品質を無視します。アレンジが重要な場合は、その耳で最初に聴きます。評価を混在させるとシグナルが薄まります。
  4. 最もパフォームしたツールで3〜5バリエーションを実行する。 1つの良い出力は分散かもしれません。同じブリーフにわたる5つの出力は、プロンプトタイプでのツールの実際の信頼性をより明確に示します。
  5. オーディエンスが使用する再生デバイスで出力を確認する。 AI生成のオーディオはスタジオモニターで優れていてイヤバッドでは薄く聞こえることがあります、またはその逆。オーディエンスが電話でストリーミングしている場合、ツールにコミットする前にそこで聴いてください。

Riffusionは探索に報います。事前に説明できなかったものを発見したいときに適しています。しかし明確なブリーフ——特定の構造、歌詞のセット、実際のオーディエンスにとって機能する必要があるジャンル——から始めている場合、上記のツールは1週間よりも1つのセッションでそこに到達させる可能性が高いです。

特にaisonggenを評価している場合、音楽ジェネレーターは最初のテストを実行する最速の方法で、並列バリアント出力は同じクロック時間で20分のプランがより多くの地盤をカバーすることを意味します。

次のトラックは、無料プロンプト 1 つの距離

スタジオを開き、ムードを言葉にして、30 秒で完成形を聴いてみてください。始めるのは無料、リリースもロイヤリティフリー、クレジットカード不要。