AI音楽らしく聞こえないAI音楽の作り方

AI音楽制作の難しい部分はボタンを押すことではありません。難しいのは、押す前に何を入力するかを知ること、戻ってきたものを識別眼をもって読むこと、続けるか止めるかを決断することです。AI音楽を「汎用的」と呼ぶほとんどの人は間違っていません——ただ早い段階でプロセスを終えてしまっているか、実際に何を作ろうとしているのかについての明確さを持たずに始めているかのどちらかです。

これは私が数百回実行してきたプロセスのウォークスルーです。生成を自動販売機のトランザクションではなく反復として扱います。うまくいくとき、出力は機械が書いたように聞こえません。失敗するとき、どの決断を見直すべきかが正確にわかります。

実際に欲しい楽曲の種類を決める

どのツールを開く前も、一つの問いと向き合ってください。この楽曲は誰の経験の中に生きているか？「どんなジャンル」でも「どんなバイブ」でもありません——それらは後で来ます。視点から始め、次に場所、次に感情の重心。

これのためのシンプルなフレーム：

[WHO]が[WHAT]をしていて、[TURNING POINT]の直前の瞬間。下にある感情は[FEELING]であり、[SURFACE FEELING]ではない。[ONE TONAL WORD]に保つ。

表層の感情と下にある感情の区別はライティングの練習ではありません——ジェネレーターへの指示です。「悲嘆」についての楽曲はある方法で聞こえます。葬式で泣けないという特定の苛立ちについての楽曲は完全に異なるレコードのように聞こえます。具体性はジャンルタグが決してできない方法で生成に伝わります。

まだ紙の上で考えている間に、長さを決めてください。2分のトラックと4分のトラックは異なる構造上の選択を呼び、ジェネレーターはターゲットなしに漂流します。移動する前に一つを選んでください。

ステップ1：テクスチャではなくポスチャーを名指すプロンプトを書く

ほとんどの最初のプロンプトは音を説明します。「ローファイビート、ウォームなキー、メランコリック。」これはトラックが感情から3ステップ離れたリスナーにどう感じるべきかを説明します。ポスチャーは演者が体と注意で何をしているかを説明します。

この2つを比べてください：

テクスチャプロンプト：「スローR&B、ソフトファルセット、深夜、切望。」
ポスチャープロンプト：「消すと自分に誓った古いメッセージを読んでいる誰か。読み続けている。誰にも聞かれたくないように静かなボーカル。"

どちらも似たような感情的な目的地を指しています。ポスチャープロンプトはモデルにパフォームする何かを与えます。テクスチャプロンプトは音響的なリファレンスと他には何も与えません。結果は同等ではありません。

ポスチャープロンプトは3〜4文に留めてください。上限はあなたが思うより低いです——5文を超えると、モデルはそれらに基づいて構築するのではなく、指示全体を平均化し始めます。

ステップ2：テイクを比較できるジェネレーターを選ぶ

シングルテイクジェネレーターは特定の煩わしい方法で反復を遅くします。結果を得て、ほぼ正しく、小さな調整で再生成し、新しいテイクは共有されたアンカーがないため完全に異なる方向に着地します。「ほぼそれだった」元のテイクを6サイクルで追いかけることになります。

並行バリアントの実行でこれが解決されます。aisonggenのミュージックジェネレーターは同じプロンプトから5つのテイクを同時にレンダリングするため、方向を決める前に並べて比較できます。5つのうち2つが正しい領域にあれば、再生成ループのほとんどを既にスキップしています。

公平な注意：5つのテイクは1つよりも多くのクレジットがかかります。非常にタイトなクレジット予算がある場合は、5つではなく2つのテイクを実行し、1つをリファレンスとして扱ってください。ポイントは少なくとも1つの比較を持つことであり、5つを持つことではありません。

ステップ3：最初に歌詞を書くか、共同で書く

ジェネレーターの歌詞エリアは小さなテキストフィールドであり、その背後で実行されているモデルは、入力したものを保持することに強い傾向を持っています——元の行数、元の韻のスキーム、元の音節パターンまで。そのフィールド内で歌詞を書いて、後でブリッジを追加したいと決めたら、すべての再生成でモデルと格闘することになります。

貼り付ける前に別に歌詞の下書きをしてください。Lyric Studioは実際に書いているものを確認できる十分なスペースを提供します。フルバースを修正し、別のコーラスフックを試し、プレコーラスを移動させ、何もジェネレーターに渡す前に構造的にすることができます。

歌詞ファーストは一つのことを確認するのも可能にします——ジェネレーターにはできないこと：歌詞が歌手が実際に着地できる自然なスピーチリズムを持っているかどうかです。コーラスを声に出して読んでください。つまずくなら、モデルもそうします。

音楽と並行してインタラクティブに歌詞を構築する場合——最初にプロンプト、次に歌詞を洗練——そのワークフローも有効です。重要なのは歌詞の編集がジェネレーターのテキストボックスではなく、実際の編集スペースを持つどこかで行われることです。

ステップ4：意図を持ってスタイルコントロールを選ぶ

ジャンルタグは種であり、契約ではありません。「インディーフォーク」は出力を特定のプロダクションスタイルにロックしません——そのラベルに関連するサウンドのクラスターにモデルをバイアスします。これは出発点であり、保証ではありません。コミットする前にモデルがこれらのタグを実際にどのように解釈するかを理解したいなら、ジャンルタグに関するガイドは10分の価値があります。

出力をより信頼性高く制約するもの：

正確に名指しされたムード。「ほろ苦い」と「諦めた」は同じジャンルタグの中でも異なる着地をします。
シーンまたは設定。「真夜中の空の駐車場」はミックスエンジニア（ここではモデル）にリバーブとスペースのビジュアルリファレンスを与えます。
ボーカルの性別とレジスター。ほとんどのジェネレーターはここで明示的な指示を受け入れ、デフォルトは常に歌詞に正しいわけではありません。

わかっているなら、BPMを設定してください。範囲ではなく数字です。「90前後」はモデルに余地を与えすぎます。「88 BPM」は時計を与えます。トラック長も同じです。デフォルトに任せるのではなく、ターゲット時間を明示的に書いてください。

ステップ5：レンダリング後、手持ちの最悪のスピーカーで聴く

AI生成トラックには既知の失敗モードがあります。ヘッドフォンで実際より良く聞こえます。ステレオフィールドはしばしば広く、ローエンドは制御されており、ミックスは無情なものに聴いたときだけ人工的だとわかる方法でクリーンです。

最初のレンダリングの後、電話スピーカーに移ってください。またはノートパソコン内蔵のもの。あるいはアクセスできるなら、窓を下げた車のステレオ。これらのスピーカーはステレオフィールドを崩壊させ、ローミッドのマッドを露わにし、アッパーミッドレンジの厳しさを表面化させます。それでもトラックがトラックのように聞こえるなら——必ずしも良いではなく、一貫しているなら——作業に値するものがあります。

泥に崩れるなら、常に再生成のサインではありません。スタイルコントロールを見るサインです。ローエンドが重いジャンルタグ＋ウォームルーム設定＋スローBPMは、移動しないトラックを生み出すことがよくあります。3つすべてではなく、1つの変数を調整してください。

ステップ6：カバーするか、再レンダリングするか、止めるか

止め時を知ることは、リリースする人と、再生リストに何もなく400の保存された下書きを持つ人を分ける技術です。

テイクが完成した3つのシグナル：

コーラスが実際に引っ張ります。コーラスがうまくいく理由について考える前に到着を感じます。コーラスがうまくいく理由を理由付けしなければならないなら、うまくいっていません。
ボーカルがポケットに座っています。歌手はこのノートを打てることを示しているのではなく、この楽曲を歌っているように聞こえます。AIボーカルは子音を過剰に発音することがよくあります——良いテイクはそうしません。
3回目の聴取で気づくAIの痕跡が残っていません。メトロノーム的にクリーンすぎるドラムパターン。ベロシティのバリエーションが欠けているコードトランジション。決して息をしない持続ノート。これらが痕跡です。そのうちの一つは許容されることが多いです。3つは多すぎます。

テイクが3つのうち2つをクリアしたら、止めて下書きと呼んでください。3つすべてをクリアしたら、止めて完成と呼んでください。

再レンダリングは一つの特定のパラメーターが間違っていてそれを名指しできるときに意味があります。「ボーカルが歌詞に対して明るすぎる」は再レンダリングの指示です。「何かずれている感じがする」はそうではありません——それはリスニングの問題であり、生成の問題ではなく、もっとテイクを取ってもそれは修正されません。

よくある間違い

プロンプトが短すぎる。1文はプロンプトではなく、文のラッパーを持つジャンルタグです。3文がキャラクターのある結果の最小です。
プロンプトが長すぎる。8文の詳細な世界観の構築はモデルに同時に満たすための制約が多すぎます。それらを平均化して特に何も生み出さないでしょう。
反復の途中でツールを切り替える。すべてのジェネレーターは異なる内部モデルを持ち、「同じプロンプト」はツール間で構造的に異なる結果を生み出します。セッションの途中で切り替えると、比較のベースラインをリセットして反復の履歴を失います。トラックごとに1つのツールを選び、そこに留まってください。
同じ入力で再生成して異なる結果を期待する。同一プロンプトの出力のバリエーションは本物ですが範囲があります。3つの連続したテイクがすべて同じ方法で間違っているなら、プロンプトが問題であり、ランダムシードではありません。
ボーカルのミスマッチを無視する。歌詞が暗示するボーカルの音色・レジスター・エネルギーは、モデルが選択する声と一致する必要があります。ライトなテノールで届けられる、しゃがれたバリトン向けに書かれた歌詞はキャスティングのミスであり、どれだけ再レンダリングしてもキャスティングは修正されません。

機能する最初のトラックの後

ツールがステムを提供するならダウンロードしてください。ミックスする計画がなくても、ボーカルとインストゥルメンタルを分離することで後で再ボイスできるか、ゼロから始めずに本物の歌手にインストゥルメンタルを渡せます。

機能したときのプロンプトを正確に保存してください。反復したバージョンではなく——最終バージョンです。ノートファイル・スプレッドシート・ツール自体の内部にない場所にコピーしてください。ほとんどのツールは検索可能な形式でセッション間プロンプトを永続させません。aisonggenのミュージックライブラリは生成履歴と各トラックを生み出したプロンプトを自動保存し、自分で管理する必要量を減らしますが、最良の結果を生み出したプロンプトの自分のコピーを持っておく価値はあります。

機能する各トラックに2つのことをログしてください：使ったジャンルとムードタグの組み合わせ、そして生産的に感じたポスチャーフレーズ。10〜15のトラックにわたって、パターンが浮かび上がります——クリエイティブな範囲に合うタグの組み合わせと、信頼性高く保持する価値のあるものを生み出すフレーズを見つけるでしょう。そのログはこのガイドを含むいかなるガイドよりも価値があります。

自分のワークフローにコミットする前に他の人がジェネレーターをどのように使っているかを見たいなら、レビューページでは実際のユーザーが異なるジャンルとユースケースにどのようにアプローチしているかを示しています。

目標は音楽を生成することではありません。音楽を生成することは今では簡単な部分です——誰でもボタンを押せます。目標は楽曲を書くことです。視点を持ち、特定の感情的な中心を持ち、結末を正当化する構造を持つ楽曲。AIはプロダクションのレイヤーです。アレンジメント・ミックス・声を処理します。あなたはまだライティングをしなければなりません。それをプロンプトにもっと多くもたらすほど、出力で欠けていると聞こえるものが少なくなります。

AI音楽らしく聞こえないAI音楽の作り方

実際に欲しい楽曲の種類を決める

ステップ1：テクスチャではなくポスチャーを名指すプロンプトを書く

ステップ2：テイクを比較できるジェネレーターを選ぶ

ステップ3：最初に歌詞を書くか、共同で書く

ステップ4：意図を持ってスタイルコントロールを選ぶ

ステップ5：レンダリング後、手持ちの最悪のスピーカーで聴く

ステップ6：カバーするか、再レンダリングするか、止めるか

よくある間違い

機能する最初のトラックの後

続きを読む

リミックスに聞こえないAIカバー曲の作り方

テキスト読み上げがロボットの宿題読み上げに聞こえなくなる方法

実際にトラックを動かす作詞プロンプト

次のトラックは、無料プロンプト 1 つの距離