制作 AI 音乐难的地方不是按下按钮。难的地方是知道按下之前放什么进去,用判断力读懂返回的东西,以及决定是继续还是停下。大多数把 AI 音乐称为「通用」的人并没有说错——他们只是在过程中过早停止了,或者一开始对自己真正想做的东西缺乏足够的清晰度。
这是我已经跑过数百次的流程的操作说明。它把生成当作迭代,而非自动售货机交易。当它奏效时,输出听起来不像机器写的。当它失败时,你会确切地知道该回头重新审视哪个决策。
决定你真正想要哪种歌曲
在打开任何工具之前,先思考一个问题:这首歌活在谁的体验里?不是「什么风格」,也不是「什么氛围」——那些之后再说。从视角开始,然后是场景,然后是情感的重心。
一个简单的框架:
一个 [谁] 正在做 [什么],就在 [转折点] 之前的那一刻。下面的情感是 [感受],而不是 [表面的感受]。保持 [一个调性词]。
表面感受与深层感受之间的区别不是一个写作练习——而是一个生成器指令。一首关于「悲伤」的歌曲是一种声音;一首关于在葬礼上无法哭泣的特定烦躁感的歌曲,听起来像完全不同的一张唱片。这种具体性会以风格标签无法做到的方式传达进生成过程。
还在纸上思考的时候,决定时长。两分钟的曲目和四分钟的曲目需要不同的结构选择,没有目标生成器会漂移。先选好,再继续。
第一步:写出描述姿态而非纹理的提示词
大多数第一个提示词描述声音:「Lo-Fi 节拍,温暖的键盘,忧郁。」这描述的是三步之外的听众对曲目的感受。姿态描述的是表演者用身体和注意力在做什么。
对比这两个:
- 纹理提示词:「慢节奏 R&B,柔和假声,深夜,渴望。」
- 姿态提示词:「有人在读他们发誓要删掉的旧消息。他们一直在读。人声很轻,好像不想被任何人听到。」
两者都指向相似的情感目的地。姿态提示词给了模型一些可以表演的东西。纹理提示词只给了它一个声音参考,别无其他。结果并不等价。
把姿态提示词控制在三四句以内。上限比你想象的要低——超过大约五句,模型开始对指令取平均值,而不是在其基础上构建。
第二步:选择一个能让你对比版本的生成器
单版本生成器让迭代以一种特定的、令人恼火的方式变慢:你得到一个结果,它几乎是对的,你用一个小调整重新生成,新版本落到了一个完全不同的方向,因为没有共同的锚点。你最终会追逐那个原本「几乎是它」的版本追了六个循环。
运行并行变体解决了这个问题。aisonggen 的音乐生成器能从同一提示词同时渲染五个版本,让你在确定方向前并排比较。如果五个中有两个在正确的区间,你已经跳过了大部分重新生成的循环。
公平说明:五个版本比一个版本消耗更多积分。如果你的积分预算非常紧张,运行两个版本而不是五个,并将其中一个作为参考。关键是至少要有一个对比,而不是有五个。
第三步:先写好或共同创作你的歌词
生成器的歌词区域是一个小文本框,背后运行的模型有很强的保留你输入内容的倾向——原始行数、原始押韵方案,甚至原始音节模式。如果你在那个框里写歌词,后来决定想加一段过渡,你会在每次重新生成时都要与模型较劲。
在粘贴进去之前先单独起草歌词。歌词创作室给了你足够的空间来真正看清自己在写什么。你可以修改整段主歌,尝试不同的副歌钩子,在将任何内容交给生成器之前移动前副歌——这一切都在你将任何内容交给生成器之前完成。
先写歌词还让你检查一件生成器无法检查的事情:歌词是否有一个歌手实际上能够落地的自然说话节奏。大声朗读你的副歌。如果你结巴了,模型也会。
如果你在音乐旁边互动式地构建歌词——先有提示词,再完善歌词——那个工作流也是有效的。关键是歌词编辑发生在有真正编辑空间的地方,而不是在生成器的文本框里。
第四步:有意地选择你的风格控制参数
风格标签是种子,不是合同。「独立民谣」不会把输出锁定在任何具体的制作风格——它使模型偏向与那个标签相关的一组声音,这是一个起点,不是保证。如果你想在确认前了解模型实际上如何解读这些标签,关于风格标签的指南值得花十分钟阅读。
实际上更可靠地约束输出的是:
- 精确命名的情绪。「苦中带甜」和「顺从」即使在同一风格标签下落点也不同。
- 场景或环境。「午夜的空旷停车场」给了混音师(这里是模型)一个关于混响和空间的视觉参考。
- 人声性别和音域。大多数生成器接受这里的明确指令,而默认值不一定是你歌词的正确选择。
如果你知道 BPM,就设置它。不是一个范围——而是一个数字。「大约 90」给了模型太多空间。「88 BPM」给了它一个时钟。曲目时长也是一样:明确写出目标时长,而不是让它默认。
第五步:渲染,然后在你拥有的最差扬声器上听
AI 生成的曲目有一个已知的失败模式:它们在耳机上听起来比实际更好。立体声场通常很宽,低频受控,混音以一种只有在不宽容的环境下才会显示为人工痕迹的方式干净。
第一次渲染后,切换到你的手机扬声器。或者笔记本内置扬声器。或者,如果你能使用,开着车窗的汽车音响。这些扬声器会压缩立体声场,暴露低中频泥浊感,并显现上中频的刺耳感。如果曲目听起来还像一首曲目——不一定好,但连贯——那么你有了值得继续的东西。
如果它崩溃成一团泥浆,那并不总是需要重新生成的信号。这是一个查看你的风格控制参数的信号。低频密集的风格标签加上温暖房间设置再加上慢 BPM,经常会产出无法传播的曲目。调整一个变量,而不是三个。
第六步:翻唱、重新渲染或停止
知道何时停下,是区分那些能发布的人和那些有四百个保存的草稿但播放列表上什么都没有的人的技能。
一个版本已完成的三个信号:
- 副歌真的有吸引力。你在思考之前就感受到了到达感。如果你必须用理性推导自己相信副歌有效,它就没有效果。
- 人声坐进了口袋里。歌手听起来像是在演唱这首歌,而不是在展示他们能达到这些音符。AI 人声经常过度清晰地发辅音——好的版本不会。
- 第三次聆听时,你没有注意到任何 AI 特征了。节奏感过于精准的鼓型。缺乏力度变化的和弦转换。从不呼吸的持续音符。这些是特征。有一个通常是可以接受的。三个就太多了。
如果版本通过了三个中的两个,停下来,称之为草稿。如果三个都通过了,停下来,称之为完成。
当一个具体的参数出问题了,而且你能说出来,重新渲染才有意义。「人声对于这段歌词来说太亮了」是一个重新渲染的指令。「感觉有什么不对」不是——那是一个聆听问题,不是生成问题,更多的版本无法修复它。
常见错误
- 提示词太短。一句话不是提示词;它是一个带有句子包装的风格标签。三句话是获得有任何个性结果的最低要求。
- 提示词太长。八句详细的世界构建给了模型太多同时需要满足的约束。它会对它们取平均值,产出没有特点的东西。
- 迭代中途换工具。每个生成器都有不同的内部模型,「同一提示词」在不同工具上产出结构上不同的结果。如果你在中途换工具,你重置了比较基准,失去了迭代历史。每首曲目选一个工具,坚持使用。
- 用相同的输入重新生成并期待不同的结果。相同提示词输出之间的变化是真实的,但有限度。如果三个连续版本都以相同的方式出错,问题是提示词,不是随机种子。
- 忽略人声不匹配。你的歌词暗示的声音音色、音域和能量,必须与模型选择的声音对齐。为沙哑低音写的歌词由轻盈的高音演唱,是选角错误,再多重新渲染也无法修复选角问题。
第一首奏效的曲目之后
如果工具提供,下载分轨。即使你不打算混音,将人声和器乐分开意味着你可以之后重新配音,或者把器乐交给真正的歌手,而不必从零开始。
把提示词完全按照它奏效时的样子保存。不是你迭代经过的版本——而是最终版本。把它复制到笔记文件、电子表格,任何不在工具本身内部的地方。大多数工具不会以你可以轻松搜索的形式跨会话保留提示词。aisonggen 的音乐库会自动保存你的生成历史和产出每首曲目的提示词,这减少了你需要自行管理的内容,但仍然值得保留你自己产出最佳结果的提示词的副本。
为每首奏效的曲目记录两件事:你使用的风格-情绪标签组合,以及任何感觉有生成力的姿态短语。经过十到十五首曲目,规律会浮现——你会找到适合你创意范围的标签组合,以及可靠地产出值得保留内容的措辞。这个记录比任何指南都更有价值,包括这一篇。
如果你想在确定自己的工作流之前看看其他人如何使用生成器,评测页面展示了真实用户如何处理不同风格和使用场景。
目标不是生成音乐。生成音乐现在是容易的部分——任何人都可以按下按钮。目标是写歌。有视角、有具体情感中心、有赢得结尾的结构的歌曲。AI 是制作层:它处理编曲、混音、声音。你仍然需要做写作。你带进提示词的写作越多,你在输出中听到缺失的就越少。