AISongGen logoAISongGen

为什么第二条 take 几乎总是更好

第一条生成采样的是你 prompt 的平均值。第二条生成采样的是你对第一条的反应。

阅读 4 分钟

第一条 take 是模型最好的猜测。第二条 take 是你的。

当你点下重新生成,你已经不再是在要「一首关于深夜开车的歌」了。你是在要「一首关于深夜开车的歌,但比上一条慢,副歌不要落在正拍上」。即便你一字未改,你的耳朵已经替你做完了编辑——而下一条生成会通过你对风格、速度、情绪或歌词草稿做的那些小调整,继承这次编辑。

第一条 take 的偏差

模型喜欢给你的是 prompt 允许范围内的平均值。如果 prompt 允许十种速度,你拿到的是中位数;如果它允许三种情绪,你拿到的是最容易猜到的那个。第一条 take 很少出错,但也很少让人惊喜,因为惊喜在 prompt 的边缘上,而模型被训练成往中间走。

把第一条 take 当成一个问题

把第一条生成看成一个问题,不是一个答案。这个问题是:「这是我希望这首歌待的位置吗?」几乎每次答案都是「接近了,但是——」,而那个「但是」是整段创作里最有用的一条信息。改一个能回应那个「但是」的参数,然后重新生成。

三条之内停下

三条 take 通常就够了。到第四条时,你已经不再是在打磨这首歌了;你是在赌模型会给你比手里这条更好的东西。它不会,因为 prompt 没变。如果第三条还没到位,需要动手术的是 prompt,而不是再掷一次骰子。

下一首作品,离一段免费提示词只差一步

打开工作室,输入氛围,30 秒后听到成品。免费起步、免版税出片、无需绑卡。