为什么第二条 take 几乎总是更好

第一条生成采样的是你 prompt 的平均值。第二条生成采样的是你对第一条的反应。

发布于 Mar 25, 2026阅读 4 分钟

第一条 take 是模型最好的猜测。第二条 take 是你的。

当你点下重新生成，你已经不再是在要「一首关于深夜开车的歌」了。你是在要「一首关于深夜开车的歌，但比上一条慢，副歌不要落在正拍上」。即便你一字未改，你的耳朵已经替你做完了编辑——而下一条生成会通过你对风格、速度、情绪或歌词草稿做的那些小调整，继承这次编辑。

第一条 take 的偏差

模型喜欢给你的是 prompt 允许范围内的平均值。如果 prompt 允许十种速度，你拿到的是中位数；如果它允许三种情绪，你拿到的是最容易猜到的那个。第一条 take 很少出错，但也很少让人惊喜，因为惊喜在 prompt 的边缘上，而模型被训练成往中间走。

把第一条 take 当成一个问题

把第一条生成看成一个问题，不是一个答案。这个问题是：「这是我希望这首歌待的位置吗？」几乎每次答案都是「接近了，但是——」，而那个「但是」是整段创作里最有用的一条信息。改一个能回应那个「但是」的参数，然后重新生成。

三条之内停下

三条 take 通常就够了。到第四条时，你已经不再是在打磨这首歌了；你是在赌模型会给你比手里这条更好的东西。它不会，因为 prompt 没变。如果第三条还没到位，需要动手术的是 prompt，而不是再掷一次骰子。

继续阅读

下一首作品，离一段免费提示词只差一步

打开工作室，输入氛围，30 秒后听到成品。免费起步、免版税出片、无需绑卡。