纸面是宽容的。人声不是。
你半夜在备忘录里写的某一句,可能在屏幕上端坐得很优雅,但放到歌手嘴里就死活出不来。原因几乎总是那几个——一旦你认出它们,就能在模型上场之前就把它们修掉。
辅音串和呼吸打架
「Strict scripts」读起来还行,但唱起来很难受。三个辅音叠在元音之间,会逼着歌手要么赶拍要么把句子拆成谁都听不清的音节。如果你自己念这句话都会绊一下,模型也会。
长元音承得住,短元音滑过去
开口元音(长 o、长 a、长 e)能托住一个长音。短元音会从音上滑过去。需要落下来的句子——副歌 hook、点题——应该结束在开口元音上。需要推进的句子——主歌铺垫、bridge 过渡——可以结束在更短的元音上,因为这里要的是动量,不是分量。
生成之前先念一遍
AI 生成歌词最快的编辑器是你自己的嘴。按你打算的歌曲速度大声念一遍主歌。任何让你在中途要换气、或者必须放慢速度才能咬清楚的句子,都是歌手也会卡的句子。在确定下来之前,要么砍掉,要么重写。
什么时候允许模型违反规则
有时候错的元音才是对的选择——一个闭合的音让一句悲伤的歌词显得更封闭。功力不在于遵守规则,而在于知道你是有意识地在打破它,还是只是因为你累了。