AISongGen logoAISongGen

如何使用文字转语音,让它不再听起来像机器人在念作业

关于真正能表演文本的 TTS 的操作指南——声音选择、标点作为方向指令、节奏控制,以及听起来不对时如何修复。

阅读 8 分钟

大多数对文字转语音感到沮丧的人,其实在为错误的事情沮丧。他们以为需要更好的模型、不同的服务或高级语音包。通常他们真正需要的是写得更好的脚本,以及一些关于标点、拼写和分块的具体习惯。模型很少是瓶颈所在。

本指南不是关于找到完美声音的。而是关于如何编辑你的文本,使任何像样的声音都能很好地演绎它。一旦你理解 TTS 引擎不是读者——而是按字面意思遵循页面上指令的表演者——你就会停止为眼睛写脚本,开始为耳朵写脚本。仅这一转变就能显著改变结果。

第一步:选择音域正确的声音,而非性别正确的声音

大多数人打开 TTS 工具时做的第一件事是按性别过滤。这是一个合理的起点,但很少是正确的最终标准。更重要的是音域:声音的音调特征。它是温暖亲密的?明亮充满活力的?带气声的对话感的?平稳权威的?

性别是音域的粗略代理,而且具有误导性。用深沉男低音朗读儿童睡前故事会让人感到焦虑和不舒服,即使声音在技术上是流畅的。企业培训模块需要平稳、能建立信任的音域——不一定是男性的,也不一定是女性的。关于药物副作用的在线学习片段,用平静、有分寸的语气比用播客能量校准的声音听起来更好。

aisonggen 的文字转语音工具上选声音之前,尝试用两三个形容词描述你想要的音域——温暖、稳定、略微正式——然后根据这个描述而不是人口统计特征来试听声音。用四五个声音生成同样的三句话,注意哪一个让你感受到你希望听众感受到的方式。那种感受就是音域。匹配它。

还要考虑节奏偏向。有些声音自然有轻微的急促感;有些在乐句结尾处逐渐消失。从绝对意义上说两者都没有错,但它们适合不同类型的内容。快速明亮的适合宣传视频开场白。慢而稳的适合无障碍旁白或有声书片段。

第二步:为耳朵而非眼睛使用标点

TTS 引擎按字面意思读取标点。逗号意味着:在这里短暂停顿。句号意味着:停下来,呼吸,继续。破折号意味着:打断自己,转向。省略号意味着:渐渐消失,留下一个间隙。这些都不是隐喻。引擎不会像人类读者那样从上下文推断措辞——它遵循页面上的标记。

这意味着你的脚本需要能表演你想要的音频投递的标点,而不仅仅是句子的语法结构。一个在文档中完全正确的句子,当大声说出来时可能听起来平淡、仓促或重音奇怪,因为它不包含引导声音的微停顿。

对比同一句话的不同标点:

修改前:「此次更新包含三项新功能改进速度和更好的错误处理。」 修改后:「此次更新包含三项新功能:改进速度,以及更好的错误处理。」

修改前的版本听起来像一个未分化的连续流。修改后的版本对项目进行了分组,创造了自然的人声落点。两个版本在语法上都没有更正确——但其中一个听起来像一个人真正在说话。

逐行带着音频思维阅读你的脚本。如果一句话应该在最后一个词之前携带一拍重量,在它前面加一个逗号。如果两个想法之间需要更清晰的切断,使用破折号。如果你希望一个短语感觉像事后想法,用逗号而非连词把它放在后面。大声朗读加了标记的文本,确认你的标点反映了你实际说的内容。

第三步:拼写出模型会发音错误的任何内容

TTS 引擎可靠地处理常见词汇。对于边缘情况,它的处理精度因引擎和语言模型而异。如果你的脚本包含缩写词、拼写不寻常的品牌名称、外来词、混合格式的数字或计量单位,你需要提前决定引擎将如何读取它们,并相应地书写。

缩写词是最常见的陷阱。「API」可能被读作一个与「happy」押韵的词,而不是 A-P-I 这三个字母。「SQL」在某些引擎上会被渲染为「sequel」,在其他引擎上是「S-Q-L」。如果你需要一种特定的发音,用音标写出来:「A P I」用空格隔开,或用简单中文「艾 批 艾」。这同样适用于你自己品牌中的首字母缩略词:如果你所在机构的名称是缩写,现在就决定它是作为字母还是作为一个词来发音。

数字和货币会造成一致的问题。「$2k」可能被渲染为「两 K」、「两千」或「美元两 K」,取决于引擎。「5.5°C」可能变成「五点五度 C」、「五点五摄氏度」或其他更奇怪的东西。写出你想听到的版本:「两千美元」、「五点五摄氏度」。

有创意拼写的品牌名称——想想那些用零替换元音或去掉元音的科技公司——通常会被发音错误。在你的脚本 TTS 版本中用音标写出这些,如果你需要渲染文本用于其他目的,再换回正确的拼写。这也适用于人名:像「Siobhan」或「Nguyen」这样的名字如果不提供音标帮助是无法通过默认发音的。

第四步:分块处理长文本

aisonggen 的 TTS 每次生成最多支持 5000 个字符,这是一个慷慨的限制——大约 700 到 800 个字的密集散文,或对于稀疏脚本来说相当更多。这足够一个完整的播客开场白、多段产品说明或一段实质性的在线学习内容。

然而,长输入和良好的聆听体验并不是同一件事。5000 个字符的不间断旁白,在单次通过中渲染,通常具有微妙的节奏特征——句子节奏的轻微均匀性、主要部分之间无法呼吸。听众会体验到疲劳,即使他们无法识别原因。

实际方法:将长脚本分解成逻辑段落或章节,并分别生成每一段。这让你能控制能量重置的位置。长篇有声书片段得益于独立渲染每个段落然后拼接音频。培训模块得益于将每个概念渲染为其自己的片段。你什么都不会失去,却获得了自然的呼吸点。

较短的块也使迭代更快。如果一个部分听起来不对,你重新渲染那个段落,而不是完整的 5000 个字符输入。当你在打磨成品时,这单独就能节省大量时间。

第五步:对于对话,使用多行/多声部 TTS 界面

对话是 TTS 最难的使用场景,也是最常被请求的使用场景之一。两个角色之间的对话——或一个旁白者和一个被访问者——需要截然不同的声音才能保持听众的连贯理解。如果它们混合,对话就会崩溃。

一些 TTS 界面原生支持多声部对话:你为每个说话者分配一个声音,将脚本写成带说话者标签的一系列台词,引擎以正确的声音渲染每行台词。如果这个能力对你可用,就用它。这是获得可信对话音频的最简单路径。

如果你的工具不支持单次渲染中的多声部,解决方法是按说话者分割脚本,将每个说话者的台词渲染为单独的音频文件,然后在任何基础音频编辑器中将片段拼接在一起。这更耗费人工但能产出干净的结果。风险是节奏:生成的音频片段不共享内部节奏,所以你需要手动调整台词之间的静默,使对话感觉真实。

对于超出简单双人对话的内容——群戏、具有强烈个人声音身份的角色、情感激烈的交流——这是 TTS 开始触碰其限制的地方,也是下一节变得相关的地方。

第六步:在扬声器而非耳机上聆听

耳机是一个有利的回放环境。它提供一致的频率响应,将你与背景噪音隔离,并近距离地将音频直接送入你的耳朵。在耳机上听起来好的 TTS 渲染通过了一个容易的测试。

重要的测试是困难的那个:这在你的听众可能使用的最差扬声器上听起来如何?那可能是嘈杂厨房里的手机扬声器、高速公路速度下的汽车蓝牙系统,或开放式办公室里的笔记本扬声器。在耳机上听起来自然的 TTS 声音,在小型扬声器上可能听起来鼻音重、单薄或机械感,因为携带声音温暖感的中频没有以同样方式传递。

在将任何 TTS 音频用于生产之前——产品视频旁白、播客开场白、在线学习模块——在手机扬声器和没有耳机的笔记本扬声器上回放。如果在这些环境中听起来还可信,它在任何地方都会起作用。

如果在次要测试中听起来单薄或机械,通常的修复方法是:选择低中频更丰富的声音,将说话速度略微调慢(仓促的语音在小型扬声器上失去清晰度),以及修改标点以添加更多停顿,这有助于在嘈杂环境中的可理解性。

常见错误

  • 为眼睛写作而不为耳朵编辑。作为文字自然读起来的内容,通常在作为音频表演之前需要修改。
  • 不试听就选第一个声音。默认声音很少是最合适的——在确认前花三分钟用六个声音生成同样的测试句子。
  • 留下未解决的缩写词、品牌名称和数字。在最终渲染前始终进行发音检查。
  • 提交一个 5000 字符的块然后疑惑为什么节奏感觉不对。将长输入分解成逻辑片段。
  • 只在耳机上测试。目标听众不是在安静房间里戴着录音室耳机——要相应地进行测试。

TTS 是错误工具的情况

文字转语音是可靠的叙述者。它不是表演者。当你的内容依赖于情感惊喜时,这一区别很重要——声音在句子中途抓住自己,一个真正关心自己在说的话的人传递出的温暖,一个喜剧演员用来落地妙语的微时机。TTS 可以近似这些品质中的许多,但它无法生成真品。

对于情感真实性是核心的内容——一个个人故事、一篇致辞、一段婚礼祝词变成音频留念——即使在安静房间里用手机麦克风录制的人声,也会超越任何当前的 TTS 系统。同样,对于歌曲中的人声表演,TTS 是错误的选择。aisonggen 的 AI 音乐生成器能产出具有真实声音特质的曲目,而 AI 翻唱生成器以平面文字渲染无法复制的音乐连贯方式应用声音风格。如果你在制作一首以人声演绎为核心的曲目,请使用专为此目的而生的工具。

TTS 在量、一致性和速度比温暖感更重要的工作流中获得其价值:无障碍叠加、大规模本地化语音旁白、视频旁白的快速原型制作、内部文档朗读。对于这些情况,放心地使用它。知道什么时候工作需要它无法做到的东西。

你能养成的最有价值的文字转语音习惯是修改习惯:写脚本,大声朗读给自己听,标记每一处你结巴或不自然停顿的地方,然后在生成前将这些标记转化为标点。模型不会为一个为静默阅读而写的脚本进行补偿。但一个为耳朵编辑过的脚本——有刻意的逗号、拼写出来的发音和逻辑分块——将在广泛的声音和引擎中表现良好。从那里开始,声音选择就成了一种精细调整,而非救场手段。直接在 aisonggen 的文字转语音页面上用一段你关心的短文尝试,你会在第一次使用中就听到区别。

下一首作品,离一段免费提示词只差一步

打开工作室,输入氛围,30 秒后听到成品。免费起步、免版税出片、无需绑卡。