大多數對文字轉語音感到沮喪的人,其實在為錯誤的事情沮喪。他們以為他們需要更好的模型、不同的服務或高級聲音包。通常他們實際需要的是一份寫得更好的腳本,以及一些關於標點、拼寫和分段的具體習慣。模型很少是瓶頸。
這份指南不是關於找到完美的聲音。而是關於如何編輯你的文字,讓任何體面的聲音都能把它表達好。一旦你理解 TTS 引擎不是讀者——它們是依循頁面上字面指示的表演者——你就會停止為眼睛寫腳本,開始為耳朵寫腳本。光是這個轉變就能戲劇性地改善結果。
第一步:選擇音域正確的聲音,而非性別正確的
大多數人打開 TTS 工具做的第一件事是按性別篩選。這是合理的起點,但很少是正確的最終標準。更重要的是音域:聲音的音調特性。它是溫暖而親密的?明亮而充滿活力的?氣聲而對話式的?平板而有權威感的?
性別是音域的粗糙代理,而且具有誤導性。用低沉的男性男低音朗讀的兒童睡前故事,即使聲音技術上很流暢,也可能感覺焦慮且不對。企業培訓模組需要均衡、能建立信任的音域——不一定是男性的,也不一定是女性的。關於藥物副作用的電子學習片段,在平靜、沉穩的語調中比在為 Podcast 能量校準的聲音中聽起來更好。
在 aisonggen 的文字轉語音工具上選擇聲音之前,試著用兩三個形容詞描述你想要的音域——溫暖、穩定、稍微正式——然後對照那個描述而非人口特徵試聽聲音。用四五個聲音生成同樣的三個句子,注意哪個讓你感受到你希望聽者感受到的感覺。那種感覺就是音域。匹配它。
還要考慮節奏偏向。有些聲音自然地稍微急促;有些在句子末尾尾音減弱。兩者在絕對意義上都沒有錯,但它們服務於不同的內容類型。快速而明亮適合宣傳影片片頭。緩慢而穩定適合無障礙旁白或有聲書摘錄。
第二步:為耳朵而非眼睛加標點
TTS 引擎字面解讀標點。逗號表示:在這裡短暫停頓。句號表示:停止、呼吸、繼續。破折號表示:打斷自己、轉向。省略號表示:聲音漸弱、留下停頓。這些都不是比喻。引擎不像人類讀者那樣從語境推斷短語——它遵循頁面上的標記。
這意味著你的腳本需要能表演你想要的音訊傳遞的標點,而不只是句子的語法結構。在文件中完全正確的句子,在大聲朗讀時可能會平淡、急促或奇怪地強調,因為它不包含引導聲音的微停頓。
用不同的標點比較同一個句子:
修改前:「更新包含三個新功能更快速度和更好的錯誤處理。」 修改後:「更新包含三個新功能:更快的速度,以及更好的錯誤處理。」
修改前的版本聽起來像一長串未分化的串流。修改後的版本將項目分組並創造自然的人聲落點。兩個版本在語法上都沒有更正確——但其中一個聽起來像一個人在實際說話。
逐行帶著音訊心態過你的腳本。如果一個句子在最後一個字之前應該承載一拍的重量,在它之前加一個逗號。如果兩個想法之間需要更尖銳的切割,使用破折號。如果你希望一個短語感覺像是附帶說明,用逗號而非連接詞放在後面。自己大聲朗讀標記後的文字,確認你的標點反映了你實際說的話。
第三步:拼出模型會唸錯的任何東西
TTS 引擎可靠地處理常見詞。它們處理邊緣案例的準確性因引擎和語言模型而大幅不同。如果你的腳本包含縮寫字、拼寫不尋常的品牌名稱、外來語、混合格式的數字或計量單位,你需要提前決定引擎將如何讀它們,並相應地寫好。
縮寫字是最常見的陷阱。「API」可能被讀成一個與「happy」押韻的詞,而非三個字母 A-P-I。「SQL」會被有些引擎渲染為「sequel」,被其他引擎渲染為「S-Q-L」。如果你需要一個特定的發音,就用音標拼出來:用空格分隔的「A P I」,或用普通中文的「A P I 三個字母」。同樣適用於你自己品牌的縮寫字:如果你組織的名稱是縮寫字,現在就決定它是被讀成字母還是一個詞。
數字和貨幣會造成一致的問題。「$2k」可能被渲染為「二 K」、「兩千」或「美元二 K」,取決於引擎。「5.5°C」可能出現為「五點五度 C」或「五點五攝氏度」或更奇怪的東西。寫出你想聽到的版本:「兩千元」、「攝氏五點五度」。
有創意拼寫的品牌名稱——想想任何以零代替母音或刪去母音的科技公司——將頻繁被錯誤發音。在你的腳本中用音標拼寫這些以備 TTS 使用,如果你需要將渲染文字用於其他目的,再換回正確拼寫。這同樣適用於人名:像「Siobhan」或「Nguyen」這樣的名字,在沒有音標幫助的情況下無法通過預設發音。
第四步:對長文字進行分段
aisonggen 的 TTS 每次生成支援最多 5000 個字元,這是一個慷慨的上限——大約是 700 到 800 個密集散文的詞,或對稀疏腳本來說相當更多。這對一個完整的 Podcast 片頭、多段落的產品說明,或相當大的電子學習片段已經足夠。
然而,長輸入和好的聆聽體驗不是同一回事。五千字元的不間斷旁白,在單次渲染中,通常會有細微的節奏人工感——句子節奏上的輕微均勻性、主要段落之間未能呼吸的感覺。聽者體驗到這種疲勞感,即使他們找不到原因。
實用方法:將長腳本分成邏輯段落或章節,分別生成每個。這讓你控制能量重置的地方。長篇有聲書摘錄受益於獨立渲染每個段落然後組合音訊。培訓模組受益於將每個概念渲染為自己的片段。你不會失去任何東西,而且獲得自然的呼吸點。
較短的段落也讓迭代更快。如果一個部分聽起來不對,你重新渲染那個段落而非完整的 5000 字元輸入。當你在打磨成品時,僅這一點就能節省大量時間。
第五步:對話的部分,使用多行/多聲音的 TTS 界面
對話是 TTS 最難的使用場景,也是最多人要求的。兩個角色之間的對話——或旁白者和受訪者——需要明顯不同的聲音才能讓聽者保持清楚。如果它們混合了,對話就崩潰了。
有些 TTS 界面原生支援多聲音對話:你為每個說話者分配一個聲音,將腳本寫成帶有說話者標籤的一系列行,引擎以正確的聲音渲染每一行。如果這個功能可供你使用,請使用它。這是獲得可信的對話音訊的最簡單路徑。
如果你的工具不支援單次渲染中的多聲音,解決辦法是按說話者拆分腳本,分別渲染每個說話者的台詞作為單獨的音訊檔案,然後在任何基本的音訊編輯器中拼接片段。這更費勞力但能產生乾淨的結果。風險是節奏:生成的音訊片段不共享內部節奏,所以你需要手動調整台詞之間的靜默,讓對話感覺真實。
對於超過簡單雙人對話的任何情況——多人演員、有強烈個人聲音身分的角色、情感激烈的交流——這是 TTS 開始觸及其限制的地方,也是下一節變得相關的地方。
第六步:在音箱而非耳機上聆聽
耳機是一個討好的回放環境。它們提供一致的頻率響應,隔絕你與背景噪音,並以近距離直接將音訊送入你的耳朵。在耳機上聽起來好的 TTS 渲染通過了一個容易的測試。
重要的測試是難的那個:你的聽者可能使用的最差音箱上的效果如何?那可能是在嘈雜廚房裡的手機音箱、以高速行駛的車子的藍牙系統,或開放式辦公室中的筆電音箱。在耳機上聽起來自然的 TTS 聲音,在小音箱上可能聽起來鼻音重、單薄或機械,因為攜帶聲音溫度的中頻不以同樣的方式傳遞。
在你將任何 TTS 音訊用於正式生產用途之前——產品影片的旁白、Podcast 片頭、電子學習模組——在手機音箱和不戴耳機的筆電音箱上回放。如果它在那些環境中聽起來仍然可信,它在任何地方都能工作。
如果它在次要測試中聽起來單薄或機械,通常的修正是:選擇有更飽滿低中頻的聲音、將說話速度調整稍慢(急促的語音在小音箱上失去清晰度),以及修改標點添加更多停頓,這有助於在嘈雜環境中的可懂性。
常見錯誤
- 為眼睛寫作而不為耳朵編輯。作為文字讀起來自然的東西,通常需要在作為音訊表演之前進行修改。
- 不試聽就選擇第一個聲音。預設聲音很少是最佳選擇——在承諾之前花三分鐘用六個聲音生成相同的測試句子。
- 讓縮寫字、品牌名稱和數字未解決。在最終渲染之前務必做發音檢查。
- 提交一個 5000 字元的完整塊,然後奇怪為什麼節奏感覺不對。將長輸入分成邏輯片段。
- 只在耳機上測試。目標聽者不是在安靜的房間裡戴著錄音室耳機——相應地進行測試。
TTS 是錯誤工具的時候
文字轉語音是一個可靠的旁白者。它不是一個表演者。這個區別在你的內容依賴情感驚喜時很重要——聲音在句子中間抓住自己、來自真正關心他們在說的話的人的溫度、喜劇演員用來落地笑點的微時機。TTS 可以近似這些品質中的許多,但它無法產生真品。
對於情感真實性是重點的內容——個人故事、致敬詞、婚禮祝詞轉化為音訊紀念品——即使是在安靜房間裡用手機麥克風錄製的人聲錄音,也會超越任何目前的 TTS 系統。同樣,對於歌曲中的聲樂表演,TTS 是錯誤的選擇。aisonggen 的 AI 音樂生成器產生帶有真實聲音特性的音軌,AI 翻唱生成器以平面文字渲染無法複製的音樂連貫方式應用聲音風格。如果你在製作一個靠聲樂演繹生死的音軌,請使用為那個目的而建的工具。
TTS 在音量、一致性和速度比溫度更重要的工作流程中賺得它的位置:無障礙覆疊、大規模本地化旁白、快速原型製作影片旁白、可大聲朗讀的內部文件。對那些情況有信心地使用它。知道什麼時候工作要求超出它的能力範圍。
你能在文字轉語音中養成的最有價值的習慣是修改習慣:寫好你的腳本,大聲朗讀給自己聽,標出每一個你絆倒或不自然停頓的地方,然後在生成之前將那些標記轉化為標點。模型不會為為無聲閱讀而寫的腳本補償。但一份為耳朵編輯的腳本——帶有刻意的逗號、拼出的發音和邏輯分段——將在廣泛的聲音和引擎中表現良好。從那裡開始,聲音選擇就成了一種精煉而非救援行動。在 aisonggen 的文字轉語音頁面用你關心的短段落直接嘗試,你將在第一次對話中聽到差異。