Hầu hết những người thất vọng với chuyển văn bản thành giọng nói đang thất vọng với điều sai. Họ nghĩ họ cần mô hình tốt hơn, dịch vụ khác, hoặc gói giọng cao cấp. Thường thì những gì họ thực sự cần là kịch bản được viết tốt hơn và một vài thói quen cụ thể xung quanh dấu câu, cách đánh vần, và phân đoạn. Mô hình hiếm khi là điểm tắc nghẽn.
Hướng dẫn này không phải về việc tìm giọng hoàn hảo. Nó về việc chỉnh sửa văn bản của bạn để bất kỳ giọng ổn nào cũng có thể phân phối tốt. Khi bạn hiểu rằng các công cụ TTS không phải là người đọc — họ là người biểu diễn theo các hướng dẫn theo nghĩa đen trên trang — bạn sẽ ngừng viết kịch bản cho mắt và bắt đầu viết chúng cho tai. Sự thay đổi đó một mình thay đổi kết quả đáng kể.
Bước 1: chọn giọng với đúng giọng điệu, không phải đúng giới tính
Điều đầu tiên hầu hết mọi người làm khi mở công cụ TTS là lọc theo giới tính. Đó là điểm khởi đầu hợp lý, nhưng hiếm khi là tiêu chí cuối cùng đúng. Những gì quan trọng hơn là giọng điệu: đặc điểm tông của giọng. Nó ấm áp và thân mật? Sáng và năng lượng? Nhẹ và hội thoại? Phẳng và có thẩm quyền?
Giới tính là proxy thô cho giọng điệu, và là một proxy gây hiểu lầm. Truyện ngủ trẻ em được đọc bằng giọng baritone nam trầm sâu có thể cảm thấy lo lắng và sai ngay cả khi giọng đó kỹ thuật mượt mà. Module đào tạo doanh nghiệp cần giọng điệu đều, tạo sự tin tưởng — không nhất thiết là giọng nam, và không nhất thiết là giọng nữ. Đoạn e-learning về tác dụng phụ của thuốc nghe hay hơn ở giọng bình tĩnh, chừng mực hơn là giọng được hiệu chỉnh cho năng lượng podcast.
Trước khi chọn giọng trên công cụ chuyển văn bản thành giọng nói của aisonggen, hãy cố gắng mô tả giọng điệu bạn muốn bằng hai hoặc ba tính từ — ấm, ổn định, hơi trang trọng — và sau đó thử giọng dựa trên mô tả đó hơn là dựa vào nhân khẩu học. Tạo cùng ba câu bằng bốn hoặc năm giọng và chú ý đến cái nào làm bạn cảm thấy theo cách bạn muốn người nghe cảm thấy. Cảm giác đó là giọng điệu. Khớp điều đó.
Cũng xem xét thiên kiến nhịp điệu. Một số giọng có sự vội vàng nhẹ tự nhiên; những giọng khác kéo dài ở cuối các cụm từ. Không cái nào sai về mặt tuyệt đối, nhưng chúng phục vụ các loại nội dung khác nhau. Nhanh và sáng hoạt động cho phần giới thiệu video quảng cáo. Chậm và ổn định hoạt động cho tường thuật khả năng tiếp cận hoặc đoạn sách âm thanh.
Bước 2: dấu câu cho tai, không phải cho mắt
Công cụ TTS đọc dấu câu theo nghĩa đen. Dấu phẩy có nghĩa là: tạm dừng ngắn ở đây. Dấu chấm có nghĩa là: dừng, thở, tiếp tục. Dấu gạch ngang em có nghĩa là: tự ngắt, xoay vòng. Dấu chấm lửng có nghĩa là: dần tan, để lại khoảng trống. Không cái nào ẩn dụ. Công cụ không suy ra cụm từ từ ngữ cảnh theo cách người đọc người thật làm — nó theo các dấu trên trang.
Điều này có nghĩa là kịch bản của bạn cần dấu câu thực hiện phân phối âm thanh bạn muốn, không chỉ là cấu trúc ngữ pháp của câu. Một câu hoàn toàn đúng trong một tài liệu có thể hạ cánh phẳng, vội vàng, hoặc nhấn mạnh kỳ lạ khi được nói to vì nó không chứa các micro-pause hướng dẫn giọng.
So sánh cùng một câu với dấu câu khác nhau:
Trước: "Bản cập nhật bao gồm ba tính năng mới tốc độ cải thiện và xử lý lỗi tốt hơn." Sau: "Bản cập nhật bao gồm ba tính năng mới: tốc độ cải thiện, và xử lý lỗi tốt hơn."
Phiên bản trước nghe như một chuỗi chạy không phân biệt. Phiên bản sau nhóm các mục và tạo ra sự hạ cánh giọng tự nhiên. Không phiên bản nào ngữ pháp đúng hơn — nhưng một trong số chúng nghe như một người thực sự đang nói.
Đi qua kịch bản của bạn từng dòng với âm thanh trong đầu. Nếu một câu nên mang một nhịp trọng lượng trước từ cuối cùng, thêm dấu phẩy trước nó. Nếu hai ý cần một cắt sắc hơn giữa chúng, hãy sử dụng dấu gạch ngang em. Nếu bạn muốn một cụm từ cảm thấy như lời ngoài lề, hãy thả nó sau dấu phẩy thay vì liên từ. Đọc văn bản đã được đánh dấu to chính bạn và xác nhận rằng dấu câu của bạn phản ánh những gì bạn thực sự nói.
Bước 3: đánh vần bất cứ điều gì mô hình sẽ phát âm sai
Các công cụ TTS xử lý các từ phổ biến một cách đáng tin cậy. Chúng xử lý các trường hợp biên với độ chính xác thay đổi đáng kể tùy thuộc vào công cụ và mô hình ngôn ngữ. Nếu kịch bản của bạn chứa các từ viết tắt, tên thương hiệu có cách đánh vần bất thường, từ nước ngoài, số ở định dạng hỗn hợp, hoặc đơn vị đo lường, bạn cần quyết định trước cách công cụ sẽ đọc chúng và viết cho phù hợp.
Từ viết tắt là bẫy phổ biến nhất. "API" có thể được đọc như một từ vần với "happy" thay vì ba chữ cái A-P-I. "SQL" sẽ được kết xuất là "sequel" bởi một số công cụ và "S-Q-L" bởi những công cụ khác. Nếu bạn cần một cách phát âm cụ thể, hãy viết nó ra theo âm vị: "A P I" với khoảng trắng, hoặc "ay pi ai" bằng tiếng Anh thuần. Tương tự áp dụng cho các từ viết tắt trong thương hiệu của riêng bạn: nếu tên tổ chức của bạn là từ viết tắt, hãy quyết định ngay bây giờ xem nó có được nói như các chữ cái hay như một từ.
Số và tiền tệ gây ra các vấn đề nhất quán. "$2k" có thể được kết xuất là "hai K," "hai nghìn," hoặc "đô la hai K" tùy thuộc vào công cụ. "5,5°C" có thể ra là "năm phẩy năm độ C" hoặc "năm phẩy năm độ Celsius" hoặc thứ gì đó lạ hơn. Viết ra phiên bản bạn muốn nghe: "hai nghìn đô la," "năm phẩy năm độ Celsius."
Các tên thương hiệu có cách đánh vần sáng tạo — nghĩ đến bất kỳ công ty công nghệ nào đã thay thế nguyên âm bằng số không hoặc bỏ nguyên âm hoàn toàn — thường sẽ bị phát âm sai. Đánh vần chúng theo âm vị trong kịch bản cho phần TTS, sau đó hoán đổi lại cách đánh vần đúng nếu bạn cần văn bản được kết xuất cho mục đích khác. Điều này cũng áp dụng cho tên người: tên như "Siobhan" hoặc "Nguyen" sẽ không tồn tại qua cách phát âm mặc định mà không có sự trợ giúp âm vị.
Bước 4: phân đoạn văn bản dài
TTS của aisonggen hỗ trợ lên đến 5000 ký tự mỗi lần tạo, là giới hạn rộng rãi — khoảng 700 đến 800 từ văn xuôi dày đặc, hoặc nhiều hơn đáng kể cho các kịch bản thưa thớt. Đó là đủ cho phần giới thiệu podcast hoàn chỉnh, thuyết minh sản phẩm nhiều đoạn, hoặc đoạn e-learning đáng kể.
Tuy nhiên, đầu vào dài và trải nghiệm người nghe tốt không phải là cùng một thứ. Năm nghìn ký tự tường thuật không bị ngắt, được kết xuất trong một lần duy nhất, thường có các hiện vật nhịp độ tinh tế — sự đồng đều nhẹ trong nhịp điệu câu, thất bại trong việc thở giữa các phần chính. Người nghe trải nghiệm điều này như mệt mỏi ngay cả khi họ không thể xác định nguyên nhân.
Cách tiếp cận thực tế: chia kịch bản dài thành các đoạn hoặc phần logic và tạo từng cái riêng biệt. Điều này cung cấp cho bạn kiểm soát nơi năng lượng đặt lại. Đoạn trích sách âm thanh dài được hưởng lợi từ việc kết xuất mỗi đoạn văn độc lập và sau đó lắp ráp âm thanh. Module đào tạo được hưởng lợi từ việc kết xuất mỗi khái niệm như đoạn riêng của nó. Bạn không mất gì và đạt được các điểm hơi thở tự nhiên.
Các đoạn ngắn hơn cũng làm cho việc lặp đi lặp lại nhanh hơn. Nếu một phần nghe sai, bạn kết xuất lại đoạn văn đó thay vì toàn bộ đầu vào 5000 ký tự. Điều này một mình tiết kiệm thời gian đáng kể khi bạn đang đánh bóng sản phẩm hoàn chỉnh.
Bước 5: đối với hội thoại, hãy sử dụng bề mặt TTS nhiều dòng / nhiều giọng
Hội thoại là trường hợp sử dụng khó nhất cho TTS và cũng là một trong những yêu cầu được yêu cầu nhiều nhất. Cuộc trò chuyện giữa hai nhân vật — hoặc người dẫn chương trình và người được phỏng vấn — đòi hỏi các giọng riêng biệt rõ ràng để vẫn mạch lạc cho người nghe. Nếu họ trộn lẫn, hội thoại sụp đổ.
Một số bề mặt TTS hỗ trợ hội thoại nhiều giọng một cách tự nhiên: bạn gán một giọng cho mỗi người nói, viết kịch bản như một loạt các dòng có nhãn người nói, và công cụ kết xuất mỗi dòng bằng giọng đúng. Nếu khả năng đó có sẵn với bạn, hãy sử dụng nó. Đó là con đường đơn giản nhất đến âm thanh hội thoại đáng tin.
Nếu công cụ của bạn không hỗ trợ kết xuất nhiều giọng trong một lần, giải pháp thay thế là tách kịch bản theo người nói, kết xuất các dòng của mỗi người nói như một tệp âm thanh riêng biệt, và sau đó ghép các đoạn lại trong bất kỳ trình chỉnh sửa âm thanh cơ bản nào. Điều này tốn nhiều công hơn nhưng tạo ra kết quả sạch. Rủi ro là nhịp độ: các đoạn âm thanh được tạo không chia sẻ tempo nội bộ, vì vậy bạn sẽ cần điều chỉnh sự im lặng giữa các dòng thủ công để làm cho cuộc trò chuyện cảm thấy thực.
Đối với bất cứ điều gì ngoài hội thoại hai người đơn giản — các dàn diễn viên đồng, các nhân vật với danh tính giọng cá nhân mạnh mẽ, các trao đổi biến đổi về mặt cảm xúc — đây là nơi TTS bắt đầu đạt đến giới hạn của nó và nơi phần tiếp theo trở nên phù hợp.
Bước 6: lắng nghe trên loa, không phải tai nghe
Tai nghe là môi trường phát lại nịnh hót. Chúng cung cấp phản hồi tần số nhất quán, cô lập bạn khỏi tiếng ồn nền, và đặt âm thanh trực tiếp vào tai của bạn ở cự ly gần. Một kết xuất TTS nghe hay trên tai nghe đã vượt qua bài kiểm tra dễ.
Bài kiểm tra quan trọng là bài kiểm tra khó: điều này nghe như thế nào trên loa tệ nhất người nghe của bạn có thể sẽ sử dụng? Đó có thể là loa điện thoại trong một nhà bếp ồn ào, hệ thống Bluetooth của xe hơi ở tốc độ đường cao tốc, hoặc loa laptop trong văn phòng không gian mở. Giọng TTS nghe tự nhiên trên tai nghe có thể nghe mũi, mỏng, hoặc robot trên loa nhỏ vì tần số midrange mang sự ấm áp của giọng không được phân phối theo cùng cách.
Trước khi bạn phát hành bất kỳ âm thanh TTS nào cho sử dụng sản xuất — giọng đọc cho video sản phẩm, phần giới thiệu podcast, module e-learning — phát lại nó trên loa điện thoại và trên loa laptop mà không có tai nghe. Nếu nó vẫn nghe đáng tin trong những môi trường đó, nó sẽ hoạt động ở mọi nơi.
Nếu nó nghe mỏng hoặc cơ học trên bài kiểm tra thứ cấp, các bản sửa lỗi thông thường là: chọn giọng với sự hiện diện low-midrange đầy hơn, điều chỉnh tốc độ nói hơi chậm hơn (lời nói vội vàng mất sự rõ ràng trên loa nhỏ), và sửa đổi dấu câu để thêm nhiều tạm dừng hơn, điều này giúp độ dễ hiểu trong môi trường ồn ào.
Các lỗi phổ biến
- Viết cho mắt và không chỉnh sửa cho tai. Những gì đọc tự nhiên như văn bản thường cần sửa đổi trước khi nó thực hiện như âm thanh.
- Chọn giọng đầu tiên mà không thử nghiệm. Giọng mặc định hiếm khi là lựa chọn phù hợp nhất — dành ba phút tạo cùng một câu thử nghiệm bằng sáu giọng trước khi cam kết.
- Để các từ viết tắt, tên thương hiệu, và số chưa được giải quyết. Luôn thực hiện lần đọc phát âm trước khi kết xuất cuối cùng.
- Gửi một khối 5000 ký tự và tự hỏi tại sao nhịp điệu có vẻ sai. Chia đầu vào dài thành các đoạn logic.
- Chỉ kiểm tra trên tai nghe. Người nghe mục tiêu không đeo tai nghe studio trong phòng yên tĩnh — kiểm tra cho phù hợp.
Khi TTS là công cụ sai
Chuyển văn bản thành giọng nói là người kể đáng tin. Nó không phải là người biểu diễn. Sự phân biệt quan trọng khi nội dung của bạn phụ thuộc vào sự bất ngờ cảm xúc — giọng bắt chính nó giữa câu, sự ấm áp đến từ một người thực sự quan tâm đến những từ ngữ họ đang nói, micro-timing mà một diễn viên hài sử dụng để hạ cánh punchline. TTS có thể xấp xỉ nhiều trong số các phẩm chất này, nhưng nó không thể tạo ra bài thực.
Đối với nội dung nơi tính xác thực cảm xúc là vấn đề — một câu chuyện cá nhân, một lời tri ân, một lời chúc mừng đám cưới được biến thành kỷ niệm âm thanh — một bản ghi âm người thật, ngay cả trên micro điện thoại trong phòng yên tĩnh, sẽ vượt trội hơn bất kỳ hệ thống TTS hiện tại nào. Tương tự, đối với hiệu suất giọng hát trong một bài hát, TTS là lựa chọn sai. Trình tạo nhạc AI tại aisonggen tạo ra các bản nhạc với đặc điểm giọng thực, và trình tạo bìa AI áp dụng phong cách giọng theo cách âm nhạc mạch lạc mà kết xuất văn bản phẳng không thể sao chép. Nếu bạn đang sản xuất bản nhạc sống chết bởi cách phân phối giọng hát, hãy sử dụng công cụ được xây dựng cho mục đích đó.
TTS kiếm được vị trí của nó trong các quy trình làm việc nơi lượng, tính nhất quán, và tốc độ quan trọng hơn sự ấm áp: lớp phủ khả năng tiếp cận, giọng đọc được bản địa hóa theo quy mô, tạo mẫu nhanh cho tường thuật video, tài liệu nội bộ được đọc to. Sử dụng nó tự tin cho những trường hợp đó. Biết khi nào công việc đòi hỏi thứ gì đó nó không thể làm.
Thói quen có giá trị nhất duy nhất bạn có thể phát triển với chuyển văn bản thành giọng nói là thói quen sửa đổi: viết kịch bản của bạn, đọc to cho chính mình, đánh dấu mỗi nơi bạn vấp váp hoặc tạm dừng không tự nhiên, và sau đó chuyển đổi những dấu đó thành dấu câu trước khi bạn tạo. Mô hình sẽ không bù đắp cho kịch bản được viết để đọc im lặng. Nhưng kịch bản được chỉnh sửa cho tai — với dấu phẩy có chủ đích, phát âm được đánh vần, và phân đoạn logic — sẽ thực hiện tốt trên nhiều giọng và công cụ. Bắt đầu từ đó, và lựa chọn giọng trở thành tinh chỉnh hơn là giải cứu. Hãy thử trực tiếp trên trang chuyển văn bản thành giọng nói của aisonggen với một đoạn ngắn bạn quan tâm, và bạn sẽ nghe thấy sự khác biệt trong phiên đầu tiên.