คนส่วนใหญ่ที่หงุดหงิดกับ text-to-speech หงุดหงิดกับสิ่งที่ผิด พวกเขาคิดว่าต้องการโมเดลที่ดีกว่า บริการต่างกัน หรือชุดเสียงระดับพรีเมียม โดยปกติสิ่งที่พวกเขาต้องการจริงๆ คือสคริปต์ที่เขียนดีกว่าและนิสัยเฉพาะบางอย่างเกี่ยวกับเครื่องหมายวรรคตอน การสะกด และการแบ่งส่วน โมเดลแทบไม่ใช่ bottleneck
คู่มือนี้ไม่ได้เกี่ยวกับการหาเสียงที่สมบูรณ์แบบ แต่เกี่ยวกับการแก้ไขข้อความของคุณเพื่อให้เสียงที่ดีพอสมควรสามารถส่งมอบได้ดี เมื่อคุณเข้าใจว่า TTS engine ไม่ใช่ผู้อ่าน แต่เป็นนักแสดงที่ปฏิบัติตามคำสั่งตามตัวอักษรบนหน้ากระดาษ คุณจะหยุดเขียนสคริปต์สำหรับตา และเริ่มเขียนสำหรับหู การเปลี่ยนแปลงนั้นเพียงอย่างเดียวเปลี่ยนแปลงผลลัพธ์อย่างมาก
ขั้นตอนที่ 1: เลือกเสียงที่มี register ที่ถูกต้อง ไม่ใช่เพศที่ถูกต้อง
สิ่งแรกที่คนส่วนใหญ่ทำเมื่อพวกเขาเปิดเครื่องมือ TTS คือกรองตามเพศ นั่นเป็นจุดเริ่มต้นที่สมเหตุสมผล แต่แทบไม่ใช่เกณฑ์สุดท้ายที่ถูกต้อง สิ่งที่สำคัญกว่าคือ register: ลักษณะโทนเสียงของเสียง มันอบอุ่นและใกล้ชิดไหม? สว่างและมีพลังงานไหม? หายใจและพูดคุยไหม? แบนและน่าเชื่อถือไหม?
เพศเป็นตัวแทนคร่าวๆ สำหรับ register และเป็นตัวแทนที่ทำให้เข้าใจผิดได้ นิทานก่อนนอนของเด็กที่อ่านด้วย baritone ชายลึกสามารถรู้สึกวิตกกังวลและผิดแม้ว่าเสียงจะราบรื่นทางเทคนิค โมดูลการฝึกอบรมองค์กรต้องการ register ที่เรียบและส่งสัญญาณความไว้วางใจ ไม่จำเป็นต้องเป็นแบบชายหรือหญิง เซกเมนต์ e-learning เกี่ยวกับผลข้างเคียงของยาฟังดูดีกว่าในโทนที่สงบและระมัดระวังมากกว่าในเสียงที่ปรับเทียบสำหรับพลังงานพอดแคสต์
ก่อนเลือกเสียงใน เครื่องมือ text-to-speech ของ aisonggen ลองอธิบาย register ที่ต้องการในสองสามคำคุณสมบัติ อบอุ่น คงที่ เป็นทางการเล็กน้อย แล้วทดสอบเสียงกับคำอธิบายนั้นแทนที่จะเป็นข้อมูลประชากร สร้างประโยคเดียวกันสามประโยคในสี่หรือห้าเสียงและให้ความสนใจว่าตัวใดทำให้คุณรู้สึกแบบที่คุณต้องการให้ผู้ฟังรู้สึก ความรู้สึกนั้นคือ register จับคู่มัน
พิจารณา pacing bias ด้วย เสียงบางตัวมีการเร่งเล็กน้อยตามธรรมชาติ บางตัว trail off ที่ท้ายวลี ไม่มีตัวไหนผิดในแง่สัมบูรณ์ แต่พวกมันรับใช้ประเภทเนื้อหาที่แตกต่างกัน เร็วและสว่างทำงานสำหรับบทนำวิดีโอโปรโมต ช้าและคงที่ทำงานสำหรับการบรรยาย accessibility หรือตัวอย่างหนังสือเสียง
ขั้นตอนที่ 2: ใส่เครื่องหมายวรรคตอนสำหรับหู ไม่ใช่ตา
TTS engine อ่านเครื่องหมายวรรคตอนตามตัวอักษร จุลภาคหมายถึง: หยุดชั่วคราวสั้นๆ ที่นี่ จุดหมายถึง: หยุด หายใจ ดำเนินต่อ em-dash หมายถึง: ขัดจังหวะตัวเอง เปลี่ยนทิศทาง จุดไข่ปลาหมายถึง: trail away ปล่อยช่องว่าง ไม่มีสิ่งใดเหล่านี้เป็นอุปมา engine ไม่อนุมานการวลีจากบริบทแบบที่ผู้อ่านมนุษย์ทำ แต่ปฏิบัติตามเครื่องหมายบนหน้ากระดาษ
หมายความว่าสคริปต์ของคุณต้องการเครื่องหมายวรรคตอนที่ส่งมอบเสียงที่คุณต้องการ ไม่ใช่แค่โครงสร้างไวยากรณ์ของประโยค ประโยคที่ถูกต้องสมบูรณ์ในเอกสารอาจลงจอดแบนๆ รีบ หรือเน้นแปลกๆ เมื่อพูดออกมาเพราะมันไม่มี micro-pause ที่ชี้นำเสียง
เปรียบเทียบประโยคเดียวกันด้วยเครื่องหมายวรรคตอนต่างกัน:
ก่อน: "การอัปเดตประกอบด้วยสามฟีเจอร์ใหม่ความเร็วที่ดีขึ้นและการจัดการข้อผิดพลาดที่ดีกว่า" หลัง: "การอัปเดตประกอบด้วยสามฟีเจอร์ใหม่: ความเร็วที่ดีขึ้น และการจัดการข้อผิดพลาดที่ดีกว่า"
เวอร์ชันก่อนฟังดูเหมือนการวิ่งที่ไม่แตกต่างกัน เวอร์ชันหลังจัดกลุ่มรายการและสร้างการลงจอดเสียงตามธรรมชาติ ไม่มีเวอร์ชันไหนถูกต้องทางไวยากรณ์มากกว่า แต่หนึ่งในนั้นฟังดูเหมือนคนพูดจริงๆ
อ่านสคริปต์ทีละบรรทัดโดยคำนึงถึงเสียง ถ้าประโยคควรมีจังหวะน้ำหนักก่อนคำสุดท้าย ใส่จุลภาคก่อนมัน ถ้าสองความคิดต้องการการตัดที่คมคาย ใช้ em-dash ถ้าต้องการให้วลีรู้สึกเหมือนความคิดท้ายๆ ใส่หลังจุลภาคแทนคำสันธาน อ่านข้อความที่มีเครื่องหมายออกเสียงด้วยตัวเองและยืนยันว่าเครื่องหมายวรรคตอนสะท้อนสิ่งที่คุณพูดจริงๆ
ขั้นตอนที่ 3: สะกดออกอะไรก็ตามที่โมเดลจะออกเสียงผิด
TTS engine จัดการคำทั่วไปได้น่าเชื่อถือ มันจัดการกรณีขอบด้วยความแม่นยำที่แตกต่างกันอย่างมากขึ้นอยู่กับ engine และโมเดลภาษา ถ้าสคริปต์ของคุณมีคำย่อ ชื่อแบรนด์ที่สะกดแปลก คำต่างประเทศ ตัวเลขในรูปแบบผสม หรือหน่วยวัด คุณต้องตัดสินใจล่วงหน้าว่า engine จะอ่านอย่างไรและเขียนตามนั้น
คำย่อเป็นกับดักที่พบบ่อยที่สุด "API" อาจอ่านเป็นคำที่คล้อง happy แทนที่จะเป็นสามตัวอักษร A-P-I "SQL" จะเรนเดอร์เป็น "sequel" โดย engine บางตัวและ "S-Q-L" โดยตัวอื่น ถ้าต้องการการออกเสียงเฉพาะหนึ่งอย่าง เขียนออกตามเสียง: "A P I" ด้วยช่องว่าง หรือ "ay pee eye" เป็นภาษาอังกฤษธรรมดา สิ่งเดียวกันใช้กับคำย่อในแบรนด์ของคุณเอง: ถ้าชื่อองค์กรของคุณเป็นคำย่อ ตัดสินใจตอนนี้ว่าพูดเป็นตัวอักษรหรือเป็นคำ
ตัวเลขและสกุลเงินทำให้เกิดปัญหาสม่ำเสมอ "$2k" อาจเรนเดอร์เป็น "two K" "two thousand" หรือ "dollar two K" ขึ้นอยู่กับ engine "5.5°C" อาจออกมาเป็น "five point five degrees C" หรือ "five point five Celsius" หรือบางอย่างที่แปลกกว่า เขียนเวอร์ชันที่ต้องการได้ยิน: "two thousand dollars" "five point five degrees Celsius"
ชื่อแบรนด์ที่สะกดสร้างสรรค์ นึกถึงบริษัทเทคโนโลยีที่แทนที่สระด้วยศูนย์หรือตัดสระออก มักจะออกเสียงผิด สะกดเหล่านี้ตามเสียงในสคริปต์สำหรับการ TTS แล้วสลับกลับเป็นการสะกดที่ถูกต้องถ้าต้องการข้อความที่เรนเดอร์สำหรับจุดประสงค์อื่น สิ่งนี้ยังใช้กับชื่อคน: ชื่ออย่าง "Siobhan" หรือ "Nguyen" จะไม่รอดจากการออกเสียงเริ่มต้นโดยไม่มีความช่วยเหลือตามเสียง
ขั้นตอนที่ 4: แบ่งข้อความยาว
TTS ของ aisonggen รองรับสูงสุด 5000 ตัวอักษรต่อการสร้าง ซึ่งเป็นขีดจำกัดที่ใจกว้าง ประมาณ 700 ถึง 800 คำของร้อยแก้วที่หนาแน่น หรือมากกว่าอย่างมีนัยสำคัญสำหรับสคริปต์ที่เบา เพียงพอสำหรับบทนำพอดแคสต์ที่สมบูรณ์ ตัวอธิบายผลิตภัณฑ์หลายย่อหน้า หรือเซกเมนต์ e-learning ที่สำคัญ
อย่างไรก็ตาม อินพุตที่ยาวและประสบการณ์การฟังที่ดีไม่ใช่สิ่งเดียวกัน ห้าพันตัวอักษรของการบรรยายที่ไม่ขาดตอน เรนเดอร์ในการผ่านเดียว มักมี artifact ของ pacing เล็กน้อย ความสม่ำเสมอเล็กน้อยในจังหวะประโยค การไม่หายใจระหว่างส่วนหลัก ผู้ฟังประสบกับสิ่งนี้เป็นความเหนื่อยล้าแม้ว่าพวกเขาจะไม่สามารถระบุสาเหตุได้
แนวทางที่ใช้งานได้จริง: แบ่งสคริปต์ยาวออกเป็นย่อหน้าหรือส่วนที่มีตรรกะและสร้างแต่ละส่วนแยกกัน สิ่งนี้ให้คุณควบคุมว่าพลังงานรีเซ็ตที่ไหน ตัวอย่างหนังสือเสียงยาวได้รับประโยชน์จากการเรนเดอร์แต่ละย่อหน้าอย่างอิสระแล้วประกอบเสียง โมดูลการฝึกอบรมได้รับประโยชน์จากการเรนเดอร์แต่ละแนวคิดเป็นเซกเมนต์ของตัวเอง คุณไม่เสียอะไรและได้จุดหายใจตามธรรมชาติ
ส่วนที่สั้นกว่ายังทำให้การทำซ้ำเร็วขึ้น ถ้าส่วนหนึ่งฟังดูผิด คุณ re-render ย่อหน้านั้นแทนที่จะเป็นอินพุตเต็ม 5000 ตัวอักษร สิ่งนี้เพียงอย่างเดียวประหยัดเวลาอย่างมีนัยสำคัญเมื่อคุณกำลังขัดเกลาผลิตภัณฑ์ที่เสร็จสมบูรณ์
ขั้นตอนที่ 5: สำหรับบทสนทนา ใช้พื้นผิว TTS หลายบรรทัด/หลายเสียง
บทสนทนาเป็นกรณีการใช้งานที่ยากที่สุดสำหรับ TTS และยังเป็นหนึ่งในที่ร้องขอมากที่สุด การสนทนาระหว่างสองตัวละคร หรือผู้บรรยายและผู้สัมภาษณ์ ต้องการเสียงที่แตกต่างกันอย่างชัดเจนเพื่อให้สอดคล้องสำหรับผู้ฟัง ถ้าพวกมันผสมกัน บทสนทนาจะพัง
พื้นผิว TTS บางแห่งรองรับบทสนทนาหลายเสียงแบบ native: คุณกำหนดเสียงให้กับแต่ละผู้พูด เขียนสคริปต์เป็นชุดบรรทัดที่มีป้ายกำกับผู้พูด และ engine เรนเดอร์แต่ละบรรทัดในเสียงที่ถูกต้อง ถ้าความสามารถนั้นมีให้คุณ ใช้มัน เป็นเส้นทางที่ง่ายที่สุดสู่เสียงบทสนทนาที่น่าเชื่อ
ถ้าเครื่องมือของคุณไม่รองรับการเรนเดอร์หลายเสียงในการผ่านเดียว วิธีแก้ปัญหาคือแบ่งสคริปต์ตามผู้พูด เรนเดอร์บรรทัดของแต่ละผู้พูดเป็นไฟล์เสียงแยกต่างหาก แล้วเย็บส่วนต่างๆ เข้าด้วยกันใน editor เสียงพื้นฐาน สิ่งนี้ต้องใช้แรงงานมากกว่าแต่ผลิตผลลัพธ์ที่สะอาด ความเสี่ยงคือ pacing: เซกเมนต์เสียงที่สร้างไม่มี tempo ภายในร่วมกัน ดังนั้นคุณจะต้องปรับความเงียบระหว่างบรรทัดด้วยตนเองเพื่อให้การสนทนารู้สึกจริง
สำหรับอะไรก็ตามที่เกินบทสนทนาสองคนง่ายๆ ตัวละครกลุ่ม ตัวละครที่มีเอกลักษณ์เสียงเฉพาะแข็งแกร่ง การแลกเปลี่ยนที่มีอารมณ์ volatile นี่คือที่ที่ TTS เริ่มถึงขีดจำกัดและส่วนถัดไปกลายเป็นเกี่ยวข้อง
ขั้นตอนที่ 6: ฟังบนลำโพง ไม่ใช่หูฟัง
หูฟังเป็นสภาพแวดล้อมการเล่นที่ประจบสอพลอ พวกมันส่งมอบการตอบสนองความถี่ที่สม่ำเสมอ แยกคุณออกจากเสียงพื้นหลัง และวางเสียงโดยตรงในหูของคุณในระยะใกล้ การเรนเดอร์ TTS ที่ฟังดูดีบนหูฟังผ่านการทดสอบง่าย
การทดสอบที่สำคัญคือการทดสอบที่ยาก: เสียงนี้ฟังดูอย่างไรบนลำโพงที่แย่ที่สุดที่ผู้ฟังของคุณน่าจะใช้? อาจเป็นลำโพงโทรศัพท์ในครัวที่มีเสียงดัง ระบบ Bluetooth ของรถที่ความเร็วทางหลวง หรือลำโพงแล็ปท็อปในสำนักงานแบบ open-plan เสียง TTS ที่ฟังดูเป็นธรรมชาติบนหูฟังสามารถฟังดูเสียงจมูก บาง หรือเหมือนหุ่นยนต์บนลำโพงเล็กเพราะความถี่ mid-range ที่ถือความอบอุ่นของเสียงไม่ได้ส่งมอบในแบบเดียวกัน
ก่อนที่คุณจะส่งเสียง TTS ใดๆ เพื่อใช้งานจริง เล่นกลับบนลำโพงโทรศัพท์และบนลำโพงแล็ปท็อปโดยไม่มีหูฟัง ถ้ามันยังฟังดูน่าเชื่อในสภาพแวดล้อมเหล่านั้น มันจะทำงานได้ทุกที่
ถ้ามันฟังดูบางหรือเหมือนกลไกในการทดสอบรอง การแก้ไขปกติคือ: เลือกเสียงที่มีการปรากฏต่ำ-midrange ที่เต็มกว่า ปรับอัตราการพูดช้าลงเล็กน้อย (การพูดรีบเร่งสูญเสียความชัดเจนบนลำโพงเล็ก) และแก้ไขเครื่องหมายวรรคตอนเพื่อเพิ่มการหยุดมากขึ้น ซึ่งช่วยความเข้าใจในสภาพแวดล้อมที่มีเสียงดัง
ข้อผิดพลาดทั่วไป
- เขียนสำหรับตาและไม่แก้ไขสำหรับหู สิ่งที่อ่านตามธรรมชาติเป็นข้อความมักต้องการการแก้ไขก่อนที่จะแสดงเป็นเสียง
- เลือกเสียงแรกโดยไม่ทดสอบ เสียงเริ่มต้นแทบไม่เหมาะที่สุด ใช้เวลาสามนาทีสร้างประโยคทดสอบเดียวกันในหกเสียงก่อนยืนยัน
- ปล่อยคำย่อ ชื่อแบรนด์ และตัวเลขที่ไม่ได้รับการแก้ไข ทำการผ่านการออกเสียงก่อนเรนเดอร์สุดท้ายเสมอ
- ส่งบล็อก 5000 ตัวอักษรหนึ่งบล็อกแล้วสงสัยว่าทำไม pacing รู้สึกไม่ถูก แบ่งอินพุตยาวเป็นเซกเมนต์ที่มีตรรกะ
- ทดสอบบนหูฟังเท่านั้น ผู้ฟังเป้าหมายไม่ได้ใส่หูฟังสตูดิโอในห้องเงียบ ทดสอบตามนั้น
เมื่อ TTS เป็นเครื่องมือที่ผิด
Text-to-speech เป็นผู้บรรยายที่น่าเชื่อถือ ไม่ใช่นักแสดง ความแตกต่างสำคัญเมื่อเนื้อหาของคุณพึ่งพาความประหลาดใจทางอารมณ์ เสียงที่จับตัวเองกลางประโยค ความอบอุ่นที่มาจากคนที่ใส่ใจคำที่พวกเขาพูดจริงๆ micro-timing ที่นักตลกใช้เพื่อลงคาตาลอก TTS สามารถประมาณคุณภาพเหล่านี้ได้หลายอย่าง แต่ไม่สามารถสร้างของจริงได้
สำหรับเนื้อหาที่ความถูกต้องทางอารมณ์คือประเด็น เรื่องส่วนตัว การยกย่อง การ toast งานแต่งงานที่กลายเป็น keepsake เสียง การบันทึกมนุษย์ แม้แต่บนไมโครโฟนโทรศัพท์ในห้องเงียบ จะเหนือกว่าระบบ TTS ปัจจุบัน ในทำนองเดียวกัน สำหรับการแสดงเสียงร้องในเพลง TTS เป็นทางเลือกที่ผิด เครื่องมือสร้างเพลง AI ที่ aisonggen ผลิตแทร็กที่มีตัวละครเสียงร้องจริงๆ และ เครื่องมือสร้าง AI cover ใช้สไตล์เสียงในแบบที่สอดคล้องทางดนตรีซึ่งการเรนเดอร์ข้อความแบบแบนไม่สามารถจำลองได้ ถ้าคุณกำลังผลิตแทร็กที่มีชีวิตหรือตายด้วยการส่งมอบเสียงร้อง ใช้เครื่องมือที่สร้างมาเพื่อจุดประสงค์นั้น
TTS ได้รับตำแหน่งของมันในเวิร์กโฟลว์ที่ปริมาณ ความสม่ำเสมอ และความเร็วสำคัญกว่าความอบอุ่น: overlays accessibility การพากย์เสียงที่แปลแล้วในระดับ rapid prototyping ของการบรรยายวิดีโอ เอกสารภายในที่อ่านออกเสียง ใช้มันอย่างมั่นใจสำหรับกรณีเหล่านั้น รู้ว่าเมื่อไหรที่งานต้องการบางอย่างที่มันทำไม่ได้
นิสัยที่มีคุณค่าที่สุดที่คุณสามารถพัฒนากับ text-to-speech คือนิสัยการแก้ไข: เขียนสคริปต์ อ่านออกเสียงด้วยตัวเอง ทำเครื่องหมายทุกที่ที่คุณสะดุดหรือหยุดชั่วคราวอย่างไม่เป็นธรรมชาติ แล้วแปลเครื่องหมายเหล่านั้นเป็นเครื่องหมายวรรคตอนก่อนที่คุณจะสร้าง โมเดลจะไม่ชดเชยสำหรับสคริปต์ที่เขียนสำหรับการอ่านเงียบ แต่สคริปต์ที่แก้ไขสำหรับหู ด้วยจุลภาคโดยเจตนา การออกเสียงที่สะกดออก และการแบ่งส่วนที่มีตรรกะ จะแสดงได้ดีในหลากหลายเสียงและ engine เริ่มที่นั่น และการเลือกเสียงกลายเป็นการปรับแต่งแทนที่จะเป็นการช่วยเหลือ ลองมันโดยตรงใน หน้า text-to-speech ของ aisonggen ด้วยข้อความสั้นๆ ที่คุณสนใจ และคุณจะได้ยินความแตกต่างภายในเซสชันแรก