AISongGen logoAISongGen

Cara menggunakan teks-ke-ucapan supaya ia tidak lagi kedengaran seperti robot membaca kerja rumah

Panduan TTS yang benar-benar melakukan teks — pemilihan suara, tanda baca sebagai arahan, kadar percakapan, dan cara memperbaikinya apabila kedengaran salah.

8 min bacaan

Kebanyakan orang yang berasa kecewa dengan teks-ke-ucapan sebenarnya kecewa dengan perkara yang salah. Mereka fikir mereka memerlukan model yang lebih baik, perkhidmatan berbeza, atau pek suara premium. Biasanya apa yang mereka perlukan ialah skrip yang lebih baik penulisannya dan beberapa tabiat khusus berkaitan tanda baca, ejaan, dan pembahagian teks. Model jarang menjadi kekangan.

Panduan ini bukan tentang mencari suara yang sempurna. Ia tentang mengedit teks anda supaya mana-mana suara yang baik dapat menyampaikannya dengan baik. Setelah anda faham bahawa enjin TTS bukan pembaca — ia adalah pelakon yang mengikuti arahan harfiah di halaman — anda akan berhenti menulis skrip untuk mata dan mula menulisnya untuk telinga. Peralihan itu sahaja mengubah hasilnya secara dramatik.

Langkah 1: pilih suara dengan register yang betul, bukan jantina yang betul

Perkara pertama yang kebanyakan orang lakukan apabila membuka alat TTS ialah menapis mengikut jantina. Itu permulaan yang munasabah, tetapi ia jarang menjadi kriteria muktamad yang betul. Yang lebih penting ialah register: watak nada suara. Adakah ia hangat dan intim? Cerah dan bertenaga? Bernafas dan perbualan? Rata dan berwibawa?

Jantina adalah proksi kasar untuk register, dan satu yang mengelirukan. Cerita tidur kanak-kanak yang dibaca dalam bariton lelaki yang dalam boleh terasa resah dan tidak kena walaupun suaranya secara teknikal lancar. Modul latihan korporat memerlukan register yang seimbang dan memberi kepercayaan — tidak semestinya maskulin, dan tidak semestinya feminin juga. Segmen e-pembelajaran tentang kesan sampingan ubat kedengaran lebih baik dalam nada yang tenang dan terukur berbanding suara yang diselaraskan untuk tenaga podcast.

Sebelum anda memilih suara di alat teks-ke-ucapan aisonggen, cuba huraikan register yang anda mahukan dalam dua atau tiga kata sifat — hangat, mantap, sedikit formal — kemudian audisi suara berdasarkan huraian itu bukannya berdasarkan demografi. Jana tiga ayat yang sama dalam empat atau lima suara dan perhatikan yang mana satu membuat anda berasa seperti cara anda mahu pendengar anda berasa. Perasaan itulah registernya. Padankan itu.

Pertimbangkan juga kecenderungan kadar. Sesetengah suara mempunyai sedikit kecepatan semula jadi; yang lain pula mereput di hujung frasa. Tidak ada yang salah dalam istilah mutlak, tetapi mereka berfungsi untuk jenis kandungan yang berbeza. Cepat dan cerah sesuai untuk intro video promosi. Perlahan dan mantap sesuai untuk naras aksesibiliti atau petikan buku audio.

Langkah 2: beri tanda baca untuk telinga, bukan mata

Enjin TTS membaca tanda baca secara harfiah. Koma bermaksud: berhenti sejenak di sini. Noktah bermaksud: berhenti, bernafas, teruskan. Sengkang em bermaksud: ganggu diri sendiri, bertukar. Elipsis bermaksud: mereput, tinggalkan jurang. Tiada satu pun daripada ini yang metafora. Enjin tidak menyimpulkan phrasing daripada konteks seperti pembaca manusia — ia mengikuti tanda pada halaman.

Ini bermakna skrip anda memerlukan tanda baca yang melakukan penyampaian audio yang anda mahukan, bukan hanya struktur tatabahasa ayat. Ayat yang sempurna dalam dokumen mungkin terasa rata, tergesa-gesa, atau pelik ditekankan apabila diucapkan dengan kuat kerana ia tidak mengandungi micro-pause yang membimbing suara.

Bandingkan ayat yang sama dengan tanda baca yang berbeza:

Sebelum: "Kemas kini tersebut merangkumi tiga ciri baharu kelajuan yang lebih baik dan pengendalian ralat yang lebih baik." Selepas: "Kemas kini tersebut merangkumi tiga ciri baharu: kelajuan yang lebih baik, dan pengendalian ralat yang lebih baik."

Versi sebelum kedengaran seperti satu rentetan yang tidak dibezakan. Versi selepas mengumpulkan item dan mencipta pendaratan vokal semula jadi. Tiada versi yang lebih betul dari segi tatabahasa — tetapi salah satunya kedengaran seperti seseorang yang benar-benar bercakap.

Teliti skrip anda baris demi baris dengan audio dalam fikiran. Jika ayat perlu membawa rentak berat sebelum perkataan terakhir, tambahkan koma sebelumnya. Jika dua idea memerlukan potongan yang lebih tajam antara mereka, gunakan sengkang em. Jika anda mahu frasa terasa seperti fikiran sampingan, letakkannya selepas koma bukan selepas kata hubung. Baca teks yang ditanda dengan kuat pada diri sendiri dan sahkan bahawa tanda baca anda mencerminkan apa yang anda sebenarnya katakan.

Langkah 3: ejakan apa sahaja yang mungkin disebut salah oleh model

Enjin TTS mengendalikan perkataan biasa dengan boleh dipercayai. Mereka mengendalikan kes tepi dengan ketepatan yang berbeza-beza bergantung pada enjin dan model bahasa. Jika skrip anda mengandungi akronim, nama jenama dengan ejaan luar biasa, perkataan asing, nombor dalam format campuran, atau unit ukuran, anda perlu memutuskan terlebih dahulu bagaimana enjin akan membacanya dan menulis mengikutnya.

Akronim adalah perangkap paling biasa. "API" mungkin dibaca sebagai perkataan yang berima dengan "happy" bukannya tiga huruf A-P-I. "SQL" akan dirender sebagai "sequel" oleh sesetengah enjin dan "S-Q-L" oleh yang lain. Jika anda memerlukan sebutan tertentu, tuliskannya secara fonetik: "A P I" dengan ruang, atau "ay pee eye" dalam bahasa Inggeris biasa. Perkara yang sama berlaku untuk inisialisme dalam jenama anda sendiri: jika nama organisasi anda adalah akronim, putuskan sekarang sama ada ia diucapkan sebagai huruf atau sebagai perkataan.

Nombor dan mata wang menyebabkan masalah yang konsisten. "$2k" mungkin dirender sebagai "dua K," "dua ribu," atau "dolar dua K" bergantung pada enjin. "5.5°C" mungkin keluar sebagai "lima titik lima darjah C" atau "lima titik lima Celsius" atau sesuatu yang lebih pelik. Tuliskan versi yang anda mahu dengar: "dua ribu dolar," "lima titik lima darjah Celsius."

Nama jenama dengan ejaan kreatif — fikirkan mana-mana syarikat teknologi yang menggantikan vokal dengan sifar atau membuang vokal sepenuhnya — akan sering disebut salah. Ejakan ini secara fonetik dalam skrip anda untuk laluan TTS, kemudian tukar semula ejaan yang betul jika anda memerlukan teks yang dirender untuk tujuan lain. Ini juga berlaku untuk nama orang: nama seperti "Siobhan" atau "Nguyen" tidak akan selamat dengan sebutan lalai tanpa bantuan fonetik.

Langkah 4: bahagikan teks panjang

TTS aisonggen menyokong sehingga 5000 aksara setiap penjanaan, yang merupakan had yang murah hati — kira-kira 700 hingga 800 perkataan prosa padat, atau lebih banyak lagi untuk skrip jarang. Itu cukup untuk intro podcast lengkap, penerangan produk berbilang perenggan, atau segmen e-pembelajaran yang besar.

Walau bagaimanapun, input panjang dan pengalaman pendengar yang baik bukanlah perkara yang sama. Lima ribu aksara naras yang tidak terputus, dirender dalam satu laluan, sering mempunyai artifak kadar yang halus — sedikit keseragaman dalam rentak ayat, kegagalan untuk bernafas antara bahagian utama. Pendengar mengalami ini sebagai keletihan walaupun mereka tidak dapat mengenal pasti puncanya.

Pendekatan praktikal: bahagikan skrip panjang kepada perenggan atau bahagian logik dan jana setiap satu secara berasingan. Ini memberi anda kawalan ke atas tempat tenaga set semula. Petikan buku audio bentuk panjang mendapat manfaat daripada rendering setiap perenggan secara bebas kemudian menggabungkan audio. Modul latihan mendapat manfaat daripada rendering setiap konsep sebagai segmennya sendiri. Anda tidak kehilangan apa-apa dan mendapat titik nafas semula jadi.

Potongan yang lebih pendek juga mempercepatkan lelaran. Jika satu bahagian kedengaran salah, anda render semula perenggan itu bukan keseluruhan input 5000 aksara. Ini sahaja menjimatkan masa yang ketara apabila anda memoles produk siap.

Langkah 5: untuk dialog, gunakan permukaan TTS berbilang baris / berbilang suara

Dialog adalah kes penggunaan paling sukar untuk TTS dan juga salah satu yang paling banyak diminta. Perbualan antara dua watak — atau pencerita dan orang yang ditemubual — memerlukan suara yang berbeza jelas untuk kekal koheren bagi pendengar. Jika ia bercampur, dialog akan runtuh.

Sesetengah permukaan TTS menyokong dialog berbilang suara secara asli: anda menetapkan suara kepada setiap penutur, menulis skrip sebagai siri baris dengan label penutur, dan enjin merender setiap baris dalam suara yang betul. Jika keupayaan itu tersedia untuk anda, gunakannya. Ia adalah laluan paling mudah kepada audio dialog yang boleh dipercayai.

Jika alat anda tidak menyokong rendering berbilang suara dalam satu laluan, penyelesaiannya ialah membahagikan skrip mengikut penutur, merender baris setiap penutur sebagai fail audio berasingan, kemudian menjahit segmen tersebut bersama dalam mana-mana penyunting audio asas. Ini lebih memerlukan banyak tenaga tetapi menghasilkan hasil yang bersih. Risikonya ialah kadar: segmen audio yang dijana tidak berkongsi tempo dalaman, jadi anda perlu melaraskan kesunyian antara baris secara manual untuk membuatkan perbualan terasa nyata.

Untuk apa-apa yang lebih daripada dialog dua orang yang mudah — pelakon ensemble, watak dengan identiti vokal individu yang kuat, pertukaran yang tidak stabil secara emosi — inilah di mana TTS mula mencapai hadnya dan di mana bahagian seterusnya menjadi relevan.

Langkah 6: dengar pada pembesar suara, bukan fon kepala

Fon kepala adalah persekitaran main balik yang menarik. Ia memberikan tindak balas frekuensi yang konsisten, mengasingkan anda daripada bunyi latar belakang, dan meletakkan audio terus di telinga anda pada jarak dekat. Rendering TTS yang kedengaran baik pada fon kepala telah lulus ujian yang mudah.

Ujian yang penting ialah yang sukar: bagaimana ini kedengaran pada pembesar suara paling teruk yang mungkin digunakan oleh pendengar anda? Itu mungkin pembesar suara telefon di dapur yang bising, sistem Bluetooth kereta pada kelajuan lebuh raya, atau pembesar suara laptop di pejabat terbuka. Suara TTS yang kedengaran semula jadi pada fon kepala boleh kedengaran sengau, nipis, atau seperti robot pada pembesar suara kecil kerana frekuensi julat tengah yang membawa kehangatan suara tidak disampaikan dengan cara yang sama.

Sebelum anda menghantar mana-mana audio TTS untuk kegunaan pengeluaran — suara latar untuk video produk, intro podcast, modul e-pembelajaran — mainkannya pada pembesar suara telefon dan pada pembesar suara laptop tanpa fon kepala. Jika ia masih kedengaran boleh dipercayai dalam persekitaran tersebut, ia akan berfungsi di mana-mana.

Jika ia kedengaran nipis atau mekanikal pada ujian sekunder, pembetulan biasa ialah: pilih suara dengan kehadiran rendah-julat-tengah yang lebih penuh, laraskan kadar bercakap sedikit lebih perlahan (percakapan tergesa-gesa kehilangan kejelasan pada pembesar suara kecil), dan semak semula tanda baca untuk menambah lebih banyak jeda, yang membantu kefahaman dalam persekitaran yang bising.

Kesilapan biasa

  • Menulis untuk mata dan tidak mengedit untuk telinga. Apa yang dibaca secara semula jadi sebagai teks biasanya memerlukan semakan sebelum ia berfungsi sebagai audio.
  • Memilih suara pertama tanpa audisi. Suara lalai jarang menjadi pilihan terbaik — luangkan tiga minit menjana ayat ujian yang sama dalam enam suara sebelum membuat komitmen.
  • Membiarkan akronim, nama jenama, dan nombor tidak diselesaikan. Sentiasa lakukan laluan sebutan sebelum render akhir.
  • Menghantar satu blok 5000 aksara dan tertanya-tanya mengapa kadarnya terasa tidak kena. Bahagikan input panjang kepada segmen logik.
  • Hanya menguji pada fon kepala. Pendengar sasaran tidak memakai fon kepala studio di bilik yang sunyi — uji mengikutnya.

Apabila TTS adalah alat yang salah

Teks-ke-ucapan adalah pencerita yang boleh dipercayai. Ia bukan pelakon. Perbezaan itu penting apabila kandungan anda bergantung pada kejutan emosi — suara yang menangkap dirinya di tengah ayat, kehangatan yang datang daripada seseorang yang benar-benar peduli tentang perkataan yang mereka katakan, micro-timing yang digunakan oleh pelawak untuk mendarat lawak jenaka. TTS boleh menghampiri banyak kualiti ini, tetapi ia tidak dapat menghasilkan yang tulen.

Untuk kandungan di mana keaslian emosi adalah intinya — kisah peribadi, penghargaan, ucapan perkahwinan yang dijadikan cenderahati audio — rakaman manusia, walaupun pada mikrofon telefon di bilik yang sunyi, akan mengatasi mana-mana sistem TTS semasa. Begitu juga, untuk persembahan vokal dalam lagu, TTS adalah pilihan yang salah. Penjana muzik AI di aisonggen menghasilkan trek dengan watak vokal sebenar, dan penjana cover AI menggunakan gaya suara dengan cara yang koheren secara muzik yang rendering teks rata tidak dapat meniru. Jika anda menghasilkan trek yang bergantung pada penyampaian vokalnya, gunakan alat yang dibina untuk tujuan itu.

TTS mendapat tempatnya dalam aliran kerja di mana jumlah, konsistensi, dan kelajuan lebih penting daripada kehangatan: lapisan aksesibiliti, suara latar yang dilokalkan pada skala, prototaip pantas naras video, dokumentasi dalaman yang dibaca kuat. Gunakannya dengan yakin untuk kes-kes tersebut. Ketahui bila tugasan memerlukan sesuatu yang tidak dapat dilakukannya.

Tabiat paling berharga yang boleh anda bangunkan dengan teks-ke-ucapan ialah tabiat semakan: tulis skrip anda, baca dengan kuat pada diri sendiri, tandakan setiap tempat di mana anda tersangkut atau berhenti secara tidak semula jadi, kemudian terjemahkan tanda-tanda itu kepada tanda baca sebelum anda menjana. Model tidak akan mengimbangi skrip yang ditulis untuk pembacaan senyap. Tetapi skrip yang diedit untuk telinga — dengan koma yang disengajakan, sebutan yang dieja, dan pembahagian logik — akan berfungsi dengan baik merentasi pelbagai suara dan enjin. Mulakan di sana, dan pilihan suara menjadi penghalusan bukan operasi penyelamatan. Cuba terus di halaman teks-ke-ucapan aisonggen dengan petikan pendek yang anda ambil berat, dan anda akan mendengar perbezaannya dalam sesi pertama.

Trek anda yang seterusnya hanya satu prom percuma jauhnya

Buka studio, taip vibe, dengar lagu siap dalam 30 saat. Percuma untuk mula, bebas royalti untuk dihantar, tiada kad kredit diperlukan.