Kuinka käyttää puhesynteesiä niin, että se lakkaa kuulostamasta robotilta, joka lukee läksyjä

Useimmat puhesynteesiin turhautuneet ihmiset ovat turhautuneita väärästä asiasta. He luulevat tarvitsevansa paremman mallin, eri palvelun tai premium-äänipaketin. Yleensä mitä he todella tarvitsevat on paremmin kirjoitettu käsikirjoitus ja muutama tietty tapa välimerkkien, oikeinkirjoituksen ja kappaleen osittamisen suhteen. Malli on harvoin se pullonkaula.

Tämä opas ei käsittele täydellisen äänen löytämistä. Se koskee tekstisi muokkaamista niin, että mikä tahansa kunnollinen ääni voi toimittaa sen hyvin. Kun ymmärrät, että TTS-moottorit eivät ole lukijoita — ne ovat esiintyjiä, jotka noudattavat sivulla olevia kirjaimellisia ohjeita — lopetat käsikirjoitusten kirjoittamisen silmälle ja alat kirjoittaa ne korvalle. Tuo muutos yksin muuttaa tuloksia dramaattisesti.

Vaihe 1: valitse ääni oikealla rekisterillä, ei oikealla sukupuolella

Ensimmäinen asia, jonka useimmat ihmiset tekevät avetessaan TTS-työkalun, on suodattaa sukupuolen mukaan. Se on kohtuullinen lähtökohta, mutta se on harvoin oikea lopullinen kriteeri. Tärkeämpää on rekisteri: äänen sävyllinen luonne. Onko se lämmin ja intiimi? Kirkas ja energinen? Hengittävä ja keskustelunomainen? Tasainen ja auktoritatiivinen?

Sukupuoli on karkea rekisterin välittäjä ja harhaanjohtava sellainen. Lasten iltainen satu luettuna syvässä miehen baritoni-äänessä voi tuntua ahdistuneelta ja väärältä, vaikka ääni olisi teknisesti sujuva. Yrityskoulutusmoduuli tarvitsee tasaisen, luottamusta viestivän rekisterin — ei välttämättä maskuliinista eikä välttämättä feminiinistäkään. Lääkkeiden sivuvaikutuksia käsittelevä e-oppimisjakso kuulostaa paremmalta rauhallisessa, mitatussa sävyssä kuin äänessä, joka on kalibroitu podcast-energiaan.

Ennen kuin valitset äänen aisonggenin puhesynteesityökalussa, yritä kuvailla haluamasi rekisteri kahdella tai kolmella adjektiivilla — lämmin, vakaa, hieman muodollinen — ja sitten kuuntele ääniä tuon kuvauksen mukaan demografisen sijaan. Generoi samat kolme lausetta neljässä tai viidessä äänessä ja kiinnitä huomiota siihen, kumpi saa sinut tuntemaan sen tavan, jolla haluat kuulijasi tuntevan. Tuo tunne on rekisteri. Sovita se.

Harkitse myös tempoa. Joillakin äänillä on luonnollinen pieni kiire; toiset häipyvät lauseiden lopussa. Kumpikaan ei ole väärässä absoluuttisessa mielessä, mutta ne palvelevat eri sisältötyyppejä. Nopea ja kirkas toimii mainosvideointron, hidasta ja vakaata toimii saavutettavuuslukemiseen tai äänikirjakatkelmaan.

Vaihe 2: laita välimerkit korvalle, ei silmälle

TTS-moottori lukee välimerkit kirjaimellisesti. Pilkku tarkoittaa: tee lyhyt tauko tässä. Piste tarkoittaa: pysähdy, hengitä, jatka. Em-viiva tarkoittaa: keskeytä itsesi, käänny. Ellipsi tarkoittaa: häivy, jätä väli. Mikään tästä ei ole vertauskuvallista. Moottori ei päättele lauseita kontekstista kuten ihmislukija tekee — se noudattaa sivulla olevia merkkejä.

Tämä tarkoittaa, että käsikirjoituksessasi tarvitaan välimerkkejä, jotka suorittavat haluamasi äänin toimituksen, ei vain lauseen kieliopillista rakennetta. Asiakirjassa täydellisesti oikea lause saattaa kuulostaa tasaiselta, kiireelliseltä tai oudosti korostuneelta ääneen lausuttuna, koska se ei sisällä mikropysähdyksiä, jotka ohjaisivat ääntä.

Vertaa samaa lausetta eri välimerkeillä:

Ennen: "Päivitys sisältää kolme uutta ominaisuutta parannetun nopeuden ja paremman virheenkäsittelyn." Jälkeen: "Päivitys sisältää kolme uutta ominaisuutta: parannetun nopeuden, ja paremman virheenkäsittelyn."

Ensimmäinen versio kuulostaa yhdeltä erittelemättömältä vyöryltä. Jälkimmäinen ryhmittelee kohdat ja luo luonnollisen vokaalisenvälin. Kumpikaan versio ei ole kieliopillisesti oikeampi — mutta toinen niistä kuulostaa kuin todellinen ihminen puhuu.

Käy käsikirjoituksesi läpi rivi riviltä ääni mielessä. Jos lauseen pitäisi kantaa painonhetki ennen viimeistä sanaa, lisää pilkku ennen sitä. Jos kahden idean välissä tarvitaan terävämpi leikkaus, käytä em-viivaa. Jos haluat lauseen tuntua sivuhuomiona, pudota se pilkun jälkeen eikä konjunktion jälkeen. Lue merkitty teksti ääneen itse ja vahvista, että välimerkkisi heijastaa mitä todella sanoit.

Vaihe 3: kirjoita kaikki se, mitä malli lausuu väärin

TTS-moottorit käsittelevät yleisiä sanoja luotettavasti. Ne käsittelevät reunatapauksia villisti vaihtelevalla tarkkuudella riippuen moottorista ja kielimallista. Jos käsikirjoituksessasi on akronyymejä, epätavallisella oikeinkirjoituksella olevia tuotenimiä, vieraita sanoja, sekavissa muodoissa olevia lukuja tai mittayksiköitä, sinun on päätettävä etukäteen, miten moottori lukee ne, ja kirjoittaa sen mukaisesti.

Akronyymit ovat yleisin ansa. "API" saattaa lukeutua sanaksi, joka rimmaa "happy" kanssa, sen sijaan kuin kolme kirjainta A-P-I. "SQL" renderöidään "sequel" joillakin moottoreilla ja "S-Q-L" toisilla. Jos tarvitset yhden tietyn ääntämisen, kirjoita se foneettisenä: "A P I" välilyönneillä, tai "ay pee eye" tavallisella englannilla. Sama koskee omassa brändissäsi olevia initialismeja: jos organisaatiosi nimi on akronyymi, päätä nyt lausutaanko se kirjaimina vai sanana.

Luvut ja valuutat aiheuttavat johdonmukaisia ongelmia. "$2k" saattaa renderöidä "kaksi K", "kaksituhatta" tai "dollari kaksi K" moottorista riippuen. "5,5°C" saattaa tulla ulos "viisi pilkku viisi astetta C" tai "viisi pilkku viisi Celsius" tai jotain outoa. Kirjoita haluamasi versio: "kaksituhatta dollaria", "viisi pilkku viisi astetta Celsius".

Tuotenimet, joissa on luova oikeinkirjoitus — ajattele mitä tahansa teknologiayritystä, joka korvasi vokaalia nollalla tai jätti vokaalin kokonaan pois — lausutaan usein väärin. Kirjoita nämä foneettisenä käsikirjoituksessasi TTS-passia varten, sitten vaihda oikea oikeinkirjoitus takaisin, jos tarvitset renderöityä tekstiä muuhun tarkoitukseen. Tämä koskee myös ihmisten nimiä: nimi kuten "Siobhan" tai "Nguyen" ei selviä oletusääntämisestä ilman foneettista apua.

Vaihe 4: jaa pitkä teksti osiin

aisonggenin TTS tukee jopa 5 000 merkkiä per generointi, mikä on antelias raja — noin 700–800 sanaa tiheää proosaa tai huomattavasti enemmän harvoilla käsikirjoituksilla. Se riittää täydelliseen podcast-introon, monikappalaiseen tuote-selittäjään tai merkittävään e-oppimissegmenttiin.

Pitkä syöte ja hyvä kuuntelukokemus eivät kuitenkaan ole sama asia. Viisituhatta merkkiä katkeamatonta kerrontaa renderöitynä yhdellä passilla saa usein hienovaraisia tempoartefakteja — lievä tasaisuus lauseen rytmissä, epäkyky hengittää pääosioiden välillä. Kuuntelijat kokevat tämän väsymyksenä, vaikka eivät pystyisi tunnistamaan syytä.

Käytännöllinen lähestymistapa: jaa pitkät käsikirjoitukset loogisiin kappaleisiin tai osioihin ja generoi kukin erikseen. Tämä antaa sinulle hallinnan siitä, missä energia nollautuu. Pitkämuotoinen äänikirjakatkelma hyötyy kunkin kappaleen renderöinnistä itsenäisesti ja sitten äänen kokoamisesta. Koulutusmoduuli hyötyy kunkin käsitteen renderöinnistä omana segmenttinään. Et menetä mitään ja saat luonnolliset hengityskohdat.

Lyhyemmät osat tekevät myös iteraatiosta nopeampaa. Jos yksi osio kuulostaa väärältä, renderöit uudelleen sen kappaleen pikemmin kuin koko 5 000 merkin syötteen. Tämä yksin säästää merkittävästi aikaa, kun hiot valmista tuotetta.

Vaihe 5: dialogia varten käytä monirivi/moniääni TTS-pintaa

Dialogi on vaikein TTS-käyttötapaus ja myös yksi eniten pyydetyistä. Kahden hahmon välinen keskustelu — tai kertojan ja haastateltavan — vaatii selvästi erilaisia ääniä pysyäkseen koherenttina kuuntelijalle. Jos ne sekoittuvat, dialogi hajoaa.

Jotkut TTS-pinnat tukevat moniäänistä dialogia natiivisti: määrität äänen kullekin puhujalle, kirjoitat käsikirjoituksen puhujatunnisteilla varustettuina riveinä, ja moottori renderöi kunkin rivin oikeassa äänessä. Jos tuo kyky on saatavissasi, käytä sitä. Se on yksinkertaisin polku uskottavaan dialogiääneen.

Jos työkalusi ei tue moniäänistä renderöintiä yhdessä passissa, kiertotie on jakaa käsikirjoitus puhujan mukaan, renderöidä kunkin puhujan rivit erillisinä äänitiedostoina ja sitten koota segmentit yhteen missä tahansa perus-ääniohjaimessa. Tämä on työläämpää mutta tuottaa puhtaita tuloksia. Riski on tempo: generoitu äänisegmentit eivät jaa sisäistä tahtia, joten sinun on säädettävä rivien välistä hiljaisuutta manuaalisesti, jotta keskustelu tuntuu todelliselta.

Yksinkertaisen kahden henkilön dialogin ulkopuolella — ensemble-ryhmät, hahmot, joilla on vahva yksilöllinen äänellinen identiteetti, tunnevoimakkaat vaihdot — tässä TTS alkaa osua rajoihinsa ja seuraava osio muuttuu relevanttiksi.

Vaihe 6: kuuntele kaiuttimilla, ei kuulokkeilla

Kuulokkeet ovat mairitteleva toistamisympäristö. Ne toimittavat johdonmukaisen taajuusvasteen, eristävät sinut taustamelusta ja asettavat äänen suoraan korvillesi lähietäisyydeltä. TTS-renderöinti, joka kuulostaa hyvältä kuulokkeilla, on läpäissyt helpon testin.

Testi, joka merkitsee, on vaikea: miltä tämä kuulostaa huonoimmalla kaiuttimella, jota kuuntelijasi todennäköisesti käyttää? Se saattaa olla puhelinkaiutin meluisassa keittiössä, auton Bluetooth-järjestelmä maantiellä tai kannettavan tietokoneen kaiutin avoimessa toimistossa. TTS-äänet, jotka kuulostavat luontevilta kuulokkeilla, voivat kuulostaa nenäkkäältä, ohuelta tai robottimaiselta pienellä kaiuttimella, koska taajuudet, jotka kantavat äänen lämpöä, eivät toimiteta samalla tavalla.

Ennen kuin toimitat TTS-ääntä tuotantokäyttöön — tuotevideoin voice-overin, podcast-intron, e-oppimismoduulin — toista se puhelinkaiuttimella ja kannettavan tietokoneen kaiuttimella ilman kuulokkeita. Jos se kuulostaa silti uskottavalta noissa ympäristöissä, se toimii kaikkialla.

Jos se kuulostaa ohuelta tai mekaaniselta toisessa testissä, tavalliset korjaukset ovat: valitse ääni, jossa on täydempi matalan keski-alue, säädä puhenopeus hieman hitaammaksi (kiireinen puhe menettää selkeyden pienillä kaiuttimilla), ja tarkista välimerkit lisätäksesi enemmän taukoa, mikä parantaa ymmärrettävyyttä meluisissa ympäristöissä.

Yleisiä virheitä

Kirjoitetaan silmälle eikä muokata korvalle. Se, mikä luetaan luonnollisesti tekstinä, vaatii yleensä muokkausta ennen kuin se toimii äänessä.
Valitaan ensimmäinen ääni ilman kuuntelua. Oletusääni on harvoin paras — käytä kolme minuuttia generoimalla sama testilause kuudessa äänessä ennen sitoutumista.
Jätetään akronyymit, tuotenimet ja numerot ratkaisematta. Tee aina ääntämispassi ennen lopullista renderöintiä.
Lähetetään yksi 5 000 merkin lohko ja ihmetellään, miksi tempo tuntuu väärältä. Jaa pitkät syötteet loogisiin segmentteihin.
Testataan vain kuulokkeilla. Kohdekuuntelija ei käytä studiokuulokkeita hiljaisessa huoneessa — testaa sen mukaisesti.

Milloin TTS on väärä työkalu

Puhesynteesi on luotettava kertoja. Se ei ole esiintyjä. Ero on tärkeä, kun sisältösi perustuu emotionaaliseen yllätykseen — ääni, joka pyydystää itsensä lauseen puolivälissä, lämpö, joka tulee henkilöltä, joka todella välittää sanoistaan, mikrötoiminta, jota komikko käyttää punch linen laskeutumiseen. TTS voi jäljitellä monia näistä ominaisuuksista, mutta se ei voi tuottaa alkuperäistä.

Sisällölle, jossa emotionaalinen autenttisuus on keskeistä — henkilökohtainen tarina, kunnianosoitus, häistä äänimerkistöksi muutettu häätosti — ihmisäänitys, jopa puhelimen mikrofonilla hiljaisessa huoneessa, ylittää minkä tahansa nykyisen TTS-järjestelmän. Vastaavasti kappaleen vokaalisuoritukselle TTS on väärä valinta. aisonggenin tekoälymusiikkigeneraattori tuottaa raitoja todellisella vokaaliluonteella, ja tekoälycoverin generaattori soveltaa äänityyliä musiikillisesti koherentilla tavalla, johon tasainen tekstirenderöinti ei pysty. Jos tuotat raidan, joka elää tai kuolee vokaalitoimituksensa vuoksi, käytä siihen tarkoitukseen rakennettua työkalua.

TTS ansaitsee paikkansa työnkuluissa, joissa volyymi, johdonmukaisuus ja nopeus merkitsevät enemmän kuin lämpö: saavutettavuuspäällysteet, lokalisoitu voice-over laajamittaisesti, videonarraation nopea prototyyppi, sisäinen dokumentaatio luetaan ääneen. Käytä sitä luottavaisesti näissä tapauksissa. Tiedä milloin työ vaatii jotain, jota se ei pysty tekemään.

Arvokkain tapa, jonka voit kehittää puhesynteesillä, on tarkistustapa: kirjoita käsikirjoituksesi, lue se itsellesi ääneen, merkitse jokainen kohta, jossa kompastuit tai pausit epäluonnollisesti, ja muunna sitten nuo merkit välimerkeiksi ennen generointia. Malli ei korvaa käsikirjoitusta, joka on kirjoitettu hiljaiselle lukemiselle. Mutta käsikirjoitus, joka on muokattu korvalle — tarkoitetuilla pilkuilla, kirjoitetuilla ääntämisillä ja loogisella osittamisella — suoriutuu hyvin laajalla äänten ja moottorien valikoimalla. Aloita sieltä, ja äänen valinta muuttuu tarkistukseksi eikä pelastusoperaatioksi. Kokeile sitä suoraan aisonggenin puhesynteesisivulla lyhyellä katkelmalla, josta välität, ja kuulet eron ensimmäisessä istunnossa.

Kuinka käyttää puhesynteesiä niin, että se lakkaa kuulostamasta robotilta, joka lukee läksyjä

Vaihe 1: valitse ääni oikealla rekisterillä, ei oikealla sukupuolella

Vaihe 2: laita välimerkit korvalle, ei silmälle

Vaihe 3: kirjoita kaikki se, mitä malli lausuu väärin

Vaihe 4: jaa pitkä teksti osiin

Vaihe 5: dialogia varten käytä monirivi/moniääni TTS-pintaa

Vaihe 6: kuuntele kaiuttimilla, ei kuulokkeilla

Yleisiä virheitä

Milloin TTS on väärä työkalu

Jatka lukemista

Kuinka tehdä tekoälymusiikkia, joka ei kuulosta tekoälymusiikkilta

Kuinka tehdä tekoälycoverversioita, jotka eivät kuulosta pelkältä remixiltä

ElevenLabs-arvostelu — äänialusta, mitä se ratkaisee ja missä se lakkaa olemasta musiikkia

Seuraava kappaleesi on yhden ilmaisen kehotteen päässä