Jak używać text-to-speech, żeby przestał brzmieć jak robot czytający zadania domowe

Większość ludzi sfrustrowanych text-to-speech jest sfrustrowana złą rzeczą. Uważają, że potrzebują lepszego modelu, innej usługi lub premium pakietu głosów. Zazwyczaj to, czego faktycznie potrzebują, to lepiej napisany skrypt i kilka konkretnych nawyków dotyczących interpunkcji, pisowni i dzielenia na fragmenty. Model rzadko jest wąskim gardłem.

Ten przewodnik nie dotyczy znalezienia idealnego głosu. Dotyczy edytowania tekstu tak, by każdy przyzwoity głos mógł go dobrze dostarczyć. Gdy zrozumiesz, że silniki TTS nie są czytelnikami — są wykonawcami podążającymi dosłownie za instrukcjami na stronie — przestaniesz pisać skrypty dla oka i zaczniesz pisać je dla ucha. Sama ta zmiana dramatycznie zmienia wyniki.

Krok 1: wybierz głos z właściwym rejestrem, a nie właściwą płcią

Pierwszą rzeczą, którą robi większość ludzi otwierając narzędzie TTS, jest filtrowanie według płci. To rozsądny start, ale rzadko jest właściwym ostatecznym kryterium. To, co ważniejsze, to rejestr: tonalny charakter głosu. Czy jest ciepły i intymny? Jasny i energiczny? Oddechowy i konwersacyjny? Płaski i autorytatywny?

Płeć jest przybliżonym wskaźnikiem rejestru i mylącym. Bajka na dobranoc dla dzieci czytana głębokim męskim barytone może czuć się niespokojnie i źle, nawet jeśli głos jest technicznie gładki. Moduł szkolenia korporacyjnego potrzebuje równego, wzbudzającego zaufanie rejestru — niekoniecznie męskiego i niekoniecznie kobiecego. Segment e-learningowy o skutkach ubocznych leków brzmi lepiej spokojnym, wyważonym tonem niż głosem skalibrowanym na energię podcastu.

Zanim wybierzesz głos na narzędziu text-to-speech aisonggen, spróbuj opisać rejestr, którego chcesz, w dwóch lub trzech przymiotnikach — ciepły, stabilny, nieco formalny — a następnie przesłuchuj głosy względem tego opisu, a nie względem demografii. Wygeneruj te same trzy zdania w czterech lub pięciu głosach i zwróć uwagę na to, który sprawia, że czujesz się tak, jak chcesz, by czuł się Twój słuchacz. To uczucie jest rejestrem. Dopasuj to.

Weź też pod uwagę skłonność tempa. Niektóre głosy mają naturalny lekki pośpiech; inne zanikają na końcach fraz. Żadne z nich nie jest absolutnie złe, ale służą różnym typom treści. Szybki i jasny działa dla wstępu do wideo promocyjnego. Wolny i stabilny działa dla narracji dostępności lub fragmentu audiobooka.

Krok 2: używaj interpunkcji dla ucha, a nie dla oka

Silnik TTS czyta interpunkcję dosłownie. Przecinek oznacza: krótka pauza tutaj. Kropka oznacza: zatrzymaj się, oddechnij, kontynuuj. Myślnik oznacza: przerywaj siebie, przestawiaj. Wielokropek oznacza: zanikaj, zostaw lukę. Żadne z nich nie jest metaforyczne. Silnik nie wnioskuje frazowania z kontekstu tak jak ludzki czytelnik — podąża za znakami na stronie.

Oznacza to, że Twój skrypt potrzebuje interpunkcji wykonującej dostarczenie audio, którego chcesz, a nie tylko gramatycznej struktury zdania. Zdanie, które jest doskonale poprawne w dokumencie, może brzmieć płasko, w pośpiechu lub dziwnie podkreślone wypowiadane na głos, ponieważ nie zawiera mikropauzy kierującej głosem.

Porównaj to samo zdanie z różną interpunkcją:

Przed: "Aktualizacja zawiera trzy nowe funkcje ulepszoną prędkość i lepszą obsługę błędów." Po: "Aktualizacja zawiera trzy nowe funkcje: ulepszoną prędkość, i lepszą obsługę błędów."

Wersja przed brzmi jak jeden niezróżnicowany bieg. Wersja po grupuje elementy i tworzy naturalne wokalne lądowanie. Żadna wersja nie jest gramatycznie poprawniejsza — ale jedna z nich brzmi jak osoba faktycznie mówiąca.

Przejrzyj swój skrypt linijka po linijce mając audio na myśli. Jeśli zdanie powinno nieść beat wagi przed ostatnim słowem, dodaj przecinek przed nim. Jeśli dwa pomysły potrzebują ostrzejszego cięcia między nimi, użyj myślnika. Jeśli chcesz, by fraza brzmiała jak przypisek, umieść ją po przecinku, a nie po spójniku. Czytaj opatrzony notatkami tekst na głos sam i potwierdź, że Twoja interpunkcja odzwierciedla to, co faktycznie powiedziałeś.

Krok 3: wypisuj wszystko, co model będzie wymawiał błędnie

Silniki TTS niezawodnie obsługują powszechne słowa. Przypadki graniczne obsługują z bardzo zmienną dokładnością w zależności od silnika i modelu językowego. Jeśli Twój skrypt zawiera skróty, nazwy marek z nietypową pisownią, słowa obcojęzyczne, liczby w mieszanych formatach lub jednostki miary, musisz z góry zdecydować, jak silnik je przeczyta i pisać odpowiednio.

Skróty to najpowszechniejsza pułapka. "API" może być przeczytane jako słowo rymujące się z "happy" zamiast trzech liter A-P-I. "SQL" będzie renderowane jako "sequel" przez niektóre silniki i "S-Q-L" przez inne. Jeśli potrzebujesz konkretnej wymowy, wypisz ją fonetycznie: "A P I" ze spacjami lub "a-pe-i" w zwykłym języku. To samo dotyczy inicjalizmów w Twojej własnej marce: jeśli nazwa Twojej organizacji jest skrótem, zdecyduj teraz, czy jest wymawiana jako litery czy jako słowo.

Liczby i waluty powodują spójne problemy. "2 tys. zł" może być renderowane jako "dwa tysięcy złotych", "dwa tysiące złotych" lub coś dziwniejszego w zależności od silnika. "5,5°C" może wychodzić jako "pięć przecinek pięć stopni C" lub "pięć przecinek pięć stopni Celsjusza" lub coś dziwniejszego. Wypisz wersję, którą chcesz usłyszeć: "dwa tysiące złotych", "pięć i pół stopnia Celsjusza".

Nazwy marek z kreatywną pisownią — pomyśl o każdej firmie technologicznej, która zastąpiła samogłoskę zerem lub ją pominęła — będą często wymawiane błędnie. Pisz te fonetycznie w swoim skrypcie do przebiegu TTS, a następnie zamień z powrotem właściwą pisownię, jeśli potrzebujesz renderowanego tekstu do innego celu. Dotyczy to również imion: imię takie jak "Siobhan" lub "Nguyen" nie przetrwa domyślnej wymowy bez fonetycznej pomocy.

Krok 4: dziel długi tekst na fragmenty

TTS aisonggen obsługuje do 5000 znaków na generowanie, co jest hojnym limitem — około 700 do 800 słów gęstej prozy lub znacznie więcej dla rzadkich skryptów. To wystarczy na kompletny wstęp do podcastu, wieloparagrafowy explainer produktu lub znaczący segment e-learningowy.

Jednak długie wejście i dobre doświadczenie słuchacza to nie to samo. Pięć tysięcy znaków nieprzerwanej narracji, renderowanej w jednym przebiegu, często ma subtelne artefakty tempa — lekka jednolitość w rytmie zdań, brak oddychania między głównymi sekcjami. Słuchacze doświadczają tego jako zmęczenia, nawet jeśli nie potrafią zidentyfikować przyczyny.

Praktyczne podejście: dziel długie skrypty na logiczne akapity lub sekcje i generuj każdy osobno. Daje Ci to kontrolę nad tym, gdzie energia się resetuje. Długi fragment audiobooka korzysta z renderowania każdego akapitu niezależnie, a następnie składania audio. Moduł szkoleniowy korzysta z renderowania każdej koncepcji jako własnego segmentu. Nic nie tracisz i zyskujesz naturalne punkty oddechu.

Krótsze fragmenty sprawiają również, że iteracja jest szybsza. Jeśli jedna sekcja brzmi źle, re-renderujesz ten akapit, a nie pełne wejście 5000 znaków. To samo w sobie oszczędza znaczący czas przy polerowaniu gotowego produktu.

Krok 5: dla dialogu użyj wieloliniowej/wielogłosowej powierzchni TTS

Dialog to najtrudniejszy przypadek użycia dla TTS i jeden z najczęściej żądanych. Rozmowa między dwiema postaciami — lub narratorem i rozmówcą — wymaga wyraźnie różnych głosów, by pozostać spójna dla słuchacza. Jeśli się mieszają, dialog się rozpada.

Niektóre powierzchnie TTS obsługują dialog wielogłosowy natywnie: przypisujesz głos każdemu mówcy, piszesz skrypt jako serię linii z etykietami mówców, a silnik renderuje każdą linię we właściwym głosie. Jeśli ta możliwość jest dla Ciebie dostępna, użyj jej. To najprostrza ścieżka do wiarygodnego audio dialogowego.

Jeśli Twoje narzędzie nie obsługuje renderowania wielogłosowego w jednym przebiegu, obejściem jest podział skryptu według mówcy, renderowanie linii każdego mówcy jako osobnego pliku audio, a następnie sklejanie segmentów razem w dowolnym podstawowym edytorze audio. Jest to bardziej pracochłonne, ale daje czyste wyniki. Ryzykiem jest tempo: generowane segmenty audio nie dzielą wewnętrznego tempa, więc będziesz musiał ręcznie dostosować ciszę między liniami, by rozmowa czuła się naturalnie.

Dla czegokolwiek poza prostym dialogiem dwuosobowym — obsady zbiorowe, postaci z silnymi indywidualnymi tożsamościami wokalnymi, emocjonalnie zmienne wymiany — tutaj TTS zaczyna napotykać swoje limity i gdzie następna sekcja staje się istotna.

Krok 6: słuchaj na głośnikach, a nie słuchawkach

Słuchawki to pochlebne środowisko odtwarzania. Dostarczają spójną odpowiedź częstotliwościową, izolują Cię od hałasu tła i umieszczają audio bezpośrednio w uszach w bliskim zasięgu. Renderowanie TTS brzmiące dobrze na słuchawkach zdało łatwy test.

Test, który ma znaczenie, jest trudny: jak to brzmi na najgorszym głośniku, z którego prawdopodobnie korzysta Twój słuchacz? To może być głośnik telefonu w hałaśliwej kuchni, system Bluetooth samochodu przy prędkości autostradowej lub głośnik laptopa w biurze open-space. Głosy TTS brzmiące naturalnie na słuchawkach mogą brzmieć nosowo, cienko lub robotycznie na małym głośniku, ponieważ częstotliwości środkowe niosące ciepło głosu nie są dostarczane w ten sam sposób.

Przed wysłaniem jakiegokolwiek audio TTS do użytku produkcyjnego — lektor do wideo produktu, wstęp do podcastu, moduł e-learningowy — odtwórz je na głośniku telefonu i na głośniku laptopa bez słuchawek. Jeśli nadal brzmi wiarygodnie w tych środowiskach, będzie działać wszędzie.

Jeśli na secondary teście brzmi cienko lub mechanicznie, zazwyczaj naprawia się: wybierz głos z pełniejszą obecnością niskiego-środkowego pasma, delikatnie dostosuj tempo mówienia wolniej (pośpieszna mowa traci jasność na małych głośnikach) i popraw interpunkcję, by dodać więcej pauzy, co pomaga zrozumiałości w hałaśliwych środowiskach.

Powszechne błędy

Pisanie dla oka i nieeding dla ucha. To, co naturalnie czyta się jako tekst, zazwyczaj wymaga poprawek przed wykonaniem jako audio.
Wybieranie pierwszego głosu bez przesłuchiwania. Domyślny głos rzadko jest najlepszym dopasowaniem — poświęć trzy minuty na generowanie tego samego testu w sześciu głosach przed zaangażowaniem się.
Pozostawianie nierozwiązanych skrótów, nazw marek i liczb. Zawsze rób przebieg wymowy przed finalnym renderem.
Przesyłanie jednego bloku 5000 znaków i zastanawianie się, dlaczego tempo jest nie tak. Dziel długie wejścia na logiczne segmenty.
Testowanie tylko na słuchawkach. Docelowy słuchacz nie nosi studyjnych słuchawek w cichym pokoju — testuj odpowiednio.

Kiedy TTS jest niewłaściwym narzędziem

Text-to-speech to niezawodny narrator. Nie jest performerem. Rozróżnienie ma znaczenie, gdy Twoje treści opierają się na emocjonalnym zaskoczeniu — głos łapiący się w środku zdania, ciepło płynące od osoby, która naprawdę dba o słowa, które mówi, mikro-timing, którego komik używa, by wylądować punchline. TTS może przybliżać wiele z tych cech, ale nie może generować autentycznego oryginału.

Dla treści, gdzie emocjonalna autentyczność jest istotą — osobista historia, hołd, toast weselny zamieniony w dźwiękową pamiątkę — nagranie ludzkie, nawet na mikrofonie telefonu w cichym pokoju, przewyższy każdy obecny system TTS. Podobnie dla wykonania wokalnego w piosence TTS to zły wybór. Generator muzyki AI w aisonggen produkuje ścieżki z prawdziwym charakterem wokalnym, a generator coverów AI stosuje styl głosu w muzycznie spójny sposób, którego płaskie renderowanie tekstu nie może replikować. Jeśli produkujesz ścieżkę, która żyje lub umiera przez wykonanie wokalne, użyj narzędzia zbudowanego w tym celu.

TTS zasługuje na swoje miejsce w przepływach pracy, gdzie wolumen, spójność i prędkość są ważniejsze niż ciepło: nakładki dostępności, zlokalizowane lektory w skali, szybkie prototypowanie narracji wideo, dokumentacja wewnętrzna czytana na głos. Używaj go pewnie w tych przypadkach. Wiedz, kiedy praca wymaga czegoś, czego nie może zrobić.

Najcenniejszym nawykiem, który możesz rozwinąć z text-to-speech, jest nawyk rewizji: napisz swój skrypt, czytaj go na głos dla siebie, zaznacz każde miejsce, gdzie się potknąłeś lub zatrzymałeś w sposób nienaturalny, a następnie przetłumacz te znaki na interpunkcję przed generowaniem. Model nie skompensuje skryptu napisanego do cichego czytania. Ale skrypt edytowany dla ucha — z przemyślanymi przecinkami, wypisanymi wymowami i logicznym dzieleniem na fragmenty — będzie dobrze wykonywany przez szeroki zakres głosów i silników. Zacznij tam, a wybór głosu staje się doprecyzowaniem, a nie ratowniczą operacją. Wypróbuj to bezpośrednio na stronie text-to-speech aisonggen z krótkim fragmentem, na którym Ci zależy, i usłyszysz różnicę w ciągu pierwszej sesji.

Jak używać text-to-speech, żeby przestał brzmieć jak robot czytający zadania domowe

Krok 1: wybierz głos z właściwym rejestrem, a nie właściwą płcią

Krok 2: używaj interpunkcji dla ucha, a nie dla oka

Krok 3: wypisuj wszystko, co model będzie wymawiał błędnie

Krok 4: dziel długi tekst na fragmenty

Krok 5: dla dialogu użyj wieloliniowej/wielogłosowej powierzchni TTS

Krok 6: słuchaj na głośnikach, a nie słuchawkach

Powszechne błędy

Kiedy TTS jest niewłaściwym narzędziem

Czytaj dalej

Jak tworzyć muzykę AI, która nie brzmi jak muzyka AI

Jak tworzyć AI covery, które nie brzmią jak remiks

Recenzja ElevenLabs — platforma głosowa, co rozwiązuje i gdzie przestaje być muzyką

Twój następny utwór jest jeden darmowy prompt dalej