רוב האנשים שמתוסכלים מ-text-to-speech מתוסכלים מהדבר הלא-נכון. הם חושבים שצריך מודל טוב יותר, שירות שונה, או חבילת קול פרמיום. בדרך כלל מה שהם באמת צריכים הוא סקריפט כתוב טוב יותר וכמה הרגלים ספציפיים לגבי פיסוק, איות ופיצול. המודל לעיתים רחוקות הוא צוואר הבקבוק.
מדריך זה אינו על מציאת הקול המושלם. הוא על עריכת הטקסט שלכם כך שכל קול הגון יוכל להגיש אותו טוב. ברגע שמבינים שמנועי TTS אינם קוראים — הם מבצעים שמצייתים להוראות המילוליות על הדף — מפסיקים לכתוב סקריפטים לעין ומתחילים לכתוב אותם לאוזן. שינוי זה לבדו משנה את התוצאות באופן דרמטי.
שלב 1: בחרו קול עם הרגיסטר הנכון, לא עם המין הנכון
הדבר הראשון שרוב האנשים עושים כשפותחים כלי TTS הוא לסנן לפי מין. זה התחלה סבירה, אבל לעיתים נדירות הוא הקריטריון הסופי הנכון. מה שחשוב יותר הוא רגיסטר: האופי הגוני של הקול. האם הוא חמים ואינטימי? בהיר ואנרגטי? נשימתי ושיחותי? שטוח וסמכותי?
מין הוא ייצוג גס לרגיסטר, ומטעה. סיפור שינה לילדים שנקרא בבריטון עמוק של גבר יכול להרגיש חרד ולא-נכון גם אם הקול טכנית חלק. מודול הכשרה תאגידי צריך רגיסטר שווה, מסמן-אמון — לא בהכרח גברי, ולא בהכרח נשי. קטע e-learning על תופעות לוואי של תרופות נשמע טוב יותר בטון שקט ומדוד מאשר בקול מכויל לאנרגיית פודקאסט.
לפני שבוחרים קול בכלי text-to-speech של aisonggen, נסו לתאר את הרגיסטר שרוצים בשניים או שלושה תארים — חם, קבוע, קצת פורמלי — ואז אדיציין קולות לפי תיאור זה ולא לפי דמוגרפיה. ייצרו את אותן שלוש משפטים בארבעה או חמישה קולות ושימו לב לאיזה גורם לכם להרגיש את הדרך שרוצים שהמאזין שלכם ירגיש. זו התחושה הרגיסטרית. התאימו אליה.
שקלו גם הטיית קצב. לחלק מהקולות יש מהירות טבעית מעט; אחרים יורדים בסוף ביטויים. אף אחד לא שגוי במונחים מוחלטים, אבל הם משרתים סוגי תוכן שונים. מהיר ובהיר עובד לאינטרו של סרטון פרסומי. איטי וקבוע עובד לסיפור נגישות או לקטע ספר אודיו.
שלב 2: פסקו לאוזן, לא לעין
מנוע TTS קורא פיסוק מילולית. פסיק אומר: עצרו לרגע כאן. נקודה אומרת: עצרו, נשמו, המשיכו. קו מקף אם אומר: הפסיקו את עצמכם, צבטו. שלוש נקודות אומרות: דעכו, השאירו פער. אף אחד מהדברים האלה אינו מטפורי. המנוע לא מסיק פרזינג מהקשר כפי שקורא אנושי עושה — הוא עוקב אחר הסימנים על הדף.
כלומר, הסקריפט שלכם צריך פיסוק שמבצע את מסירת האודיו שרוצים, לא רק את המבנה הדקדוקי של המשפט. משפט שנכון לגמרי במסמך עשוי לנחות שטוח, ממהר, או עם דגש מוזר כשנאמר בקול רם כי הוא לא מכיל את ה-micro-pauses המנחים את הקול.
השוו את אותו משפט עם פיסוק שונה:
לפני: "העדכון כולל שלוש תכונות חדשות מהירות משופרות וטיפול טוב יותר בשגיאות." אחרי: "העדכון כולל שלוש תכונות חדשות: מהירות משופרות, וטיפול טוב יותר בשגיאות."
הגרסה הלפני נשמעת כריצה לא-מוגדרת אחת. הגרסה האחרי מקבצת את הפריטים ויוצרת נחיתה ווקאלית טבעית. אף גרסה אינה נכונה יותר דקדוקית — אבל אחת מהן נשמעת כמו אדם שמדבר בפועל.
עברו על הסקריפט שלכם שורה-אחר-שורה עם אוזן לאודיו. אם משפט צריך לשאת קצת משקל לפני המילה הסופית, הוסיפו פסיק לפניו. אם שני רעיונות צריכים חיתוך חד ביניהם, השתמשו בקו מקף אם. אם אתם רוצים שביטוי ירגיש כמו מחשבה אחרי, שימו אותו אחרי פסיק ולא מלה-מחברת. קראו את הטקסט המסומן בקול רם בעצמכם ואשרו שהפיסוק משקף את מה שאמרתם בפועל.
שלב 3: בייצו כל דבר שהמודל יבטא לא-נכון
מנועי TTS מטפלים במילים נפוצות בצורה אמינה. הם מטפלים במקרי קצה עם דיוק שמשתנה מאוד בהתאם למנוע ומודל השפה. אם הסקריפט שלכם מכיל ראשי תיבות, שמות מותגים עם איות יוצא דופן, מילים זרות, מספרים בפורמטים מעורבים, או יחידות מידה, אתם צריכים להחליט מראש כיצד המנוע יקרא אותם ולכתוב בהתאם.
ראשי תיבות הם המלכודת הנפוצה ביותר. "API" עשוי להיקרא כמילה שחורזת עם "מאושר" במקום שלוש האותיות A-P-I. "SQL" ירונדר כ"sequel" על ידי כמה מנועים וכ"S-Q-L" על ידי אחרים. אם אתם צריכים הגייה ספציפית אחת, כתבו אותה פונטית: "A P I" עם רווחים, או "אי פי איי" באנגלית פשוטה. אותו דבר חל על ראשי תיבות במותג שלכם: אם שם הארגון שלכם הוא ראשי תיבות, החליטו עכשיו אם הוא נאמר כאותיות או כמילה.
מספרים ומטבעות גורמים לבעיות עקביות. "$2k" עשוי להרונדר כ"שניים K," "שניים אלף," או "דולר שניים K" בהתאם למנוע. "5.5°C" עשוי לצאת כ"חמש נקודה חמש מעלות C" או "חמש נקודה חמש צלזיוס" או משהו יותר מוזר. כתבו את הגרסה שרוצים לשמוע: "שניים אלף דולר," "חמש נקודה חמש מעלות צלזיוס."
שמות מותגים עם איות יצירתי — חשבו על כל חברת טק שהחליפה תנועה באפס או הפיל תנועה לגמרי — לעיתים קרובות יבוטאו לא-נכון. בייצו אלה פונטית בסקריפט שלכם לצורך מעבר ה-TTS, ואז החליפו בחזרה את האיות הנכון אם אתם צריכים את הטקסט המרונדר למטרה אחרת. זה חל גם על שמות אנשים: שם כמו "שיובהאן" או "נגויין" לא ישרוד הגייה ברירת מחדל ללא עזרה פונטית.
שלב 4: חתכו טקסט ארוך
ה-TTS של aisonggen תומך בעד 5000 תווים לכל גנרציה, שהיא מגבלה נדיבה — בערך 700 עד 800 מילים של פרוזה צפופה, או הרבה יותר לסקריפטים דלילים. זה מספיק לאינטרו פודקאסט שלם, הסבר מוצר בכמה פסקאות, או קטע e-learning מהותי.
עם זאת, קלט ארוך וחוויית מאזין טובה אינם אותו דבר. חמישת-אלפים תווים של סיפור רצוף, שרונדר במעבר יחיד, לעיתים קרובות יש לו ארטיפקטים עדינים של קצב — אחידות קלה בריתם המשפטים, כשל לנשום בין חלקים עיקריים. מאזינים חווים זאת כעייפות גם אם אינם מזהים את הסיבה.
הגישה המעשית: חתכו סקריפטים ארוכים לפסקאות או חלקים לוגיים וייצרו כל אחד בנפרד. זה נותן לכם שליטה על מקום שאנרגיה מאתחלת. קטע אודיו-ספר ארוך נהנה מרנדור כל פסקה באופן עצמאי ואז הרכבת האודיו. מודול הכשרה נהנה מרנדור כל מושג כקטע משלו. אינכם מפסידים כלום וצוברים נקודות נשימה טבעיות.
חיתוכים קצרים גם הופכים את האיטרציה למהירה יותר. אם חלק אחד נשמע לא-נכון, מרנדרים מחדש את הפסקה ולא את כל 5000 התווים. זה לבדו חוסך זמן משמעותי כשמלטשים מוצר גמור.
שלב 5: לדיאלוג, השתמשו במשטח TTS רב-שורות / רב-קולות
דיאלוג הוא מקרה השימוש הקשה ביותר ל-TTS וגם אחד המבוקשים ביותר. שיחה בין שני דמויות — או מספר ומרואיין — דורשת קולות ברורים שונים על מנת להישאר קוהרנטית למאזין. אם הם מתמזגים, הדיאלוג מתמוטט.
כמה משטחי TTS תומכים בדיאלוג רב-קולות בצורה ילידית: מקצים קול לכל דובר, כותבים את הסקריפט כסדרה של שורות עם תוויות דובר, והמנוע מרנדר כל שורה בקול הנכון. אם יכולת זו זמינה לכם, השתמשו בה. זהו הנתיב הפשוט ביותר לאודיו דיאלוג אמין.
אם הכלי שלכם לא תומך ברנדור רב-קולות במעבר יחיד, הפתרון העוקף הוא לחלק את הסקריפט לפי דובר, לרנדר את שורות כל דובר כקובץ אודיו נפרד, ואז לתפור את הקטעים יחד בעורך אודיו בסיסי. זה אינטנסיבי יותר בעבודה אבל מייצר תוצאות נקיות. הסיכון הוא קצב: קטעי אודיו שנוצרו לא חולקים טמפו פנימי, כך שיהיה עליכם לכוונן את השתיקה בין שורות ידנית כדי לגרום לשיחה להרגיש אמיתית.
לכל דבר מעבר לדיאלוג פשוט דו-צדדי — הרכבי שחקנים, דמויות עם זהויות קוליות אינדיבידואליות חזקות, חילופים רגשיים תנודתיים — כאן TTS מתחיל לפגוש את מגבלותיו ומקום שבו החלק הבא רלוונטי.
שלב 6: האזינו בצגים, לא באוזניות
אוזניות הן סביבת השמעה מחמיאה. הן מספקות תגובת תדר עקבית, מבודדות אתכם מרעש סביבה, ושמות את האודיו ישירות באוזניים שלכם במרחק קרוב. רנדור TTS שנשמע טוב באוזניות עבר בדיקה קלה.
הבדיקה שחשובה היא הקשה: איך זה נשמע ברמקול הגרוע ביותר שהמאזין שלכם ישתמש בו? אולי זה רמקול טלפון במטבח רועש, מערכת Bluetooth של מכונית במהירות כביש מהיר, או רמקול מחשב נייד במשרד פתוח-מרחב. קולות TTS שנשמעים טבעיים באוזניות יכולים להישמע חוטמיים, דקיקים, או רובוטיים על צג קטן כי תדרי mid-range שנושאים חמימות הקול אינם מגושמים באותו אופן.
לפני שמשלחים כל אודיו TTS לשימוש ייצורי — voice-over לסרטון מוצר, אינטרו פודקאסט, מודול e-learning — נגנו אותו ברמקול טלפון ורמקול מחשב נייד ללא אוזניות. אם הוא עדיין נשמע אמין בסביבות אלה, הוא יעבוד בכל מקום.
אם הוא נשמע דקיק או מכני בבדיקה המשנית, התיקונים הרגילים הם: בחרו קול עם נוכחות low-midrange עשירה יותר, כווננו קצב הדיבור לאיטי מעט (דיבור ממהר מאבד בהירות על צגים קטנים), ותקנו פיסוק כדי להוסיף יותר הפסקה, שעוזרת להבנה בסביבות רועשות.
טעויות נפוצות
- כתיבה לעין ואי-עריכה לאוזן. מה שנקרא בצורה טבעית כטקסט בדרך כלל צריך תיקון לפני שהוא מבצע כאודיו.
- בחירת הקול הראשון בלי לאדיציין. קול ברירת המחדל לעיתים רחוקות ההתאמה הטובה ביותר — בלו שלוש דקות בייצור אותם שלושה משפטי בדיקה בשישה קולות לפני שמתחייבים.
- השארת ראשי תיבות, שמות מותגים, ומספרים לא-מסודרים. תמיד עשו מעבר הגייה לפני הרנדור הסופי.
- הגשת בלוק אחד של 5000 תווים ותהייה למה הקצב מרגיש לא-נכון. חתכו קלטים ארוכים לקטעים לוגיים.
- בדיקה באוזניות בלבד. המאזין-יעד אינו לובש אוזניות סטודיו בחדר שקט — בדקו בהתאם.
כשTTS הוא הכלי הלא-נכון
Text-to-speech הוא מספר אמין. הוא אינו מבצע. ההבחנה חשובה כשהתוכן שלכם מסתמך על הפתעה רגשית — הקול תופס את עצמו באמצע משפט, החמימות שמגיעה מאדם שאכפת לו באמת מהמילים שהם אומרים, ה-micro-timing שקומיקאי משתמש בו לנחות punchline. TTS יכול לקרב לרבים מהאיכויות האלה, אבל הוא לא יכול לייצר את המאמר האמיתי.
לתוכן שבו אותנטיות רגשית היא הנקודה — סיפור אישי, מחווה, נאום חתונה שהפך לשמר-קול — הקלטה אנושית, גם על מיקרופון טלפון בחדר שקט, תעלה על כל מערכת TTS נוכחית. כמו כן, לביצוע הווקאלי בשיר, TTS היא הבחירה הלא-נכונה. גנרטור המוזיקה עם ה-AI ב-aisonggen מייצר טראקים עם אופי ווקאלי אמיתי, וגנרטור הקאברים עם ה-AI מיישם סגנון קול בצורה מוזיקלית קוהרנטית שרנדור טקסט שטוח לא יכול לשכפל. אם אתם מייצרים טראק שחי או מת על ידי מסירת הווקאל שלו, השתמשו בכלי שנבנה לכך.
TTS מרוויח את מקומו בתהליכי עבודה שבהם נפח, עקביות ומהירות חשובים יותר מחמימות: שכבות-על של נגישות, voice-over מלוקל בסדר גודל, אב-טיפוס מהיר של סיפור וידאו, תיעוד פנימי לקריאה-בקול. השתמשו בו בביטחון לאותם מקרים. דעו מתי העבודה דורשת משהו שהוא לא יכול לעשות.
ההרגל היחיד הכי בעל-ערך שניתן לפתח עם text-to-speech הוא הרגל-התיקון: כתבו את הסקריפט, קראו אותו בקול רם לעצמכם, סמנו כל מקום שנתקלתם בו או עצרתם בצורה לא-טבעית, ואז תרגמו את הסימנים האלה לפיסוק לפני שמייצרים. המודל לא יפצה על סקריפט שנכתב לקריאה שקטה. אבל סקריפט שנערך לאוזן — עם פסיקים מכוונים, הגיות-מבוייצות, ופיצול לוגי — יבצע טוב על מגוון רחב של קולות ומנועים. התחילו שם, ובחירת הקול הופכת לעידון ולא לפעולת הצלה. נסו זאת ישירות בדף text-to-speech של aisonggen עם קטע קצר שאכפת לכם ממנו, ותשמעו את ההבדל בתוך הסשן הראשון.