För att kunna återge ett språks naturliga klang spelar en talare i en studio in en korpus av texter hämtade från olika områden (poesi, politiska nyheter, sportresultat, finansiell information o.s.v.) vilka innehåller alla de olika ljud som förekommer i det aktuella språket.
Inspelningarna spaltas sedan upp i mindre delar som fördelas i någon eller samtliga av följande kategorier: difoner, stavelser, morfem, ord, fraser, meningar. Dessa organiseras och sparas i en akustisk databas.
För att kunna återge ord utifrån en text börjar TTS-systemet med att göra en lingvistisk analys och en fonetisk transkription av de ortografiskt skrivna orden (d.v.s. texten).
När systemet ska läsa upp en text gör det en avancerad grammatisk och syntaktisk analys för att avgöra hur varje ord ska uttalas i den aktuella kontexten och ge rätt betydelse. Det är det som kallas prosodi: meningens rytm och betoning.
I slutet av den här kedjan producerar systemet en mängd information som associerar den fonetiska skriften med betoning och uttalslängd.
Slutligen genereras det syntetiska talet genom att de lämpligaste enheterna i ljuddatabasen väljs ut.

Skapa ljudfiler med fri användning:
Nya attraktiva prispaket på Acapela-box.com
2010-06-28
Webinar för iPhone & iPad-utvecklare:
Skapa talande appar med Acapelas TTS
2010-06-15
e-boksläsare för iPad:
med vBookz och röster från Acapela Group kan böcker äntligen tala!
2010-06-03