För att kunna återge ett språks naturliga klang spelar en talare i en studio in en korpus av texter hämtade från olika områden (poesi, politiska nyheter, sportresultat, finansiell information o.s.v.) vilka innehåller alla de olika ljud som förekommer i det aktuella språket.
Inspelningarna spaltas sedan upp i mindre delar som fördelas i någon eller samtliga av följande kategorier: difoner, stavelser, morfem, ord, fraser, meningar. Dessa organiseras och sparas i en akustisk databas.
För att kunna återge ord utifrån en text börjar TTS-systemet med att göra en lingvistisk analys och en fonetisk transkription av de ortografiskt skrivna orden (d.v.s. texten).
När systemet ska läsa upp en text gör det en avancerad grammatisk och syntaktisk analys för att avgöra hur varje ord ska uttalas i den aktuella kontexten och ge rätt betydelse. Det är det som kallas prosodi: meningens rytm och betoning.
I slutet av den här kedjan producerar systemet en mängd information som associerar den fonetiska skriften med betoning och uttalslängd.
Slutligen genereras det syntetiska talet genom att de lämpligaste enheterna i ljuddatabasen väljs ut.

Melodifestivalen:
Acapelas röster sjunger i innovativ kampanj för Santa Maria
2012-02-02
’Word Wizard’ för iPhone & iPad:
Talande app som gör det roligt att lära sig stava
2011-12-01
Nya röster:
Mia och Kal omvandlar texter till tal på svenska dialekter
2011-11-22