Nový výzkum nám představuje AI převádějící text na řeč (TTS). Algoritmus je tradičně založený na neuronové síti. Při podrobnějším pohledu se skládá ze 3 hlavních komponent:
1) Speaker encoder network (naučený od tisíce řečníků – odtud zná systém jak zní lidský hlas.
2) Dále následuje síť pro syntézu sekvencí založená na Tacotronu 2, která generuje spektrogram z textu.
3) Jako poslední část slouží auto-regresivní vokodér založený na WaveNet, který převádí spektrum na sekvenci vzorků.
Více informací v odkazech.
Ukázka a základní vysvětlení: