Našel jsem vzorek asi 7000 vět, které jsou v obou jazycích. Řeknu mu, aby si je 100x prošel a snažil se slova pochopit. Ulehčím mu to a dát mu k dispozici slovník česko-český s 2.000.000 slovy z wikipedie (word embedding 300d).
Vytvořím model a spouštím trénink. Desktop dává najevo, že se hýbe – ozývá se větráček. Teplota na GPU roste z 36 na 40, 50, 52 stupňů celsia. Můj počítačový atlet je slyšet, ale jede jen z 33% svého maxima. Rozcvička. Naučit se anglicky je pro něj přece jen spíš rozcvička.
Spočítám si, že naučit se celý dataset a projít ho 100x mu bude trvat zhruba čtvrt hodiny. Během toho mi dochází, že by asi mnohem víc uvítal anglicko-anglický slovník, když překládá z angličtiny. Pozdě, už si to prošel 77x. I tak se to mrška naučil trénovací data s 99% přesností a na testovacích skládá zkoušku se stále skvělým výsledkem 68% dobře. Páni! Takovou hlavu na jazyky bych chtěl mít. Testuju ho pár příkladech – viz obrázek. První věty nic moc, ale pak se rozjel! Na to že se učí angličtinu 15 minut, dost slušné.
Zkusím mu dát ještě k ruce ten anglicko-anglický slovník se 100 rozměry. Výsledek? Přesnost na testovacích datech je asi 1% lepší. 3500 anglických a 9500 českých tvarů slov zvládá obstojně. Co říkáte?
