S radostí vám oznamuji, že OpenAI uvolnila další produkt ze své pozoruhodné dílny. Jmenuje se„Whisper“. Whisper je univerzální end-to-end slabě dohlížená rodina modelů ASR (Automatic Speech Recognition) založených na transformátorech. Řečeno prostě, převádí mluvené slovo na text. A dělá to způsobem, který označujeme jako „General-purpose“, čili kromě rozpoznání řeči může provádět také úlohy jako je detekce hlasu, identifikace jazyka, přepis a strojový překlad.
Vychází hned celá rodina modelů s různou velikostí. Od nejmenších po největší z hlediska parametrů: Tiny (39M), základní (74B), malý (244B), střední (769M) a velký (1,55B). Skvělé je, že vychází jako open source! Zájemci si mohou snadno vyzkoušet online demo a poškádlit jak model funguje v češtině (nebo ti zvědavější/šikovnější rovnou stáhnout z GitHubu). Ještě perlička na závěr. Modely mysli trénované na 77 letech mluveného proslovu staženého z netu, což je tuším nevětší podobný dataset svého druhu.
Zdroje:
– Demo na Hugging Face: https://huggingface.co/spaces/openai/whisper?fbclid=IwAR1RZI5q9KqWp9eFHRuFPXpIB1WUyOLXWt7JBDo_4KJafnkpWYVF-gbAyzs
– Open AI blog: https://openai.com/blog/whisper/?fbclid=IwAR02-8MW800lMmtVGgfynk2UTXxk41Q1-9ZhMs6W9H5vM5VY11y_QVhQHMI
– Paper: https://cdn.openai.com/papers/whisper.pdf
– GitHub: https://github.com/openai/whisper
– Colab: https://colab.research.google.com/…/LibriSpeech.ipynb
– Medium: https://towardsdatascience.com/openai-whisper-holds-the-key-to-gpt-4-a7f922a7dad9