Máme tu nový model co je mimořádně univerzální – GATO. Tento transformátor na RL multimodální multi úkolové posilované učení od Deepmindů. Jediný model co může hrát hry Atari, popisovat obrázky, chatovat s lidmi, ovládat reálnou robotickou ruku a řešit další úlohy! Tento transformátor/agent překvapí svou univerzálností.
V dubnu jsem psal o úžasném generátoru obrázků DALLE-2. Nyní přichází jeho konkurence ze společnosti Imagen od Google. Ono tedy těch konkurencí vychází trochu více.
Právě si dělám jedno ze školení na transformátory od Lazy Programmer (vyšel minulý měsíc), kde začínají klasicky tím, jak glorifikují transformátory nad RNN klasicky jako všude (už po stopadesáte „vykradený“ paper Attention Is All You Need). RNN jsou údajně mnohem horší než transformátory neboť nemají pozornost a není možné je počítat paralelně. Nyní se však objevuje nezávislý výzkumník BlinkDL, který tvrdí, že jeho RNN kombinují to nejlepší z RNN i transformátoru – skvělý výkon, rychlý trénink, šetřím VRAM atd.
Proběhla zajímavá diskuse na redditu o tom jak můžeme věřit paperům z velkých laboratoří. Autor argumentuje, že v současné době budou zkušení inženýři často jen hledat cesty jak vymáčknout každé promile výkonu, aby vypadaly výsledky v papers hezky, než že by přicházeli s převratnými metodami. Demonstruje to jak na datasetu CIFAR-10 získali přesnost 99.43 (proti předchozí 99.40). Použili k tomu docela zajímavé evoluční algoritmy, ale výpočet modelu trval 17 810 TPU jádro/hodin. Pro vaší představu nás by to na cloudu stálo asi 1 350 000 Kč a výsledek je zlepšení o 0.03%.
Zdroje:
https://pub.towardsai.net/deepminds-new-model-gato-is-amazing-57cc8ea48772
Paralelizovatelný RNN: https://www.reddit.com/r/MachineLearning/comments/umq908/r_rwkvv2rnn_a_parallelizable_rnn_with/
Už opravdu nevěřím papírům z „Top Labs“: https://www.reddit.com/r/MachineLearning/comments/uyratt/d_i_dont_really_trust_papers_out_of_top_labs/
Attention Is All You Need: https://arxiv.org/abs/1706.03762?fbclid=IwAR2BGE99naTPvNyZ0EcikOnvlAbAIJ7566H4g6xQpCsT2uilK5kEwWk5rpA