Jazykový model Switch Transformer od společnosti Google je téměř šestkrát větší než GPT-3! Switch Transformer má 9x více parametrů tedy 1,6 bilionu. Google optimalizoval výpočetní náklady pomocí algoritmu Mixture of Experts (MoE) a efektivně kombinoval data, model a expertní paralelismus. Díky tomu bylo 4x rychlejší přetrénovat model pomocí staršího modelu T5-XXL (dřívější šampión Googlu).
Zajímá vás, jak je ten nový supervelký model dobrý? Největší varianta dosahuje v testu na SQuAD (Stanford Question Answering Dataset), což je jeden ze základních testů na porozumění četného obsahu přesnosti 88,6 % což více než třeba model BERT, ale o malý kousek méně než BART a nebo RoBerTa. V testu SuperGLUE pro celkovém porozumění jazyku získal 84,7 bodů cože je o dost víc než třeba GPT-3, kde je to cca 71,8 a zhruba jako RoBERTa a méně než DeBERTa. Nicméně tyto modely mají každý jiný cíl, takže berme tyto výsledky opravdu orientačně.
Podle některých vědců je tento model pro generování textu méně dotažený než třeba GPT-3. GPT-3 vyšel OPEN AI přibližně 100 miliónů korun (jen výpočet ne superpočítač). Předpokládá se, že GPT-4 bude mít asi 20 bilionů parametrů. Pokud by algoritmy jako MoE dokázali výpočet výrazně zrychlit a zlevnit, je to to jistě pozoruhodný pokrok.