Menu
  • Home
  • O nás
  • Projekty ▾
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog
Skip to content

Nový šampión na scéně?

by Eva Popílková | Posted on 15. 1. 20218. 2. 2021

Jazykový model Switch Transformer od společnosti Google je téměř šestkrát větší než GPT-3! Switch Transformer má 9x více parametrů tedy 1,6 bilionu. Google optimalizoval výpočetní náklady pomocí algoritmu Mixture of Experts (MoE) a efektivně kombinoval data, model a expertní paralelismus. Díky tomu bylo 4x rychlejší přetrénovat model pomocí staršího modelu T5-XXL (dřívější šampión Googlu).

Zajímá vás, jak je ten nový supervelký model dobrý? Největší varianta dosahuje v testu na SQuAD (Stanford Question Answering Dataset), což je jeden ze základních testů na porozumění četného obsahu přesnosti 88,6 % což více než třeba model BERT, ale o malý kousek méně než BART a nebo RoBerTa. V testu SuperGLUE pro celkovém porozumění jazyku získal 84,7 bodů cože je o dost víc než třeba GPT-3, kde je to cca 71,8 a zhruba jako RoBERTa a méně než DeBERTa. Nicméně tyto modely mají každý jiný cíl, takže berme tyto výsledky opravdu orientačně.

Podle některých vědců je tento model pro generování textu méně dotažený než třeba GPT-3. GPT-3 vyšel OPEN AI přibližně 100 miliónů korun (jen výpočet ne superpočítač). Předpokládá se, že GPT-4 bude mít asi 20 bilionů parametrů. Pokud by algoritmy jako MoE dokázali výpočet výrazně zrychlit a zlevnit, je to to jistě pozoruhodný pokrok.

Zdroje:
Paper: https://arxiv.org/pdf/2101.03961.pdf
Git: https://github.com/…/mesh_tensorflow/transformer/moe.py
https://thenextweb.com/…/googles-new-trillion…/
https://syncedreview.com/…/google-brains-switch…/
Post Views: 616
Novinkyalgoritmus BART BERT DeBERTa Google GPT-3 Mixture of Experts (MoE) MoE OpenAI RoBerTa SQuAD (Stanford Question Answering Dataset) SuperGLUE Switch Transformer T5-XXL

Related Posts

20 března, 2021

Pět znamení vysoce inteligentních lidí

21 ledna, 2021

Digitální Karel Čapek – příběh druhý

12 srpna, 2019

Izraelští vědci vyvinuli nový typ neuronové sítě!

Nejnovější příspěvky

  • Digi Dvojče Jana Tyla napsalo další článek
  • Článek s pomocí digitálního dvojčete Jana Tyla
  • Umění digitálního věku
  • Revoluce v programování – Claude Code
  • DigiHavel ve školách slaví úspěch u dětí

Archivy

Rubriky

Štítky

AI AI Awards algoritmus algoritmy Alphai Alpha Industries Amazon Andrew Ng BERT Chatbot DALL·E Deep Learning DigiHavel digitální filosof Digitální spisovatel Dita Malečková Elon Musk Facebook Google GPT-2 GPT-3 GPU Hyperprostor IBM Inovace Jan Tyl Matylda Microsoft Neuronová síť NEWSPARK NLP NVIDIA OpenAI podcast Přednáška RNN Robot soutěž startup strojové učení technologie TensorFlow Tomáš Sedláček umělá inteligence Český rozhlas
Copyright Alpha Industries – blog. All rights reserved. | Powered by WordPress & Writers Blogily Theme
Alpha Industries - blog
  • Home
  • O nás
  • Projekty
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog