Menu
  • Home
  • O nás
  • Projekty ▾
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog
Skip to content

Block-Recurrent Transformer

by Rosie | Posted on 18. 7. 202212. 8. 2022
Block-Recurrent Transformer

Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s názvem Block-Recurrent Transformer. V kostce řekneme, proč si myslím, že je dobré o něm vědět.

Dříve se v AI komunitě věřilo, že transformátory jsou architektura pro téměř všemocné modely pro celé hluboké učení. Postupem času se ale začalo ukazovat, že i transformátory mají své slabiny a tak přišel Google s hybridním modelem, který kombinuje výhody starého dobrého LSTM a nových transformátorů. Vznikl tak Transformer-LSTM – tehdy SOTA pro predikci časových řad. Tím se odstartovala řada výzkumů, ve kterých se kombinuje síla transformátorů se starými dobrými modely jako CNN (Vision Transformers), RNN (RWKV-v2-RNN) a dalšími.

Hlavní výhody transformátorů:

– Paralelismus – oproti klasickým RNN a LSTM, které jsou sekvenční, vyžaduje transformátor méně kroků a může mnohem efektivněji využívat HW akceleraci GPU

– Dlouhodobá paměť – klasické RNN trpěly na „vanishing gradient“ a i vylepšené LSTM stále na „exploding gradients“; Naproti tomu transformátor se může věnovat úplně každému vstupnímu slovu

– Lepší mechanismus pozornosti – samotná myšlenka Attention sice přišla už před transformátory v Bi-LSTM, ale Self-Attention, který umožňuje každému slovu na vstupu odkazovat na každé další slovo bylo znatelné vylepšení a díky tomu mohou uchovávat mnohem lépe kontext na dlouhé vzdálenosti

Hlavní nevýhoda transformátorů:

– Vysoké náklady na pozornost O(n²) – transformátory dokáží zpracovávat cca 512 – 4096 tokenů. Náklady na pozornost však rostou s čtvercem podle délky věty, což značně komplikuje škálovatelnost na delší texty. Naštěstí novější transformátory jako Longformer nebo Transformer XL kompenzují plnou pozornost pomocí různých variant „sliding window“.

A s čím novým přichází blokově rekurentní transformátor?

Především je to „Recurrent Cell“. V zkratce využívá paralelnosti na úrovni bloků, zvládá pozornost o velké velikosti (4096), má díky konceptu klouzavé pozornosti pouze lineární složitost O(n). Podle paperu se zdá, že tato architektura výrazně překovává stávající modely jako Transformer XL co do složitosti i rychlosti.

Zdroje:

Inspirace: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9

Attention Is All You Need: https://arxiv.org/abs/1706.03762?fbclid=IwAR38YHs-4oEVcr8C–5QLtY9HqOqa1CjHxHx94h1GYPTYwR96h0U9GMiTBk

Paper: http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2203.07852.pdf

Post Views: 75
Hardware Nezařazené NovinkyAI Block-Recurrent Transformer CNN Longformer LSTM Recurrent Cell rekurentní transformátor RNN RWKV-v2-RNN SOTA Společnost AI LAB IDSA Transformátory Transformer XL

Related Posts

14 března, 2021

Chystá se nový podcast

5 dubna, 2019

V Česku vznikne obří výzkumné centrum umělé inteligence. Půjde do něj 1,3 miliardy korun!

3 července, 2019

DeepNude – erotická aplikace s neuronovými sítěmi

Nejnovější příspěvky

  • AI ve výtvarném umění v TV v ART Zóně
  • AI je v občanské výchově na školách
  • Oficiálně oznamujeme vydání DigiHavla
  • Několik ukázek ChatGPT
  • Už jste vyzkoušeli ChatGPT?

Archivy

Rubriky

Štítky

AI AI Awards algoritmus algoritmy Alphai Alpha Industries Amazon Andrew Ng BERT Chatbot DALL·E Data Science Deep Learning DigiHavel digitální filosof Digitální spisovatel Dita Malečková Elon Musk Facebook Gartner Google GPT-2 GPT-3 GPU IBM Jan Tyl Matylda Microsoft Neuronová síť NLP NVIDIA OpenAI podcast Posobota RNN Robot soutěž startup strojové učení TensorFlow Tomáš Sedláček umělá inteligence Český rozhlas ČVUT Čína
Copyright Alpha Industries – blog. All rights reserved. | Powered by WordPress & Writers Blogily Theme
Alpha Industries - blog
  • Home
  • O nás
  • Projekty
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog