Menu
  • Home
  • O nás
  • Projekty ▾
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog
Skip to content

Block-Recurrent Transformer

by Rosie | Posted on 18. 7. 202212. 8. 2022
Block-Recurrent Transformer

Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s názvem Block-Recurrent Transformer. V kostce řekneme, proč si myslím, že je dobré o něm vědět.

Dříve se v AI komunitě věřilo, že transformátory jsou architektura pro téměř všemocné modely pro celé hluboké učení. Postupem času se ale začalo ukazovat, že i transformátory mají své slabiny a tak přišel Google s hybridním modelem, který kombinuje výhody starého dobrého LSTM a nových transformátorů. Vznikl tak Transformer-LSTM – tehdy SOTA pro predikci časových řad. Tím se odstartovala řada výzkumů, ve kterých se kombinuje síla transformátorů se starými dobrými modely jako CNN (Vision Transformers), RNN (RWKV-v2-RNN) a dalšími.

Hlavní výhody transformátorů:

– Paralelismus – oproti klasickým RNN a LSTM, které jsou sekvenční, vyžaduje transformátor méně kroků a může mnohem efektivněji využívat HW akceleraci GPU

– Dlouhodobá paměť – klasické RNN trpěly na „vanishing gradient“ a i vylepšené LSTM stále na „exploding gradients“; Naproti tomu transformátor se může věnovat úplně každému vstupnímu slovu

– Lepší mechanismus pozornosti – samotná myšlenka Attention sice přišla už před transformátory v Bi-LSTM, ale Self-Attention, který umožňuje každému slovu na vstupu odkazovat na každé další slovo bylo znatelné vylepšení a díky tomu mohou uchovávat mnohem lépe kontext na dlouhé vzdálenosti

Hlavní nevýhoda transformátorů:

– Vysoké náklady na pozornost O(n²) – transformátory dokáží zpracovávat cca 512 – 4096 tokenů. Náklady na pozornost však rostou s čtvercem podle délky věty, což značně komplikuje škálovatelnost na delší texty. Naštěstí novější transformátory jako Longformer nebo Transformer XL kompenzují plnou pozornost pomocí různých variant „sliding window“.

A s čím novým přichází blokově rekurentní transformátor?

Především je to „Recurrent Cell“. V zkratce využívá paralelnosti na úrovni bloků, zvládá pozornost o velké velikosti (4096), má díky konceptu klouzavé pozornosti pouze lineární složitost O(n). Podle paperu se zdá, že tato architektura výrazně překovává stávající modely jako Transformer XL co do složitosti i rychlosti.

Zdroje:

Inspirace: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9

Attention Is All You Need: https://arxiv.org/abs/1706.03762?fbclid=IwAR38YHs-4oEVcr8C–5QLtY9HqOqa1CjHxHx94h1GYPTYwR96h0U9GMiTBk

Paper: http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2203.07852.pdf

Post Views: 530
Hardware Nezařazené NovinkyAI Block-Recurrent Transformer CNN Longformer LSTM Recurrent Cell rekurentní transformátor RNN RWKV-v2-RNN SOTA Společnost AI LAB IDSA Transformátory Transformer XL

Related Posts

2 září, 2020

Úplně mi uniklo, že o našem projektu psali minulý týden v Respektu

7 ledna, 2022

Povídání o umělé inteligenci tak, ať z toho něco mají i děti?

24 ledna, 2018

10 Data Science, Machine Learning a AI podcastů, které musíte slyšet

Nejnovější příspěvky

  • Digi Dvojče Jana Tyla napsalo další článek
  • Článek s pomocí digitálního dvojčete Jana Tyla
  • Umění digitálního věku
  • Revoluce v programování – Claude Code
  • DigiHavel ve školách slaví úspěch u dětí

Archivy

Rubriky

Štítky

AI AI Awards algoritmus algoritmy Alphai Alpha Industries Amazon Andrew Ng BERT Chatbot DALL·E Deep Learning DigiHavel digitální filosof Digitální spisovatel Dita Malečková Elon Musk Facebook Google GPT-2 GPT-3 GPU Hyperprostor IBM Inovace Jan Tyl Matylda Microsoft Neuronová síť NEWSPARK NLP NVIDIA OpenAI podcast Přednáška RNN Robot soutěž startup strojové učení technologie TensorFlow Tomáš Sedláček umělá inteligence Český rozhlas
Copyright Alpha Industries – blog. All rights reserved. | Powered by WordPress & Writers Blogily Theme
Alpha Industries - blog
  • Home
  • O nás
  • Projekty
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog