Dnes to bude trošku odbornější. Někteří z vás možná zaznamenali, že v březnu vyšel od společnosti Google a společnosti AI LAB IDSA výzkum s názvem Block-Recurrent Transformer. V kostce řekneme, proč si myslím, že je dobré o něm vědět.
Dříve se v AI komunitě věřilo, že transformátory jsou architektura pro téměř všemocné modely pro celé hluboké učení. Postupem času se ale začalo ukazovat, že i transformátory mají své slabiny a tak přišel Google s hybridním modelem, který kombinuje výhody starého dobrého LSTM a nových transformátorů. Vznikl tak Transformer-LSTM – tehdy SOTA pro predikci časových řad. Tím se odstartovala řada výzkumů, ve kterých se kombinuje síla transformátorů se starými dobrými modely jako CNN (Vision Transformers), RNN (RWKV-v2-RNN) a dalšími.
Hlavní výhody transformátorů:
– Paralelismus – oproti klasickým RNN a LSTM, které jsou sekvenční, vyžaduje transformátor méně kroků a může mnohem efektivněji využívat HW akceleraci GPU
– Dlouhodobá paměť – klasické RNN trpěly na „vanishing gradient“ a i vylepšené LSTM stále na „exploding gradients“; Naproti tomu transformátor se může věnovat úplně každému vstupnímu slovu
– Lepší mechanismus pozornosti – samotná myšlenka Attention sice přišla už před transformátory v Bi-LSTM, ale Self-Attention, který umožňuje každému slovu na vstupu odkazovat na každé další slovo bylo znatelné vylepšení a díky tomu mohou uchovávat mnohem lépe kontext na dlouhé vzdálenosti
Hlavní nevýhoda transformátorů:
– Vysoké náklady na pozornost O(n²) – transformátory dokáží zpracovávat cca 512 – 4096 tokenů. Náklady na pozornost však rostou s čtvercem podle délky věty, což značně komplikuje škálovatelnost na delší texty. Naštěstí novější transformátory jako Longformer nebo Transformer XL kompenzují plnou pozornost pomocí různých variant „sliding window“.
A s čím novým přichází blokově rekurentní transformátor?
Především je to „Recurrent Cell“. V zkratce využívá paralelnosti na úrovni bloků, zvládá pozornost o velké velikosti (4096), má díky konceptu klouzavé pozornosti pouze lineární složitost O(n). Podle paperu se zdá, že tato architektura výrazně překovává stávající modely jako Transformer XL co do složitosti i rychlosti.
Zdroje:
Inspirace: https://towardsdatascience.com/block-recurrent-transformer-lstm-and-transformer-combined-ec3e64af9
Attention Is All You Need: https://arxiv.org/abs/1706.03762?fbclid=IwAR38YHs-4oEVcr8C–5QLtY9HqOqa1CjHxHx94h1GYPTYwR96h0U9GMiTBk
Paper: http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://arxiv.org/pdf/2203.07852.pdf