Mezi nejlepší modely umělé inteligence pro zpracování přirozeného jazyka (Bert, Robert, GPT-2 či Megatron) přišel minulý týden další hráč ALBERT! Alberta nám přináší společnosti Google Research a Toyota Technological Institute. Zajímavý není model jen tím, že podává fantastické výsledky v klasických úlohách jako GLUE, RACE či SQuAD, ale především tím, že je menší, než jeho předchůdci! Například starý BERT x-large má zhruba 1,27 miliardy parametrů, oproti ALBERTu x-large s „pouze“ 59 milionů parametrů.
Jak se autorům podařilo zvětšit přesnost a zároveň zmenšit počet „mozkových buněk“?
Mohou za to tři důvody:
1 — Factorized Embedding Parameterization
Čili efektivnější využití parametrů. Albert používá místo jedné embedding vrstvy dvě menší. One hot vektor je přenášen do menší vrstvy s nížím počtem dimenzí.
2 — Cross Layer Parameter Sharing vrstvy
Albert zase o kousek zefektivňuje sílení parametrů (Feed Forward Network i Attention) napříč všemi vrstvami. Představte si zjednodušeně, že nový mozeček má jednotlivá mozková centra lépe propojena.
3 — SOP (Sentence Order Prediction) algoritmus nahrazuje NSP (Next Sentence Prediction)
Už autoři RoBERTa si všimli, že NSP algoritmus nebyl moc účinný. Autoři Alberta však nově přicházejí s vlastním lepším algoritmem SOP. Zatímco v NSP se model učí rozeznat správnou větu tak, že je se stejného dokumentu a špatnou, že vezme větu z jiného dokumentu. SOP bere obě věty ze stejného dokumentu a správná dvojice je v korektním pořadí, kdežto ta špatná v prohozeném. Tím se vyhnul Albert nechtěnému předpovídání tématu a je schopen naučit se jemnějšího vztahu mezi jednotlivými větami.
Sečteno podtrženo, na svět přišla nová sada modelů pro práci s textem, která je velice přesná, a zároveň zabírá méně místa.
Zdroje:
https://medium.com/…/meet-albert-a-new-lite-bert-from-googl…