V čem se BERT liší klasických NLP modelů, jako jsou word2vec a GloVe? Word2vec a ostatní modely totiž generují bezkontextové vkládání slov. Každé slovo vyjádříte jako vektor (například 300 číslic, která matematicky reprezentují toto slovo).
BERT je jedinečný tím, že je obousměrný. To mu umožňuje přístup ke kontextu z minulých i budoucích směrů a bez učitele, což znamená, že může přijímat data, která nejsou ani klasifikována ani člověkem označena.
Zatímco bezkontextové modely mají pro slovo např. „oko“ jednu číselnou reprezentaci. BERT umí odlišit oko v hlavě, od oka na polévce či pytláckého oka. BERT bere v potaz kontext.
BERT se naučí modelovat vztahy mezi větami předtrénováním na úkol, který může být generován z libovolného korpusu, napsal Devlin a Chang. Vychází z platformy Google Transformer, architektury neuronových sítí s otevřeným zdrojovým kódem, založené na mechanismu self-focus, který je optimalizován pro NLP.
Při testování na datovém souboru Stanford Question Answering Dataset (SQuAD), datovém souboru s čtením, který obsahuje otázky týkající se souboru článků Wikipedie, dosáhla ERT 93,2% (což je skoro 2% lepší než doposud nejlepší algoritmy a I než člověk).
Originální článek: https://ai.googleblog.com/…/open-sourcing-bert-state-of-art…
Githab: https://github.com/google-research/bert
Autoři: Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina