Už jste se setkali s Kapslovou sítí (Capsule Network) a Inverzní grafikou (Inverse Graphics)? Tyto nové pojmy začal před nedávnem šířit „kmotr“ hlubokého učení Geoffrey Hinton. Obecně posouvají počítačové vidění o kousek dál k emulaci toho lidského. Vydestiloval jsem pro vás 5 hlavních myšlenek:
1) Hierarchie – lidé se hierarchicky učí i analyzují vizuální informace. Děti se učí nejprve rozeznávat barvy a obrysy. Člověk vidí dvě oči, jeden nos a pusu a řekne si, že to vypadá jako člověk. Tento princip známe od 70 let a byl na počátku hlubokých sítí (hluboké vrstvy předávají informace dalším vrstvám, kde je stále komplexnější chápání obrazu).
2) Poziční ekvivalence – Pozice obrázku by neměla mít vliv na to síť klasifikuje. Takže jestli je obrázek kočičky vlevo nebo vpravo v obou případech ho síť vyhodnotí jako obrázek kočky. Zde nám hodně pomáhá například konvoluce (malé filtry které analyzují lokální části obrazu a rozpoznávají nějakou zajímavou vlastnost jako je barva, hrana atd.)
3) MaxPool nefunguje (je například 2×2 filtr) 80 léta (Kunihiko Fukushima); Tato funkce například dokáže najít na obrázku oko, ale nedokáže najít jeho prostorový vztah k ostatním částem obličeje. Neuronová síť pak vidí portrét člověka, kterému prohodíte pusu a oko jako úplně normální obličej – této vlastnosti/chybě říkáme translační invariance.
4) Distilování pohledů – Pose Matrix (transformační matice) je je matice 4×4, která představuje vlastnosti objektu (jako jsou souřadnice xyz, měřítko, rotace). Dále je přidána matice představující hierarchické vztahy mezi objekty na obrázku (součástí hlavy jsou oči, pusa a nos; hlava je součástí postavy…). Podobně jako rendrovací program v 3d grafice se pak počítá s různými pohledy „kamery“.
5) Inverzní grafika funguje obráceně než destilování pohledů. Dívám se na 2D obrázek a snažím se odhadnout jako asi vypadá virtuální 3D objekt. To nám umožnuje modelovat prostorové vztahy pomocí lineárních transformací a zobecnit více pohledů do jedné matice.
Tyto nové přístupy nám umožnují lepší počítačové vidění. Například klasický MNIST řeší s přesností testu 99,75%! Na složitějších datech zatím nebyly výsledky ověřeny. Silnou stránkou je také to, že vidění se stává méně black box.
https://towardsdatascience.com/uncovering-the-intuition-beh…
https://hackernoon.com/what-is-a-capsnet-or-capsule-network…
Zveřejnil(a) Umělá inteligence dne 5. prosinec 2017