Mám za sebou zatím nejsložitější domácí úkol z AI, který jsem kdy dělal. Vytvořit a vycvičit model, který dokáže vytvářet textové popisy z fotek!
Architektura vychází z CNN enkodéru a RNN dekodéru více viz: https://research.googleblog.com/…/a-picture-is-worth-thousa… a https://cs.stanford.edu/people/karpathy/
Přetrénovaná CNN síť založená na milované InceptionV3 se doučila popisky během pouhých 10 minut. Není to dokonalé, ale přesto mi výsledky vyráží dech! Ostatně posuďte sami.
Nakonec velké díky Andreji Karpathy, za jeho úžasný výzkum a lektorům ruské školy, že to tak hezky připravili.
Pro zajímavost síť se učila popisky z mnoha a mnoha příkladů, které tam vložili lidé pomocí Mechanického turka. Slyšeli jste o něm?