Nedávno proběhla na Kaggle (https://www.kaggle.com/c/jigsaw-toxic-comment-classificatio…) zajímavá soutěž sestavit detektor, který dokáže poznat urážky, jedovaté a obscénní výroky a podobně – Toxic Comment Classification Challenge.
Dozvěděl jsem se to pozdě, ale přece jsem napsal hlubokou neuronovou síť založenou na LTSM + FastTextu (úspěšnost algoritmu by v kaggle žebříčku stačila na zlatou medaili). Kolega z Alpha Industries přeložil trénovací dataset do češtiny (70 mega textu! ) a nasadil jí na Amazon server a můžete si jí nyní vyzkoušet zde: www.detector.alphai.cz
Algoritmus není dokonalý, přesto však funguje obstojně v češtině i angličtině.
Úkol pro vás – Dokážete najít větu, nebo klidně i delší text, který vyhodnotí algoritmus jakože, není vulgární (jedovatý), ale je urážlivý?