Tak co říkáte na poslední Olympiádu? Pokud by to snad někomu uniklo tak, na konci května proběhl již třetí ročník Olympijských her v Data Science! Je to největší soutěž strojového učení v Evropě a zúčastnilo se jí přes 1000 vědců najednou v Paříži a Berlíně. Všichni „sportovci“ dostanou v jednom okamžiku zadání a mají 2 hodiny na to přijít s co nejpřesnějším prediktivním modelem. Čili něco jako Kaggle, ale netrvá to 3 měsíce, ale pouhé dvě hodiny.
Nevím jak vy, ale já se rád se učím od nejlepších, a tak jsem doslova zhltnul postřehy vítěze (celý článek najdete v odkazech). Ve stručnosti vyhrál můj oblíbený algoritmus LightGBM nakrmený upravenými kategorickými proměnnými (label encoding + value count + target encoding). Náročné bylo přijít na to, že se musí optimalizovat ztrátová funkce (chyby v třetí kategorii jsou mnohem více penalizující než chyby v první). Geniální!
Zajímavé bylo, že šampión Romain Ayres zkusil v krátkém čase i další algoritmy, které bych čekal, že budou skvělé.
Náhodný les byl příliš slabý proti LightGBM. Neuronové sítě byly na šampióna příliš pomalé – nestačil by optimalizovat architekturu a neměl k depozici žádné GPU (tady by se možná dalo blýsknout). A kupodivu autorovi nefungoval model složený z několika LightGBM (s odlišnými seed variation).
Zajímavostí je, že když jsem zkoušel šampionův kód, používá starou knihovnu LabelEncoder(), která v poslední verzi nepracuje s chyběními hodnotami. Mistr tedy očividně používá staré verze knihoven. Romain měl během celé soutěže na uších také sluchátka s hudbou, takže si nevšiml, že v půlce soutěže přidali organizátoři ještě další data, které mohla výsledek zpřesnit.
Zdroje:
Olympiáda: https://www.datascience-olympics.com/
Čtyři triky: https://medium.com/…/four-machine-learning-tricks-you-shoul…
Jak jsem vyhrál olympiádu: https://medium.com/…/how-i-won-the-data-science-olympics-20…
Vítěz: https://medium.com/@romain.ayres