Menu
  • Home
  • O nás
  • Projekty ▾
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog
Skip to content

Třetí ročník Olympijských her v Data Science!

by Eva Popílková | Posted on 13. 6. 201913. 6. 2019

Tak co říkáte na poslední Olympiádu? Pokud by to snad někomu uniklo tak, na konci května proběhl již třetí ročník Olympijských her v Data Science! Je to největší soutěž strojového učení v Evropě a zúčastnilo se jí přes 1000 vědců najednou v Paříži a Berlíně. Všichni „sportovci“ dostanou v jednom okamžiku zadání a mají 2 hodiny na to přijít s co nejpřesnějším prediktivním modelem. Čili něco jako Kaggle, ale netrvá to 3 měsíce, ale pouhé dvě hodiny.

Nevím jak vy, ale já se rád se učím od nejlepších, a tak jsem doslova zhltnul postřehy vítěze (celý článek najdete v odkazech). Ve stručnosti vyhrál můj oblíbený algoritmus LightGBM nakrmený upravenými kategorickými proměnnými (label encoding + value count + target encoding). Náročné bylo přijít na to, že se musí optimalizovat ztrátová funkce (chyby v třetí kategorii jsou mnohem více penalizující než chyby v první). Geniální!

Zajímavé bylo, že šampión Romain Ayres zkusil v krátkém čase i další algoritmy, které bych čekal, že budou skvělé.
Náhodný les byl příliš slabý proti LightGBM. Neuronové sítě byly na šampióna příliš pomalé – nestačil by optimalizovat architekturu a neměl k depozici žádné GPU (tady by se možná dalo blýsknout). A kupodivu autorovi nefungoval model složený z několika LightGBM (s odlišnými seed variation).

Zajímavostí je, že když jsem zkoušel šampionův kód, používá starou knihovnu LabelEncoder(), která v poslední verzi nepracuje s chyběními hodnotami. Mistr tedy očividně používá staré verze knihoven. Romain měl během celé soutěže na uších také sluchátka s hudbou, takže si nevšiml, že v půlce soutěže přidali organizátoři ještě další data, které mohla výsledek zpřesnit.

Zdroje:
Olympiáda: https://www.datascience-olympics.com/
Čtyři triky: https://medium.com/…/four-machine-learning-tricks-you-shoul…
Jak jsem vyhrál olympiádu: https://medium.com/…/how-i-won-the-data-science-olympics-20…
Vítěz: https://medium.com/@romain.ayres

Post Views: 922
Aplikace Novinky Posilované učeníalgoritmus algoritmus LightGBM Data Science GPU kaggle label encoding LabelEncoder model Neuronová síť Olympijské hry Romain Ayres target encoding value count

Related Posts

15 října, 2019

Facebook v tichosti vydává novou verzi knihovny PyTorch, která obsahuje několik úžasných věcí!

7 ledna, 2021

Ohlédnutí za minulou dekádou

25 března, 2019

ČTK získala grant od společnosti Google na vývoj AI pro generování textů!

Nejnovější příspěvky

  • Digi Dvojče Jana Tyla napsalo další článek
  • Článek s pomocí digitálního dvojčete Jana Tyla
  • Umění digitálního věku
  • Revoluce v programování – Claude Code
  • DigiHavel ve školách slaví úspěch u dětí

Archivy

Rubriky

Štítky

AI AI Awards algoritmus algoritmy Alphai Alpha Industries Amazon Andrew Ng BERT Chatbot DALL·E Deep Learning DigiHavel digitální filosof Digitální spisovatel Dita Malečková Elon Musk Facebook Google GPT-2 GPT-3 GPU Hyperprostor IBM Inovace Jan Tyl Matylda Microsoft Neuronová síť NEWSPARK NLP NVIDIA OpenAI podcast Přednáška RNN Robot soutěž startup strojové učení technologie TensorFlow Tomáš Sedláček umělá inteligence Český rozhlas
Copyright Alpha Industries – blog. All rights reserved. | Powered by WordPress & Writers Blogily Theme
Alpha Industries - blog
  • Home
  • O nás
  • Projekty
    • Výzkum
    • Detektor urážek
    • Český detektor emocí
    • Anglický detektor emocí
    • Veřejné mínění emocí
    • Startup Akademie
  • Kariéra
  • Kontakt
  • Kalendář
  • Blog