Norman Niemer je Chief Data Scientist, takže už má v datové vědě něco za sebou. Datový vědec je podle něj „člověk, který je lepší ve statistice než jakýkoli softwarový inženýr a lepší v softwarovém inženýrství než jakýkoli statistik“. Norman nyní zveřejnil seznam 10 chyb v kódování, které často vidí. Ruku na srdce neděláte některé z nich také?
Pro zajímavost uvádím první tři:
1. Nesdílejte data uvedená v kódu
Čili sdílíte svůj kód, ale zapomenete přiložit například dataset:)
Řešení: Uložte data na web, google disk, nebo třeba použijte d6tpipe
2. Hardcodované a nepřístupné cesty
Takové to: df = pd.read_csv(‚/path/i-dont/have/data.csv‘) # fails
Řešení : Použijte relativní cesty, globální konfigurační proměnné cesty nebo d6tpipe, aby byla vaše data snadno dostupná.
3. Smícháváte data kód do stejného adresáře
Je to nepřehledné!
Řešení : Uspořádejte svůj adresář do kategorií, jako jsou data, kód atd. Viz Cookiecutter Data Science a použijte nástroje uvedené v první radě pro ukládání a sdílení dat.
Zdroj a kompletní článek: https://www.kdnuggets.com/…/top-10-coding-mistakes-data-sci…