Kulcsszavak: ⚙️ hatékonyság, 🔍 átláthatóság, 🔓open-source/ingyenes
Nem technikai eszközök:
- projektmenedzsment: Trello
- verziókezelés: Git
- jegyzetek, ötletek, gyűjtések: OneNote
- skiccek, ötletek: MoleSkine (magyarul: jegyzetfüzet :-))
Nem Data Science-hez kapcsolódó technikai eszközök:
- több gép közötti szinkronizálás, megosztás: Synctrayzor (alternatíva: Nextcloud)
- Microsoft Office programok (konzulensként kikerülhetetlen)
- Notepad ++ (pl. egzotikusabb adatfájlok megnyitására)
- az összes instant messaging tool (konzulensként kikerülhetetlen)
- egy password manager
- infografikák: Canva
- virtualizáció: VirtualBox
- +1 (nem szoftver, de) minden projekthez egy sztenderdizált fájl- és könyvtárstruktúra (minden projektnél ugyanaz)
Go-to Fórumok projekt előkutatásra:
- Reddit
- Huggingface
- Papers with Code
- Google (természetesen :-))
Környezet
- 1 projekt = 1 virtuális környezet
- Virtualizáció: VirtualBox (alternatíva lehetne: Docker)
- minden virtuális gépen:
- Lubuntu LTS
- Python
- Htop
- Juptyer Notebook
- Python könyvtárak (numpy, pandas, sklearn, keras, pytorch, etc.)
- Cloud Colab
Az adat megértése és felfedezése:
- Excel (első lépés)
- Python pandas
- VisiData (gyors és egyszerű adatmegértés nagyobb adatokra is)
- OpenRefine (gyors és egyszerű adatmanipuláció és adatmegértés nagyobb adatokra is)
Adatelőkészítés:
- Jupyter Notebook — prototípusozás
- PyCharm — fejlesztőkörnyezet
Adatmodellezés és értékelés:
- RapidMiner AutoML (prototípus építéshez) — vagy KNIME
- Keras (Tensorflow), Pytorch, Scikit-learn, (esetleg Spark), stb.
Deployment:
- ha termék: ügyfélkörnyezet határozza meg (preferáltan rest api)
- ha riport/dashboard: PowerBI
- ha egyedi: böngészőből fusson
Asszisztensek:
- ChatGPT
- Mire?
- Regexp,
- SQL (meh),
- Python (hm),
- API hívások,
- projektterv, dokumentáció,
- stb.
Infrastruktúra:
- 1 asztali gép
- 1 házi szerver
- 1 laptop
- 1 backup laptop