Ha szeretnéd végre átlátni, mit csinálnak valójában a leggyakrabban használt Machine Learning modellek, ez az előadás jó kiindulópont. Gáspár Csaba (senior data scientist @dmlab) közérthetően mutat be 8 alapvető modellt, és azt is, mikor melyiket érdemes választani – különösen táblázatos (üzleti) adatoknál. Nem csak definíciókat kapsz, hanem használható szemléletet: hogyan különböztesd meg a regressziós és osztályozási feladatokat, milyen kompromisszumok vannak pontosság, értelmezhetőség, sebesség és stabilitás között, és mire figyelj valós üzleti helyzetekben. A cél, hogy tudatosabban válassz modellt, jobban értsd az eredményeket, és magabiztosabban dolgozz adatprojekteken.
Milyen főbb témákról van szó az előadásban?
- Regresszió vs. osztályozás (gyors tisztázás, példákkal)
Mit jelent „számot becsülni” (pl. költés összege), és mit jelent „címkét tippelni” (pl. churn: lemondja-e). Külön szó esik a félrevezető esetekről is, például amikor egy szám valójában azonosító. - Hogyan gondolkodj egy modellről: tanítás vs. alkalmazás
Milyen kérdéseket érdemes feltenni egy algoritmusnál: hogyan tanul a modell, és mit csinál egy már betanított modell, amikor döntést hoz. - Alapmodellek és intuíció: lineáris és logisztikus regresszió
Miért gyorsak, miért maradnak relevánsak zajos adatoknál, és milyen korlátaik vannak (például a lineáris összefüggések feltételezése). - KNN: a „legkomplexebb” határfelület és a gyakorlati buktatók
Mikor jó kevés adatnál, miért fontos a skálázás/normalizálás, és miért lehet lassú éles használatban. - Döntési fa → Random Forest → Gradient Boosting (GBM)
A döntési fa mint építőkocka, a Random Forest mint „sok fa átlagolása”, majd a boosting logikája (hibajavítás + learning rate), és hogy ez miért számít ma erős választásnak. - Neurális hálók (perceptron → mély hálók) alapképe
Miért hasonlít a lineáris/logisztikus modellekre, mi a backprop lényege, és miért lehet erőforrásigényesebb vagy szeszélyesebb. - Modelválasztási szempontok a valóságban
Kevés adat, értelmezhetőség igénye, stabil működés, adattípusok és futási sebesség – vagyis miért nem elég „végigpróbálni mindent”.























































