Beszélgetés Windhager-Pokol Eszterrel (alkalmazott matematikus, Data science team lead, Starschema)
Mesélj magadról, mivel foglalkozol?
Most a Starschemánál vagyok, a data science (adattudós) csapat vezetőjeként dolgozom.
A Starschema egy konzultációs cég, tehát az ügyfeleink hozzánk fordulnak valamilyen problémájukkal, és mi adatalapú szolgáltatásokkal segítünk nekik megoldani. A cég data engineeringgel, adatvizualizációval és data science-szel foglalkozik.
Manapság sokat hallani a különféle adattudományhoz kapcsolódó munkakörökről, de nem mindig világos, melyik mivel foglalkozik. Mi a különbség például a data engineer, data analyst és a data scientist között?
A data engineerek feladata az, hogy legyen adat. Ők azok, akik összegyűjtik, megfelelő formára hozzák, betöltik különböző rendszerekbe az adatokat azért, hogy aztán azokat elemezni lehessen, és mi, data scientistek pedig végezzük az elemzéseket. Ezen belül is vannak analystek, akik elemzik az adatokat, és próbálnak összefüggéseket keresni közöttük. A data scientistek pedig azok, akik prediktív modelleket építenek, tehát mi vagyunk azok, akik például gépi tanuló algoritmusokkal foglalkozunk.
Általában olyan feladatokra alkalmazzuk a data science eszköztárát, amelyekre nem tudunk kész formulákat vagy kész algoritmusokat gyártani. A térképen két pont között a legrövidebb utat ki tudjuk számolni például Dijkstra algoritmussal, de vannak feladatok, amikor nem tudunk ilyen algoritmust készíteni.
Ennek két oka lehet, az egyik, amikor emberi viselkedéssel kapcsolatos dolgot szeretnénk előrejelezni, például hány liter tejet vesznek a boltban a jövő héten. Erre nem tudunk képletet adni, azt tudjuk csinálni, hogy megnézzük, az elmúlt két évben hogyan alakult a heti tejfogyasztás, és ebben machine learning, gépi tanuló algoritmusok segítségével keresünk mintázatokat, trendeket, szezonalitásokat stb. Ennek alapján tudunk adni egy előrejelzést, predikciót arra, hogy a jövő héten mi várható.
A másik ok, amikor lehetséges lenne valamilyen formulát adni a feladatra, de ez annyira bonyolult, hogy az emberek már nem látják át. Erre jó példa a computer vision, a számítógépes képfelismerés területe. A képek gyakorlatilag számhalmazok a számítógépek világában. Például egy kutya vagy macska felismerésére lehet, hogy tudnánk mondani jó szabályokat, mondjuk, ha ilyen a füle, akkor ez, ha amolyan a füle, akkor az, de ezt nehéz számszerű formulává átfordítani, emberi erővel gyakorlatilag lehetetlen. Viszont a gépi tanuló algoritmusok, tipikusan a mély neurális hálók rendkívül komplex feladatokat is meg tudnak oldani.
Hogyan képzeljünk el egy data science feladatot? Mesélnél egy konkrét projektről kicsit részletesebben?
A Richter Gedeon Gyógyszergyárnak csináltunk egy fejlesztést a tavalyi évben. A neurológiai gyógyszerkutatásban az egyik legfontosabb dolog az emberi sejteken belül a mitokondrium-hálózat morfológiája. Háromdimenziós mikroszkóppal készítenek felvételeket a mitokondrium-hálózatról, és attól függően, hogy egészséges vagy beteg egy sejt, más-más a tipikus alakja a mitokondriumoknak a hálózatban. Ennek a kutatásnak volt egy jól bejáratott módszertana két dimenzióban, de az idegsejtek vastagok, ezért kétdimenziós vizsgálatuk nem elegendő, ezért ezt a módszertant át kellett ültetni 3 dimenzióba. A képeken azonosítani kellett az egyes mitokondriumokat, ezt szegmentációnak hívják, utána az azonosított mitokondriumok alakjait kellett csoportokba sorolni. Erre két dimenzióban úgynevezett szakértői szabályokat alkalmaznak, például adott hosszúság vagy adott szélesség /hosszúság arány esetén a megfelelő morfológiai osztályba kerül a kép. Utána annak alapján, hogy az egyes morfológiai osztályokba a mitokondriumoknak hány százaléka tartozott, el tudják dönteni, hogy egészséges-e a sejt, vagy beteg. Azonban 3 dimenzióra nem voltak meg ezek az eszközök, különösen hiányoztak a morfológiai osztályok. El lehetett volna kezdeni megint csak „kézzel” szakértői szabályokat hozni, de mi nem ezt az utat választottuk, hanem a gépi tanuló algoritmusokat hívtuk segítségül. Fogtunk nagyon sok felvételt egészséges és beteg sejtekről, kiszámítottuk különböző geometriai tulajdonságaikat, például felszín, térfogat, konvex burok felszíne, térfogata, illetve ezeknek arányszámai, és ezeket adtuk oda egy döntési fa algoritmusnak, hogy próbálja megtalálni azokat a karakterisztikákat, amik egy egészséges, illetve beteg sejtre vonatkoznak. Így megkaptuk azokat a morfológiai osztályokat, vagyis a jellemző geometriai alakokat, amik az egészséges vagy a beteg sejtekre jellemzőek inkább. A módszer előnye, hogy a gépi tanuló algoritmusok által olyan összefüggések is feltárhatók, amelyeket a szakértők eddig nem ismertek. Itt fontos megjegyezni, hogy ez a mitokondrium-hálózat folytonosan változó, ezért mindenféle alakzat előfordul mind az egészséges, mind a beteg sejtekben, csak ezeknek az aránya különböző.
A módszertan használatával a gyógyszerkutatók könnyen el tudják dönteni, hogy ha van egy roncsolt sejt, az az alkalmazott kezelés hatására egészségessé vált-e.
Mi volt a legnagyobb kihívás ebben a problémában?
Sok esetben a data science-ben az iparági szaktudás elsajátítása az, ami nehéz. Ebben az esetben onnan indultunk, hogy azt sem tudtam, mi az a mitokondrium. Utána kellett nézni az alapoknak, megérteni, hogy mi az alap problémakör, azt lefordítani egy data science feladattá. A matematikai, logikai gondolkodásmód az, amit nagyon gyakran használni kell, mélyebb matematikai ismeretek ritkábban kerülnek előtérbe. Data science módszertani szempontból az előbbi példa már egy viszonylag egyszerű feladat volt.
Annak idején honnan jött nálad az ötlet, hogy a matek szakot válaszd, mi volt ennek az előzménye?
Már gyerekkoromban is szerettem a matematikát. Ahogy mások rejtvényeket és sudokukat fejtenek meg, én időnként matek feladatokat oldottam meg csak úgy szórakozásból. Volt olyan is, hogy a 3 évvel idősebb bátyám matek háziját csináltam meg. Az tetszett benne, hogy nem nagyon kellett tanulnom, lexikális tudásra nincs szükség, ha az ember megértette a dolgokat, akkor onnantól kezdve tudja is. Például történelemből utáltam évszámokat magolni. Tehát részben egyfajta „lustaságból” mentem matek szakra. Az első évben, amikor jelentkeztem, nem vettek fel alkalmazott matematikusnak, matek tanári szakra vettek fel. Ott eltöltöttem egy évet, újra jelentkeztem, és akkor már sikerült a felvételi. Egyébként azt hiszem, hogy jobban jártam így, mert ez az egy év adott egy olyan biztos alapot, amivel aztán már később nem volt gond az alkalmazott matematikus szakon.
A munkád során mennyire számított az, hogy nőként kisebbségben vagy ebben a szakmában?
Az egyetemen még nem voltam kiugróan kisebbségben, később a munkahelyeimen már igen. Ennek vannak előnyei és hátrányai is. Az előnye például az, hogy ha valaki ügyes, akkor hamarabb felfigyelnek rá. Emellett sok konferencián ma már arra törekednek, hogy mindkét nem egyenlő mértékben kapjon lehetőséget, ezért női előadóként könnyebb bejutni.
A munkakörnyezet szempontjából én sohasem éreztem magam kirekesztettnek. Ám a karrier egy érdekesség, ott tapasztaltam nehézségeket. Volt olyan helyzet, amikor azt mondták, hogy nem gondolják, hogy én jó vezető lennék. Persze, hogy ez mennyire azért van, mert nő vagyok, vagy mennyire egyéb okok miatt, azt nem tudom, de több munkahelyváltásra volt szükség, mire eljutottam oda, hogy vezető pozícióba kerülhessek.
Hogy tetszik a vezetői szerepkör? Mennyire változatos ez a feladat?
Nagyon tetszik, nagyon élvezem. Földi Tamás, a cégvezető eleve úgy hívott ide, hogy egyáltalán nem volt előtte data science a cégnél, én voltam az első, így itt én építhettem fel az egész data science csapatot. Nagyon szuper csapat jött össze mind emberileg, mind szakmailag, és ezt nagyon élvezem.
Az embereket kiválogatni, aztán a csapatot egyben tartani, gondoskodni mindenkinek a fejlesztéséről, a karrierútjának a menedzseléséről tényleg kihívás. Mindemellett szakmai munkát is kell végeznem, tehát a munkámnak csak egy része, hogy emberekkel foglalkozom.
Mi az, ami számodra vezetőként nagyon fontos?
Az a jó, hogy nekem több kiváló főnököm is volt, így volt kiről példát venni. Ezek a főnökök mind nagyon demokratikusak voltak, tehát meghallgatták a véleményemet, volt döntési jogom bizonyos keretek között. Nekem ez nagyon tetszett, és próbálom a saját csapatomban is megvalósítani. Amennyire lehet, bevonom őket a döntésekbe, a munkában szabad kezet kapnak, hogy a saját ötleteiket meg tudják valósítani, emellett azért persze figyelek, nehogy rossz irányba haladjanak.
Ami még nagyon fontos, hogy mindenki biztonságban érezze magát, a csapatszellem, a csapatlégkör olyan legyen, hogy adhatunk egymásnak kritikákat, de annak konstruktívnak kell lennie, semmiképpen sem bántónak. És ez tökéletesen működik.
Te kétgyerekes anyuka is vagy, mennyire jelentett kihívást a munka és a magánélet összeegyeztetése?
Amikor az első gyerekünk születése után elkezdtem munkát keresni, a kicsi miatt részmunkaidőt kerestem, és meglepő módon találtam is. Az SPSS Hungary-hoz mentem napi 6 órában (később Clementine Consulting). Ott voltam 7 évig, és nagyon szuper munkahely volt. Onnan mentem tovább egy I-Insight nevű, szintén tanácsadó céghez, ahol ugyancsak nem volt probléma a részmunkaidő. Amikor a kisebbik gyerek is 6 éves lett, akkor mentem át a Balabithez, ahol napi 8 órában, de rugalmas munkaidővel dolgozhattam, és ez a munkarend azóta is megmaradt.
A lányaid mennyire fogékonyak erre a területre?
Ó, nagyon! A nagyobbik, a 16 éves most tette le az emelt szintű informatika érettségit, és robotikával szeretne foglalkozni, tehát ő abszolút ebbe az irányba megy. A kicsi nagyon tehetséges matekból, viszont ő inkább az állatokat szereti, és hogy mi lesz belőle, azt még nem tudjuk.
Mi az, amit különösen szeretsz a data science-ben?
Magát a data science-t a főzéshez szoktam hasonlítani. Az a lényeg, hogy függetlenül attól, hogy levest vagy tortát készítesz, ugyanazokat az eszközöket, a fakanalat, a serpenyőt stb. használod. Nálunk is megvannak az alapeszközök, például a Python programozási nyelv vagy a különféle gépi tanuló algoritmusok, és ezeket használjuk gyógyszerkutatásnál vagy filmajánló rendszerek készítésénél egyaránt. Azért jó ez a szakma, mert nagyon változatos.
Az interjút készítette: Bérczi-Kovács Erika