Statisztikus tanuláselmélet I. rész

Facebook
Nyomtatás

Statisztikus tanuláselmélet: Szupport vektor gépek

1. Bevezető

mesterséges intelligencia (MI) technológiák ma már a mindennapjaink részét képezik, számos szolgáltatás alapjául szolgálnak – az egészségügytől az iparig –, és a gazdasági fejlődés egyik lehetséges motorjai, állapítja meg egy az MI-t az Európai Unió (EU) szemszögéből vizsgáló tanulmány [4]. Az MI fogalmának meghatározására sokfajta megközelítés létezik [3], de abban szinte minden kutató egyetért, hogy a gépi tanulás a terület kulcsfontosságú módszere, amely a legtöbb MI megoldás esszenciális részét képezi [4].

A gépi tanulás matematikai megalapozása rendkívül fontos a terület hosszútávú fejlődése szempontjából. Noha sok heurisztikus megoldást is használnak a gyakorlatban, a gépi tanulás elmélete mostanra gazdag múlttal rendelkezik, amelynek fontos része a statisztikus tanuláselmélet. Tanulmányunk első részében a statisztikus tanuláselmélet egyik klasszikus módszerébe, a szupport vektor gépek elméletébe adunk bevezetést, a gépi tanulás egyik alapproblémáján, a (bináris) osztályozáson keresztül. A megoldást első lépésként lineárisan szeparálható problémák esetére vezetjük be, amit a tanulmányunk folytatásában kernel módszerek segítségével terjesztünk majd ki nemlineáris problémákra.

2. Bináris osztályozás

Az osztályozás (más néven klasszifikáció vagy mintafelismerés) a statisztikus tanuláselmélet egyik alapvető problémája. Fő feladata bemenet és (véges értékkészletű) kimenet (címke) párokból álló megfigyelések alapján az adatgeneráló mechanizmus modellezése. A modell segíségével általánosíthatunk, azaz ismeretlen bemenetek esetén is becsülni tudjuk a megfelelő kimenetet. Egy osztályozási feladat bináris, ha a címke csak kétféle lehet.

Az osztályozásnak számtalan alkalmazása van, amelyek közül most hármat említünk. Tanulmányunk során az első példán keresztül szemléltetünk majd néhány alapfogalmat.

Betegség diagnosztizálása: Az egészségügyben az orvos feladata, hogy diagnosztizáljon egy adott betegséget a páciens tünetei és leletei alapján. Ez egy tipikus osztályozási feladat, amely során a cél a betegség meglétének eldöntése a rendelkezésére álló adatok (magyarázóváltozók) alapján (például: nem, kor, súly, vérnyomás, pulzus, EKG, CT).

Szerszámgép karbantartása: Annak érdekében, hogy a szerszámgépek váratlan meghibásodásának számát csökkentsék, a gépek részegységeinek állapotát rendeszeresen mérik. A  meghibásodás előrejelzése a mért értékek alapján egy osztályozási feladat, amely megoldása elengedhetetlen hatékony karbantartási stratégiák kialakításához.

Levélszemét (spam) felismerése: A levelezőrendszerek a bejövő üzeneteket számos tényező (például: szöveges tartalom, címzettek, csatolmányok, linkek, a rendszer címjegyzéke, a feladó címéről feladott levelek száma és hasonlósága) alapján osztályozzák, hogy a veszélyes és nem kívánt emailek elkülönüljenek a levelezőkliens beérkező leveleitől.

Adott egy vektor magyarázó változókból, \(X_i \in \mathbb{X} \subseteq \mathbb{R}^d\), és bináris osztályváltozókból, \(Y_i \in \mathbb{Y} = \{ -1, +1\}\), álló független azonos eloszlású minta \(\{(X_i,Y_i)\}_{i=1}^n\) egy ismeretlen \(\mathbb{P}\) eloszlásból. Tekintsük az \(\mathbb{R}^d \to \mathbb{Y}\) típusú (mérhető) osztályozó függvényeket és egy (mérhető) nemnegatív \(\ell\colon \mathbb{Y} \times \mathbb{Y} \to [0,\infty)\) típusú veszteségfüggvényt. Ebben a cikkben az \(\ell(y_1, y_2) = \mathbb{I}(y_1 \neq y_2)\) ún. \(0/1\)-veszteségfüggvényre szorítkozunk, ahol \(\mathbb{I}\) egy indikátor, de az eredmények általánosíthatóak más, bonyolultabb veszteségfüggvényekre is. Általában az osztályozás célja egy minimális kockázatú osztályozó \(f_*\) becslése, ahol \[\displaystyle R(f) \doteq \mathbb{E}\big[\ell(f(X), Y)\big],\] az ún. kockázatfüggvény és \((X,Y) \overset{d}{=} (X_1,Y_1)\). A \(0/1\)-veszteségfüggvény esetén könnyen látható, hogy \(R(f)= \mathbb{P}(f(X) \neq Y)\), azaz a kockázat megegyezik a félreosztályozás valószínűségével. Ha \(\mathbb{P}\) ismert volna, akkor egy optimális osztályozó – az ún. Bayes optimális osztályozó – meghatározható lenne a feltételes várható érték segítségével: \[\displaystyle f^*(x) = \mathop{\mathrm{sign}}(\eta(x)),\] ahol \(\eta(x) \doteq \mathbb{E}[Y\vert X=x]\), amit tipikusan regressziós függgvénynek neveznek. Az egészségügyi példában a már megfigyelt páciensek egészségügyi adatai (nem, kor, EKG…) alkotják a magyarázó változókat és egy adott betegség előfordulásának indikátorai a kimeneti változókat. Feltehető, hogy ezek az adatok egy euklideszi térbe ágyazhatók be, ugyanis a megfigyelések egy része euklideszi térből vesz fel értéket, a magyarázó változók további része pedig vektorrá transzformálható valamilyen módon, például segéd indikátorváltozók bevezetésével. Egy leegyszerűsített modellben az ismeretlen eloszlást minden ember egészségügyi adata és betegsége határozná meg. Ha a \(0/1\) veszteségfüggvényt használjuk és az ehhez tartozó kockázatot, azaz a betegségek félrediagnosztizálásanak valószínűségét szeretnénk minimalizálni, akkor egy Bayes optimális osztályozó pontosan akkor diagnosztizál egy pácienst betegnek, ha a betegség feltételes valószínűsége a páciens egészségügyi adataira nézve nagyobb, mint annak a valószínűsége, hogy a páciens egészséges. Ezt az optimális függvényt becsüljük az osztályozáskor a megfigyelt adatok alapján.

\(\mathbb{P}\) együttes eloszlás általában ismeretlen, ezért a kockázatfüggvényt becsülnünk kell. A legismertebb becslés az ún. tapasztalati kockázat, a megfigyelt veszteségek átlaga: \[\displaystyle \widehat{R}(f) \doteq \frac{1}{n}\sum_{i=1}^n \ell( f(X_i), Y_i).\]

A nagy számok (erős) törvényének értelmében minden \(f\) osztályozóra \(\widehat{R}(f)\) konvergál az \(R(f)\) értékhez, \(1\) va­ló­szí­nű­ség­gel. A tapasztalati kockázat minimalizálásának módszere értelemszerűen az \(\widehat{R}\) függvény minimumhelyét keresi. Általában azonban minden \(f\) osztályozóhoz található egy \(\tilde{f}\) osztályozó, ami a mintapontokban megegyezik \(f\)-fel, azaz \(f(X_i) = \tilde{f}(X_i)\) minden \(i =1, \dots, n\), de mindenhol máshol \(f\neq \tilde{f}\), ezért önmagában a minta alapján nem lehet egyértelműen meghatározni a tapasztalati kockázatot minimalizáló osztályozót. Általában a tapasztalati kockázatminimalizálás esetében egy előre rögzített modellosztályra szorítkozunk. A modellosztályt gyakran egy véges dimenziós paramétervektor segítségével adjuk meg. Példaként tekinthetjük a lineáris (pontosabban az affin) osztályozókat, melyeket szeparáló hipersíkok definiálnak: \(\mathcal{F} = \{f \colon f(x) \doteq \mathop{\mathrm{sign}}(w^{\top} x + b), w \in \mathbb{R}^d, b \in \mathbb{R}\}\).

Legyen \((f_n)\) a Bayes optimális osztályozó egy becslése (ahol \(n\) a megfigyelések száma). Azt mondjuk, hogy az \((f_n)\) becslés (erősen) konzisztens, ha \(R(f_n) \to R(f^*)\), ahogy \(n \to \infty\), \(1\) valószínűséggel (mivel \(f_n\) függ a meg­fi­gye­lé­sek­től, ezért \(R(f_n)\) véletlen).

Ismeretlen eloszlás mellett adott mintaméretre hatékony osztályozót nehéz találni, az ún. „nincs ingyen ebéd” elve érvényesül [2, Theorem 7.1]:

1. tétel. Legyen \(\mathbb{X}\) egy végtelen halmaz. Ekkor minden \((f_n)\) becsléshez, \(n\) mintamérethez és \(\varepsilon > 0\) hiba­va­ló­szí­nű­ség­hez létezik egy \(\mathbb{P}\) eloszlás, amelyre \(R(f^*) = 0\) és \(\mathbb{E}[R(f_n)] \geq 1/2-\varepsilon\).

Ha a megfigyelésektől teljesen függetlenül, véletlenszerűen (\(1/2\) – \(1/2\) valószínűséggel) rendelnénk minden ponthoz egy osztályt, akkor lenne \(1/2\) az osztályozónk kockázata. A fenti tétel azt mondja, hogy egy adott becsléshez tudunk olyan „rossz” eloszlást konstruálni, amelyre a becslésünk kockázata tetszőlegesen közel lehet ehhez a teljesen véletlenített osztályozóhoz, noha van az adott problémára tökéletes, nulla kockázatú megoldás.

Megjegyezzük, hogy ez a tétel nem jelenti azt, hogy lehetetlen olyan becslést találni, amely univerzálisan minden eloszlásra konzisztens lenne, azaz \(R(f_n) \to R(f^*)\) teljesülne. Azt viszont igen, hogy a konzisztens becslések esetében is a konvergencia sebessége az eloszlás függvényében változik és lehet tetszőlegesen lassú. Egy meglepően egyszerű univerzálisan konzisztens módszert ad a \(k\)-legközelebbi szomszéd (\(k\)-NN) becslés. Jelölje \[\displaystyle N_k(x) \doteq \Big\{ j \in[n] \colon \sum_{i=1}^n \mathbb{I}(\lVert x- X_j\rVert > \lVert x-X_i\rVert)< k \Big\},\] ahol \([n] \doteq \{1, 2, \dots, n\}\). Tehát egy tetszőleges \(x\) pont esetén az \(N_k(x)\) halmaz a \(\{X_i\}_{i=1}^n\) halmazban az \(x\) pont \(k\) legközelebbi szomszédainak indexeit tartalmazza. Továbbá legyen \[\displaystyle f_{\text{kNN}}(x) \doteq \mathop{\mathrm{sign}}\Big(\frac{1}{k} \sum_{j\in N_k(x)} Y_j \Big).\]

A szomszédok számát a minta elemszámának függvényében növelhetjük, hogy egy konzisztens becslést kapjunk. Ha a \((k_n)\) sorozat olyan, hogy \(k_n \to \infty\) és \(k_n/n\to 0\), ha \(n \to \infty,\) akkor a \(k_n\)-NN becslés kockázata tart az optimális \(R(f^*)\) kockázat értékhez [2].

Az 1. Tétel miatt azonban nem várható el, hogy egy tetszőleges eloszlásból vett véges mintára is mindig használható becslést kapjunk, ezért érdemes megkötésekkel élnünk a lehetséges modelleket illetően. Általában a becslést egy \(\mathcal{F}\) modellosztályban fogjuk keresni. Mivel a tapasztalati kockázatminimalizálás már előfeltételezi egy modellosztály létezését, ezért ez a feltevés a gyakorlatban alapvető, mindazonáltal érdemes észben tartani, hogy ennek a feltevésnek lehet torzító hatása. Ezt nevezik a feladatban rejlő induktív torzításnak. Egy \(\mathcal{F}\)-ből származó becslés kockázattöbbletét felbonthatjuk két részre. \[\displaystyle R(f_n) – R(f^*) = \underbrace{ R(f_n) – \inf_{f\in\mathcal{F}} R(f)}_{\text{becslési hiba}}+\underbrace{\inf_{f\in\mathcal{F}} R(f) – R(f^*)}_{\text{approximációs hiba}},\]

Ha \(f^* \in \mathcal{F}\), akkor az approximációs hiba \(0\), azonban ez elég ritkán teljesül a gyakorlatban. Ha bővítjük a modell­osz­tályt, akkor az approximációs hiba csökken, viszont a becslési hiba növekedhet. A túl nagy modellosztály eredményezhet túltanulást, ilyenkor a modellbecslés a mintában lévő zajra is illeszkedik. Megfordítva, ha túl szűk modellosztályt választunk, akkor a becslési hibánk lecsökken, nem lesz nagy különbség a modellosztályban található legkisebb kockázatú becslés kockázata és az általunk talált becslés kockázata között, azonban az approximációs hiba ilyenkor megnő. Ezt a szintén nem előnyös jelenségét alultanulásnak nevezik. Ha növeljük a mintaméretet, akkor a becslési hibát tudjuk csökkenteni, viszont az approximációs tag csak a modellosztálytól függ.

strukturális kockázatminimalizálás elve szerint érdemes a modellosztályt úgy bővíteni a mintamérettel együtt, hogy a becslési hiba és az approximációs hiba is csökkenjen, lásd az 1. ábrát. Az approximációs hiba modellosztálytól való függésére több „mérőszámot” is megalkottak. Ezek a mérőszámok elsősorban a modellosztály kifejezőképességét hívatottak leírni. Ebben a cikkben az ún. Vapnik–Cservonenkisz-dimenziót (VC-dimenziót) mutatjuk be és ennek alkalmazását a bináris osztályozás esetére, lásd [7].

fig SRM
1. ábra. Torzítás-variancia dilemma, strukturális kockázatminimalizálás

Legyen \(\mathcal{C}\) egy halmazrendszer. Azt mondjuk, hogy \(\mathcal{C}\) szétzúzza az \(A\) halmazt, ha \[\displaystyle \forall \, S\subseteq A\colon \exists \,C \in \mathcal{C}\colon S=A\cap C.\]

Hasonlóan, bináris osztályozók egy \(\mathcal{F}\) osztálya szétzúzza az \(A\) halmazt, ha az osztályozók által generált \(\mathcal{C}_\mathcal{F} \doteq \{ C\colon \exists f \in \mathcal{F}, C = f^{-1}(\{1\})\}\) halmazrendszer szétzúzza \(A\)-t.

2. definíció. (VC-dimenzió) Legyen \(\mathcal{F}\) osztályozóknak egy családja. Az \(\mathcal{F}\) halmaz \(V_\mathcal{F}\) VC-dimenziója az a legnagyobb \(n \in \mathbb{N}\), amire létezik egy \(n\)-elemű \(\mathcal{F}\) által szétzúzott \(A\) halmaz. Ha ez a maximum nem létezik, akkor \(\mathcal{F}\) VC-dimenziója végtelen.

fig shattering
2. ábra. Lineáris osztályozók szétzúznak egy \(3\) elemű halmazt \(2\) dimenzióban

Megmutatható, hogy a lineáris osztályozók VC-dimenziója az \(\mathbb{R}^d\) térben \(d+1\) (lásd 2. ábra). A tetszőlegesen nagy fokú polinomok által generált osztályozók VC-dimenziója pedig végtelen. A VC-dimenzió segítségével jól bemutatható a strukturális kockázatminimalizálás. Legyen \(\ell\colon \mathbb{Y} \to \mathbb{Y} \to [0, \beta]\) egy korlátos veszteségfüggvény, \(\delta > 0\) és \[\displaystyle \varepsilon(n, V_\mathcal{F}, \beta, \delta) \doteq \beta \sqrt{\frac{V_\mathcal{F}\log\big(\frac{2n}{V_\mathcal{F}}+1 \big)- \log\big(\frac{\delta}{2}\big) }{n}}.\] Ekkor megmutatható, hogy

\(\displaystyle \mathbb{P}\left(R(f) \leq \widehat{R}(f) + \varepsilon(n, h, \beta, \delta)\right)\geq 1-\delta.\) (1)

Az ilyen típusú korlátokat nagy valószínűséggel megközelítőleg helyes – angol nevéből PAC – korlátoknak nevezik. A PAC korlátok nagyon elterjedtek a gépi tanulásban, és a gyakorlatban is jól használhatók. Fontos előnyük, hogy véges mintára is érvényes garanciával szolgálnak. Az (1) egyenlőtlenség alapján érdemes az \(\widehat{R}(f) + \varepsilon(n, h, \beta, \delta)\) tagot együttesen minimalizálni a tapasztalati kockázat helyett. Legyen \(\mathcal{F}_1 \subseteq \mathcal{F}_2 \subseteq \ldots\) modellosztályoknak egy bővülő sorozata. Természetesen ekkor a modellosztályok VC-dimenziója is monoton növő. A strukturális koc­ká­zat­mi­ni­ma­li­zá­lás során azt a modellosztályt és azon belül azt a modellt keressük, amelyre a fenti együttes hibatag minimális.

3. Szupport vektor gépek

Fontos példaként vizsgáljuk meg a lineáris osztályozóknak egy paraméteres részhalmazát: a \(\delta\)-margójú szeparáló hipersíkokat. Legyenek \(\mathcal{X} =\{x_1, \dots, x_r\}\) tetszőleges pontok \(\mathbb{R}^d\)-ben egy \(R\) sugarú origó középpontú gömbben. Tekintsük az \[\displaystyle \mathcal{F}_\delta(\mathcal{X}) \doteq \big\{ f(x) = \mathop{\mathrm{sign}}(w^{\top} x + b_0 )\colon k \in [r], \min_{k \in[r]} |w^{\top} x_k + b| =1, \lVert w\rVert \leq 1/\delta \big\}.\] modellosztályt, amely az \(\mathcal{X}\)-beli pontoktól legalább \(\delta\) távolságra lévő egyenesek által meghatározott osztályozókat tartalmazza. A  \(\min_{k \in[r]}\vert w^{\top} x_k + b\vert =1\) kitétel egyértelműsíti a hipersíkok paraméterezését, a statisztikus ta­nu­lás­el­mé­let­ben ezt a paraméterezést szokás kanonikus paraméterezésnek nevezni (tehát itt \(w\) tipikusan nem egységvektor). Az \(\mathcal{F}_\delta(\mathcal{X})\) halmaz VC-dimenziójára adható egy felső korlát a \(\delta\) függvényében [5,6].

3. tétel.Legyen \(\mathcal{X} \subseteq \mathbb{R}^d\) egy véges halmaz. Tegyük fel, hogy \(\mathcal{X} \subseteq B(\mathbf{x},R)\) egy valamilyen \(\mathbf{x} \in \mathbb{R}^d\) elemre. Tekintsük az \(\mathcal{F}_\delta(\mathcal{X})\) osztályozókat az \(\mathcal{X}\) halmazon. Ekkor \[\displaystyle V_{\mathcal{F}_\delta(\mathcal{X})} \leq \min\Big(\Big\lceil\frac{R^2}{\delta^2}\Big\rceil, n \Big) + 1.\]

Ez az állítás motiválja, hogy érdemes a margót növelni, ha a függvényosztály komplexitását csökkenteni szeretnénk. Megjegyezzük azonban, hogy az (1) egyenletben szereplő korlát csak akkor érvényes, ha a strukturális kockázat minimalizálásban szereplő függvényosztályok nem függnek a mintától  [6].

Vizsgáljuk meg azt az esetet, amikor az osztályok lineárisan szeparálhatók, azaz \(R(f_*) = 0\). Ilyenkor mindig található egy olyan lineáris osztályozó is, aminek a tapasztalati hibája \(0\). Egy optimalizálási feladat segítségével megkereshető a maximális margójú hipersík is. Belátható, hogy ez egyértelműen létezik.

Egy \(x \in \mathbb{R}^d\) pont algebrai távolsága egy \((w,b)\) paraméterekkel meghatározott hipersíktól az \(r\) valós szám, ha \(\displaystyle x = x_p + (w/\lVert{w}\rVert)r\) fennáll egy \(x_p\) hipersíkon lévő pontra, azaz \(w^{\top} x_p + b =0\). Az algebrai távolság a kanonikus paraméterezés mellett fordítottan arányos a \(w\) vektor normájával, ugyanis

\(\displaystyle d(x)\) \(\displaystyle \doteq\frac{1}{\Vert w\Vert} \big(w^{\top} x + b\big) = \frac{1}{\Vert w\Vert} \bigg(w^{\top}\bigg(x_p + \frac{w}{\Vert w\Vert}r\bigg) + b\bigg)\)
  \(\displaystyle = \frac{1}{\Vert w\Vert} \big(w^{\top} x_p + b\big) + \frac{1}{\Vert w\Vert} \bigg(\frac{w^{\top} w}{\Vert w\Vert}r\bigg) = r.\)

Az \(x\) pont euklideszi távolsága a \((w,b)\) által meghatározott egyenestől (hipersíktól) értelemszerűen \(\vert d(x)\vert\). A hipersík margója a mintákra nézve \(\delta_* \doteq \min_{k \in [n]} \vert d(x_k)\vert\). Azokat az \(\{x_k\}\) magyarázóvektorokat, amelyekre \(\vert d(x_k)\vert = \delta_*\), szupport vektoroknak nevezzük. Belátható, hogy ugyanezekre a vektorokra teljesül a \(\vert w^{\top} x_k + b\vert = 1\) egyenlőség. Ezen meggondolások alapján a \(\lVert{w}\rVert\) mennyiséget kell maximalizálni a kanonikus paraméterezés által meghatározott peremfeltételek mellett, lásd a 3. ábrát. Evvel ekvivalens módon az alábbi konvex kvadratikus optimalizálási problémát kell megoldanunk:

\(\mathop{\hbox{minimalizáljuk}}\limits_{w \in \mathbb{R}^d, b \in \mathbb{R}}\)      \(\frac{1}{2}\Vert w\Vert^2\)   
 feltéve, hogy  \(y_k \big(w^{\top} x_k + b\big) \geq 1\) minden \(k=1,\dots,n\)

A nemlineáris optimalizálás elméletéből ismert Karush–Kuhn–Tucker-feltételek [1] alapján belátható, hogy az optimális \(w\) megoldáshoz legalább két szupport vektor, \(x^{+}\) és \(x^{-}\), tartozik, ugyanis ellenkező esetben a margót növelni lehetne. Ezekre a vektorokra teljesülnek a \(w^{\top} x^{\pm} + b = \pm 1\) egyenletek, amelyek segítségével az optimális \(b\) paraméter is meghatározható. Ezt a módszert a szigorú margójú szupport vektor gépek módszerének nevezzük, és az így kapott osztályozót (lineáris) szupport vektor osztályozónak hívjuk.

fig svm bak m page 001
3. ábra. Optimális hipersík maximális margóval

Természetesen a gyakorlatban ritka az, hogy a mintában szereplő adatok lineárisan szeparálhatók. Ezt a problémát először úgy oldjuk fel, hogy ugyan továbbra is egy lineáris osztályozót konstruálunk, de segédváltozókat adva a korábbi optimalizálási probléma peremfeltételeihez megengedjük, hogy az osztályozó hibázzon a mintapontokban. A hibákat egy \(\lambda > 0\) segédparaméterrel súlyozzuk a költségfüggvényben. A relaxált megoldást szolgáltató új feladat szintén konvex kvadratikus, így hatékonyan megoldható:

\(\mathop{\hbox{minimalizáljuk}}\limits_{w,\xi \in\mathbb{R}^d, b\in\mathbb{R}}\) \(\frac{1}{2}\|w\|^2+\lambda \sum_{k=1}^{n}\xi_k\)   (2)
 feltéve, hogy \(y_k \big(w^{\top} x_k + b\big) \geq 1-\xi_k\) minden \(k=1,\dots, n\)  
  \(\xi_k \geq 0\) minden \(k=1, \dots, n\)  

Ebben az esetben a \(b\) paraméter egy olyan \(j\) indexű peremfeltételből fejezhető ki, amelyre \(\xi_j > 0\). Ezt a feladatot szokás gyenge margójú lineáris szupport vektor osztályozásnak nevezni. Vegyük észre, hogy a gyenge margójú esetben a margó értelmezése nem teljesen egyértelmű, a margót megsértő adatpontok miatt. A \(\lambda\) regularizációs paramétert a gyakorlatban általában keresztvalidáció segítségével hangolják be.

A segédváltozók bevezetése ugyan kiterjeszti a megoldást olyan esetekre is, amikor a két osztályból kapott minták szigorú értelemben nem választhatók ketté egy hipersíkkal – mert a két osztály mintái összekeveredtek – de (2) még mindig a lineáris osztályozók terében keres modellt. Tanulmányunk folytatásában megmutatjuk majd, hogy a nemlineáris problémák esetét hogyan lehet visszavezetni a lineáris osztályozók elméletére a kernel módszerek segítségével. Az alapötlet az lesz, hogy transzformáljuk az adatainkat egy nagy (akár végtelen) dimenziós térbe, amelyben már azok lineárisan szeparálhatóak.

Irodalomjegyzék

[1] Boyd, S. P., and Vandenberghe, L. Convex Optimization. Cambridge University Press, 2004.

[2] Devroye, L., Györfi, L., and Lugosi, G. A Probabilistic Theory of Pattern Recognition, vol. 31. Springer Science & Business Media, 2013.

[3] Russel, S. J., and Norvig, P. Artificial Intelligence: A Modern Approach, 4th ed. Prentice Hall Series in Artificial Intelligence. Pearson, 2020.

[4] Samoili, S., Cobo, M. L., Gómez, E., De Prato, G., Martínez, Plumed, F., and Delipetrev, B. AI Watch: Defining artificial intelligence. Towards an operational definition and taxonomy of artificial intelligence. JRC Research Reports of the European Commission, JRC118163 (2020).

[5] Schölkopf, B., and Smola, A. J. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press, 2002.

[6] Shawe-Taylor, J., Bartlett, P. L., Williamson, R. C., and Anthony, M. Structural risk minimization over data-dependent hierarchies. IEEE Transactions on Information Theory 44, 5 (1998), 1926–1940.

[7] Vapnik, V. Statistical Learning Theory. Wiley-Interscience, 1998.

Tamás Ambrus és Csáji Balázs Csanád
HUN-REN SZTAKI és ELTE Matematikai Intézet

A rovat ajánlott cikkei
A modern matematika nagy fejezetei nőttek ki a 100 éve meghalt Felix Klein gondolatai nyomán, beleértve Klein Erlangen-programját, valamint a Lie-csoportok és Lie-algebrák jelentős területeit. Míg sokáig úgy tűnhetett, hogy a szimmetriák diszkrét és folytonos csoportjainak vizsgálata messze esik egymástól, a későbbi kutatások határozottan közelebb hozták ezt a két területet.
Miközben a természetes számoktól eljut az algebrai számokig és mai alkalmazásukig, a szerző, Szalkai István rengeteg hivat­ko­zás­sal és lábjegyzettel indokolja, magyarázza mondanivalóját, amivel bevezeti az Olvasót az algebrai számok körébe.
2025. március 27-én Kalmár László Emléknapot tartottak Szegeden a jeles matematikus, az informatika hazai úttörője születésének napra pontosan 120. évfordulóján. A Magyar Tudományos Akadémia Szegedi Akadémiai Bizott­sá­gá­nak székházában elhangzott előadásokból Szabó Péter Gábor: Kalmár László, a matematikus című előadásának lejegyzett és szerkesztett változatát tesszük most közzé.
A 2025-ös Abel-díjat Kasivara Maszaki japán matematikus (Masaki Kashiwara, fotó: Thomas Brun) kapta az algebrai analízishez és a reprezentációelmélethez való alapvető hozzájárulásaiért, ezen belül a D-modulusok elméletének kidol­go­zá­sá­ért és a kristálygráfok felfedezésééert. Szabó Szilárd cikke rövid betekintést nyújt Kasivara matematikai munkásságába.
Kollár János 2025-ben elnyerte a Bolyai János Nemzetközi Díjat, erről az Érintő két hírében is olvashatnak: Kéri Gerzson: A Bolyai-díjakról és a 2025-ös díjazottakról és Az MTA 199. közgyűlésének díjazottjai című cikkekben. Kovács Sándor írása Kollár János matematikai munkásságának egyik kiemelkedő részét, a magasabb dimenziós moduluselméletben elért eredményeit ismerteti meg az olvasóval.
Hírlevél feliratkozás