Matematikai könyvek ellenőrzött gépi fordítása

Matematikai könyvek ellenőrzött gépi fordítása

Napjainkban a tudományos publikációk – cikkek, szakkönyvek – túlnyomó többsége angol nyelven születik. A gyakran csak szűk kör érdeklődésére számot tartó műveket nem éri meg lefordítani kisebb nyelvekre. Amellett, hogy így esetleg kevesebb emberhez juthatnak el az eredmények, nagyobb veszélyt jelent, hogy nem fejlődik a tudományos szaknyelv, ami azzal a következménnyel járhat, hogy az adott nyelv egy idő után alkalmatlanná válik új tudományos eredmények leírására. Gondoljunk a XIX. századi magyar nyelvújításra, amelynek egyik fő célja volt, hogy a fejlődésben a Nyugattól lemaradó országban a magyar nyelvet hamar alkalmassá tegye a modern tudomány művelésére.

A gépi fordításban elért legújabb eredményeknek köszönhetően a tudományos szakirodalomban az egyetlen nyelv virtuális monopóliuma már nem indokolt. Az automatikus fordítások minőségének javulása lehetővé teszi szakszövegek gyors átültetését számos nyelvre. Az esetek többségében ugyan szükség van arra, hogy a gépi fordítást szakértő nézze át, javítsa, ez azonban már sokkal kevesebb munkát és időt igényel, mint a teljes fordítás elkészítése. A gyors fordítás lehetősége arra is motiválhatja a szerzőket, hogy az újonnan születő szakkifejezésekre megfelelő szakszót alkossanak a saját nyelvükön.

Nicolas Bacaër 2017-ben kezdett foglalkozni a gépi fordítás felhasználásának lehetőségével  a tudományos életben. Először cikkeit tette elérhetővé több nyelven, majd a fordítások minőségének javulásával, új fordítóprogramok (mint a DeepL) megjelenésével „A matematikai populációdinamika rövid története” és a „Matematika és járványok” című könyveinek fordítását is elkészítette számos nyelven. A magyar fordítás átnézését és javítását Dénes Attila végezte

Az alábbiakban ismertetjük, hogyan használható a DeepL fordító matematikai szakszövegek fordítására, valamint bemutatjuk a fordítás és az ellenőrzés nehézségeit is. 

A DeepL története

A DeepL Translator neurális gépi fordítási szolgáltatás 2017-ben indult el hét nyelvvel (német, angol, francia, spanyol, olasz, lengyel és holland). A DeepL-t a kölni székhelyű Linguee cég fejleszti, a fordítás Izlandon vízenergiával működtetett számítógépeken fut. A DeepL alapítója Jaroslaw Kutylowski. Az alapítást követő években számos összehasonlító teszt eredménye azt mutatta, hogy – bár kevesebb nyelvet tartalmaz – a DeepL fordításainak minősége jobb a Google-éinél. 2018-ban a meglévő hét nyelv mellett megjelent a portugál és az orosz, 2020-ban a kínai és a japán, 2021-ben 13 európai nyelv, köztük a magyar, majd 2022-ben a török és az indonéz. A DeepL-ben nem szereplő nyelvekhez más automatikus fordítót kell használni. Így például „A matematikai populációdinamika rövid története” ukrán nyelvű fordítása a Yandex fordítóval készült, forrásként az orosz nyelvű fordítással. A katalán nyelvű fordítás pedig a https://www.softcatala.org/traductor/ címen elérhető fordító segítségével készült a spanyol nyelvű fordítás alapján.

Hogyan fordítsunk matematikai szövegeket a DeepL ingyenes, 5000 karakterre korlátozott változatával?

1. módszer (elsősorban matematikai ismeretterjesztő művek fordítására alkalmas)

Különbséget kell tennünk a mondatokon belüli matematikai képletek (LaTeX-ben \$…\$) és a külön sorokba írt képletek (LaTeX-ben \$\$…\$\$) között.
Elsőként másoljuk az egér segítségével a DeepL-be a LaTeX fájl egy vagy két bekezdését, azonban a külön sorba írt képletek kihagyásával, majd válasszuk ki a célnyelvet. Ellenőrizzük, hogy a DeepL nem módosította-e a \$…\$ jelek között szereplő képleteket (például a DeepL néha lefordítja a "\to" utasítással megadott nyíl szimbólumot). Ha ezt a lépést kihagyjuk, nem jelent gondot, mert a problémát általában könnyen észrevehetjük a fordítás után. Ezután az egér segítségével másoljuk vissza a fordítást a forrásfájlba és helyezzük vissza a \$\$…\$\$ jelek között szereplő, külön sorba írt képleteket, majd folytassuk a következő bekezdésekkel.
Egyes szakszavak esetében, amelyeket a fordító esetleg rosszul fordít le (pl. Fibonacci-sor Fibonacci-sorozat helyett), a Wikipédián találhatunk útmutatást. Ha a DeepL hibás fordítást javasolt, térjünk vissza a fordítási mezőbe, és kattintsunk a hibásan lefordított szóra (a célnyelvi oldalon). A DeepL gyakran különböző lehetséges fordítások listáját kínálja, és a Wikipédiában olvasható pontos szakkifejezés szinte mindig megtalálható a javaslatok között.

Végül pedig hozzáértő anyanyelvi lektorokat kell találni. 

Ezzel a módszerrel készült „A matematikai populációdinamika rövid története” című könyv fordítása 16 nyelvre, köztük magyarra is. A „Matematika és járványok” című könyv spanyol fordítása is így készült.

2. módszer (alkalmasabb a nagyszámú képletet tartalmazó tudományos matematikai szövegek fordítására)

Alkalmazzuk a https://github.com/drgulevich/gtexfix programot, amelyet Dimitrij R. Gulevics orosz fizikus írt. Másoljuk a LaTex fájl néhány bekezdését (ezúttal a külön sorba írt, \$\$…\$\$ jelek közti képletekkel együtt) egy új tex fájlba, majd indítsuk el a programot a "to.py fajlnev.tex" utasítással. A program az összes matematikai képletet számokkal helyettesíti és egy txt fájlt hoz létre. Másoljuk ezt a txt fájlt a DeepL-be (fontos, hogy a fájl 5000-nél kevesebb karaktert tartalmazzon, különben a DeepL hibaüzenetet küld). Másoljuk a fordítást egy újabb txt fájlba, majd indítsuk el a programot a "from.py forditas.txt" utasítással. A program visszahelyezi a matematikai képleteket a megfelelő helyre és egy forditas.tex nevű fájlt hoz létre, amelyet másolhatunk és beilleszthetünk. Néha kisebb hibák keletkeznek (például a fordítás felcseréli egyes egyenletek sorrendjét, vagy ha a forrásfájl pl. 1.2 alakú számokat tartalmaz, amelyek könnyen összetéveszthetők az egyenletek számozásával). A program azonban megjeleníti a problémák magyarázatát, így manuálisan megoldhatjuk őket.

Ezzel a módszerrel készült a „Matematika és járványok” című könyv román és német nyelvű fordítása.

 A gépi fordítás ellenőrzése

A gépi fordító által készített fordítás elkészültével a munka még közel sincs készen. Bár a DeepL által készített fordítások (ahogy fent is említettük) sokkal jobb minőségűek a korábbi gépi fordításoknál, sok esetben javításra van szükség. Különösen igaz ez abban az esetben, ha szakszövegről van szó. Matematikai szövegek esetében nem csak a szakkifejezések nehezítik a gépi fordító dolgát, hanem a szövegben szereplő képletek is, amelyeket sokszor hibásan kezel a fordító. Mindezek miatt feltétlenül szükség van arra, hogy az elkészült gépi fordítást a szöveg témájához értő anyanyelvi lektor is átnézze. Ez gyakran nem egyszerű feladat, hiszen egy könyv esetén a fordítás átnézése, javítása nem kevés időt igényel és sok munkával jár, a lektorokat – az anyanyelvi szaknyelv ügyének előremozdítása mellett – egy-egy nyomtatott példány motiválhatja, valamint az, hogy nevük megjelenik a lefordított mű címlapján. A lefordított művek pdf formátumban ingyenesen elérhetőek a szerző honlapján, illetve a nyomtatott példányok is önköltségi áron vásárolhatók meg – ha ez nem így lenne, alighanem még nehezebb lenne önkénteseket találni a fordítások javítására. Érdemes azonban megjegyezni, hogy a kutatók önkéntesen, minden ellenszolgáltatás nélkül, anonim módon vállalják cikkek bírálatát a nagy kiadók számára.

A magyar fordítás készítésénél talán mind a gépnek, mind a lektornak nehezebb dolga van, mint más nyelvek esetén: aki valaha használt gépi fordítót, észrevehette, hogy a magyarra/magyarról fordítás általában rosszabb minőségű, mint a világnyelvek közötti. Ez természetesen azt eredményezi, hogy a lektornak figyelmesebbnek kell lennie és többször kell felülbírálnia a gépi fordítást, mint sok más nyelv esetén. 
Azt gondolhatnánk, hogy a kész fordítás ellenőrzése már sokkal könnyebb feladat, mint a teljes szöveg fordítása. Természetesen a fordító nagyban megkönnyíti a munkát, azonban az, hogy a teljes szöveg már magyarul van, különös figyelmet igényel a lektortól, mivel így sokkal könnyebb véletlenül átsiklani egy-egy hibásan fordított mondaton, esetleg olyan részleten, amely elfogadható, de nem a legválasztékosabb fordítása az eredetinek. Ha az ember maga végzi a fordítást, ilyen veszély nem áll fenn. Fontos, hogy a lektor folyamatosan figyelje az eredeti szöveget is, különben előfordulhat, hogy olyan mondat marad a szövegben, amely nyelvtanilag helyes ugyan, de nem az eredeti szöveg pontos fordítása.

Mivel esetünkben matematikai szakszöveg fordításáról és ellenőrzéséről volt szó, különösen kellett ügyelni arra, hogy vajon a gépi fordító helyesen fordította-e a szakkifejezéseket. Számos szakszó javítására volt szükség. Szerencsés, ha több, különböző szakterületekkel foglalkozó lektor is átnézi a fordítást, akik egyrészt egymás munkáját is ellenőrizhetik, másrészt pedig a saját területük szakkifejezéseit pontosan ismerik. A magyar szöveg ellenőrzésére nem sikerült több jelentkezőt találni, azonban a Wikipédia, illetve az interneten található szakszövegek sokat segítettek a matematika eltérő területeit alkalmazó modellek leírásában szereplő szakkifejezések pontos fordításában. 

A lefordított könyvek terjesztésének kérdése

Mivel szakkönyvek esetén gyakran nem könnyű olyan kiadót találni, amelyik vállalja több száz, vagy akár több ezer példány nyomtatásának kockázatát, választhatjuk a saját kiadás lehetőségét: elegendő egy nyomdát találni a papír alapú könyvek nyomtatásához. Mindazonáltal a gépi fordítás nem összeegyeztethetetlen a hagyományos kiadóknál történő kiadással. Ez lesz a helyzet „A matematikai populációdinamika rövid története” japán változatával is, amely Hisashi Inaba professzor támogatásának köszönhetően idén jelenik meg a University of Tokyo Press kiadónál. A könyvek elektronikus terjesztéséhez elegendő a pdf fájlt a szerző vagy a lektorok honlapján vagy egy repozitóriumban elhelyezni. „A matematikai populációdinamika rövid története” fordításai pdf formátumban ingyenesen elérhetők a szerző, Nicolas Bacaër honlapján. 

Nicolas Bacaër, Dénes Attila