Univerzális fordítóprogramon dolgozik a Meta

Univerzális fordítóprogramon dolgozik a Meta
A Meta februárban bejelentette, hogy új, mesterséges intelligenciára épülő kutatási projektet indít. Ennek célja egy olyan fordítószoftver létrehozása, amely „a világon mindenkinek” működik. Németh Géza beszédtechnológia-kutatót kérdeztük arról, hogy van-e reális esély egy ilyen fordítóprogram elkészülésére.

A Meta-projekt egyik része olyan mesterséges intelligencia (MI) modellek létrehozására összpontosít, amelyek kevesebb gyakorló példa felhasználásával képesek megtanulni a nyelvi fordítást. A másiknak a célja pedig egy univerzális beszédfordító rendszer megalkotása, amely valós időben, közvetlenül fordít beszédet egyik nyelvről a másikra anélkül, hogy szükség lenne egy írott szövegre. A cég szerint ezzel emberek milliárdjai előtt szűnnének meg a nyelvi akadályok, és anyanyelvükön is hozzáférnének olyan információhoz, amitől eddig elestek.

Németh Gézával, a Budapesti Műszaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Karának egyetemi docensével, beszédtechnológia-kutatóval beszélgettünk arról, hogy mennyi esély van arra, hogy valóban elkészüljenek ezek az MI-alapú rendszerek. Ő vezeti a Mesterséges Intelligencia Koalíció Nemzetközi Kapcsolatok Munkacsoportját, és az AI4EU nevű európai uniós mesterséges intelligencia platform magyar nemzeti kapcsolattartója.

Mit értünk pontosan mesterséges intelligencia alatt? Mi tartozik bele?

Többféle definíció létezik a mesterséges intelligenciára. Nekem az a definícióm, hogy az MI az emberi kognitív funkciók gépi megvalósítása, vagy kiegészítése. A kiegészítés is fontos, mert például amikor műholdról követik az orosz csapatok mozgását, az az emberi látás megvalósítása géppel. Ha ezt úgy készítenék, hogy egy ember ülne a műholdon, és kamerával nézné, az ugyanezzel az eredménnyel járna.

Nagyon sokáig a beszédtechnológiát nem tartották a mesterséges intelligenciába tartozó megoldásnak. Amikor indult az MI, akkor a szakértői rendszerek, az orvosi diagnosztika számított jellemző alkalmazásnak. Mostanában a mélytanulást – deep learning – gyakran azonosítják a mesterséges intelligenciával, ami inkább szűkítése annak (az MI egyik ága a szabály-, illetve a tudás alapú megközelítés, a másik pedig az adatvezérelt gépi tanulás, aminek egyik alfaja a mélytanulás).

Az utóbbi időben mintha mindenhol a mélytanulást emlegetnék. Önök is kutatják?

Mi már 11 éve foglalkozunk vele, nagyjából azóta, hogy elindultak külföldön a kutatások. A BME TMIT Beszédkommunikáció és Intelligens Interakciók laborcsoport három kutatói közösségében körülbelül 20 ember főállásban beszéddel kapcsolatos dolgot vizsgál. Beszédszintézissel indultunk, és alkalmazásokkal, interakciókkal, ügyfélszolgálat-automatizálással is foglalkozunk. Van olyan laborunk is, ahol beszédfelismeréssel vagy úgynevezett nem-verbális jellemzőkkel foglalkoznak: személyazonosítással, érzelem-detekcióval, betegség-detekcióval.

Igyekszünk a beszéd témakörnek minél nagyobb részét lefedni, de szerencsénk van, hogy a mélytanulással az elején elkezdtünk foglakozni. Az kezd most olyan infrastruktúrává válni, mint amilyen 40 évvel ezelőtt a C-programozás, az egyik legnépszerűbb programozási nyelv volt.

Mennyire számít újdonságnak a Meta célkitűzése?

Beszédről beszédre fordító eszköz már ma is létezik. Láttam olyan demót, hogy valaki kínaiul belebeszélt, és elfogadható minőségben megszólalt magyarul. Ezek általános témákra alkalmasak. Például merre van ez, vagy az, de utcaneveknél már nem működik. Ilyen termék már kapható itthon is, igaz, még drágán.

Lenne akkora dobás egy univerzális fordítóprogram, mint amikor az okostelefonok megjelentek?

Általában kétségek merülnek fel bennem, amikor azt mondják, hogy valami univerzálisan mindenre alkalmas. Még a profi tolmácsok is hibáznak, vannak diplomáciai botrányok félrefordításokból.

Milyen szinten állnak most a fordítást támogató eszközök?

Kicsit olyanok, mint a Google translate. Az is sokat fejlődött, de messze van a tökéletestől. A beszédfelismerésben már létezik a „speech to text” technológia, hogy mondunk valamit, és ebből egy karakter-sorozatot készít a modell. Nincs még viszont olyan rendszer, ami érzékeli a különbséget a hanglejtésben, márpedig ez módosíthatja a szöveg jelentését is. Vagy azt sem tudják még kezelni, amikor ő-zünk beszéd közben.

Angolul esetleg lehet már jobb program?

A nagy modellek angolra még esetleg működnek, de ott is óvatos lennék, hogy például az Anyám tyúkját szoftverrel fordíttassam angolra. Ott már gond van.

Lehetséges, hogy elkészül belátható időn belül a Meta két modellje?

Nem hiszek az exponenciális robbanásokban. Inkább folyamatos technológiai fejlődés van. Másrészt a felhasználónak is meg kell rá érnie. Még mindig nagyon sok ember irtózik a mobiltelefontól.

Mi az, ami akadályt jelent a beszédkutatásokban?

Az ember nagyon sokszínű, és a beszédünk is az. Az igazán nagy kihívások mögé viszont sokszor nehéz pénzt tenni.

Még sokkal több lépés hiányzik a célként megfogalmazott fordítóprogram elkészítéséhez, mint ahogy első ránézésre tűnik?

Sokkal több faktorból tevődik össze. Elég furcsa lenne például az is, ha én férfiként magyarul belebeszélek egy gépbe, és utána egy női hang horvátul megszólal. Ezek az információk a szövegben nincsenek benne, és az alkalmazásfejlesztők még nem figyelnek rá.

A beszédfelismerők a kiegészítő információkat ma még többnyire nem nyerik ki. Például hogy mi az alapfrekvencia jellemző értéke, pedig abból el lehet dönteni, hogy gyerek, férfi vagy nő beszél.

Ha igazán jó, beszédről beszédre fordítást szeretnék, akkor ezeket a nonverbális jellemzőket is – amiket emberként tapasztalatunk alapján általában eltalálunk – ki kellene nyerni, át kellene vinni a rendszeren, és a túlsó végén megjeleníteni. Erre már vannak technikák, például a voice cloning, ami a nyelveken keresztüli beszédkarakter átvitelt jelenti. Vannak erre kutatások, több-kevesebb eredménnyel, de arról nem tudok, hogy valaki ezt egy komplett rendszerbe összerakta volna.

Lát arra esélyt, hogy ez elkészül?

Elvileg összerakható, de idő kell hozzá. A legnagyobb cégnek, a Google-nek van beszédfelismerője mondjuk 100 nyelvre. Beszédszintetizátora pedig talán 40/50-re. A világon körülbelül 7000 nyelv van, amiben holt nyelvek is vannak. Élő nyelv 3500-4000 körül van. A magyar a maga körülbelül 15 millió anyanyelvi beszélőjével, a beszélők számát tekintve a top százban van. Amikor univerzális fordítóprogramokról beszélnek, akkor emiatt is csodálkozom.

Kérdés még az is, hogy mi az a nyelv, ami túl fog élni, és melyek azok a nyelvek, amelyek a digitális világban életképesek. Azzal, hogy EU-tagok vagyunk, a magyar is bekerült a multicégek listájára. Készülnek már magyarra is olyan automatikus fordítások, amik nagyjából működnek, esetleg egy férfi és egy női hangra.

A stroke-on átesett, beszédsérüléssel élőknek például óriási segítség lenne egy alapüzenetekre alkalmas beszédszintetizátor, amit már 30 éve kifejlesztettünk. Kiválasztja azt az üzenetet, hogy „éhes vagyok, vegyél kenyeret”, megnyomja a gombot, és írás nélkül beszéddel tud üzenni a rokonának. Mégis furcsa lenne, ha az összes beszédsérült nő „ugyanazon a női hangon” szólalna meg.

Erre a pici résre hogyhogy nem csapott még rá senki?

Van egy szakadék ott, hogy mit lenne jó kutatni, majd mire van pénz. Sokszor a társadalmi kooperáció is hiányzik. Például Prószéky Gáborék a Morphologicnál évekkel a Google előtt létrehozták a webforditas.hu oldalt. Amikor ugyanezt a funkciót a Google később bevezette, bombahírként végigment az egész magyar sajtón. Azzal a hozzáállással is sokszor találkozunk, hogy ami egyetemi környezetben készül, az biztos nem használható a gyakorlatban. Inkább megvárják, amíg egy nagy multi kijön egy hasonló megoldással, ami nem biztos, hogy van olyan jó.

Nem elég, ha jó a kutatás eredménye?

Nehéz eredményt elérni az MI területén, mert a kutatóhelyeken még folyik a kutatás, de amikor piacra lépnénk, a multikkal nem tudunk versenyezni. Monopolizálódik a technológia.

A jó beszédfelismerőhöz nagyon jó nyelvi modell kell. Honnan szerzünk olyan mennyiségű szöveget az adott témakörben, amiről a modellünket be tudjuk tanítani? Főleg magyar nyelven. A Google eközben a keresőjéből nagyon jó modelleket tud a keresési feladatra felépíteni. Abból, hogy mire keresnek rá az emberek. Vagy a Gmail felhasználási feltételei között ott van, hogy a Google felhasználhatja kutatási célra a levelezést: hogyan levelezünk, hogyan fogalmazunk. Eközben pedig a Facebook a Messenger-üzenetekből a rövid üzenetekre tud egy jó modellt építeni. Nagyon kiegyensúlyozatlan világban élünk, ahol óriási szakadék van a legnagyobb cégek és kisebb cégek, a legnagyobb nyelvek és a kisebb nyelvek között.

A Meta szerint a két szoftver távoli cél, de nem teljesen lehetetlen. Erről mit gondol?

A multinak, főleg, ha kutatásról van szó, mindig valami megoldhatatlannak tűnőt kell mondania, hogy legyen benne tudományos kihívás és hírérték. Az emberi tapasztalat, érzékelés minden embernek ott van. Éveken keresztül még alvás közben is értékelünk, tanulunk, feldolgozunk. Ennek gépi megvalósítása még nagyon távol van.

A legtöbb beszédszintetizátor például kiválóan mond kijelentő mondatokat, de ha egy kérdő mondatot beteszünk, már nem biztos, hogy jó lesz. Nem tudják megvalósítani a helyes intonációt.

Azt gondolnám, hogy a jól működő, beszédet segítő eszközök a betegek, afáziások életét is megkönnyítenék. Ez sem gyorsítja fel a folyamatot?

Persze, ilyenen dolgozunk is, de az orvosok is kellenének hozzá, és ott van egy szakadék. Az egyetemi orvos is agyon van terhelve. Nem is biztos, hogy van rá ideje, hogy megmondja, mire lenne szükség ahhoz, hogy jól működjön a gyakorlatban egy program.

Akkor még az egynyelvű beszédtechnológiában is van hova fejlődni?

Még ott is rengeteg a kérdés. Most robban a világ ezen a területen, itthon is vannak kézzelfogható eredmények. Például a magyarorszag.hu-n is van a MIA chatrobot, ami felolvassa az üzenetét, az ügyfél pedig írás helyett be is diktálhatja a mondanivalóját. A rendszer tanul a beírások alapján.

Mire számít öt éven belül a beszédtechnológia területén?

Az alkalmazásoknál elég nagy a hangsúly a nyelvi technológiákon. Ebben nagyon sokan dolgozunk itthon is a Mesterséges Intelligencia Koalíción belül.

Azt látom, hogy a világon mindenhol asszisztens-fejlesztés megy, minden cég fejleszti magának a saját asszisztensét. Most az MI körül hatalmas a felhajtás, és a chatbot világ is hasít. Várhatóan ezt kiegészítik majd a beszédkutatások.

A másik húzó dolog a fogyatékossággal élőknek szóló, egészségügyi alkalmazások elterjedése lehet. Mi is dolgozunk egy szoftveren az MTVA-nak, amiben egy gépi narrátor felolvassa, hogy mi történik a TV filmben a képernyőn. Ez a látássérülteknek nagy segítség lesz.

Kövesd az oldalunkat a Facebook-on és a Twitteren is!


Bíró Veronika

Évekig konferenciákat szervezett, majd egy hirtelen mozdulattal eldöntötte, hogy újságíró lesz, és elvégezte a MÚOSZ tanfolyamát. Nem sokkal később a 168 Óra újságírója, majd a Népszava online …