Meg tudjuk mutatni, hogy hol és mikor verték át a nagymamát – interjú Németh T. Enikővel és Csendes Tiborral
Hogyan lehet korszerű nyelvészeti eszközökkel megkülönböztetni az interneten szélsebesen terjedő álhíreket a valódi, megbízható forrásokból származó információktól? Mit tud az MTA támogatásával fejlesztett Álhírdetektor applikáció? Magyar vagy kazah nyelven terjednek jobban az átverések? Az MTA Tudomány a Magyar Nyelvért Nemzeti Program (TMNYNP) Álhírek, áltudományos nézetek nyelvészeti azonosítása című alprogramjának két kutatójával beszélgettünk a csaknem ötmilliárd emberre komoly veszélyt jelentő online dezinformáció jelenségéről. A szegedi és debreceni egyetemen zajló közös kutatás eddigi eredményeiről is beszámolnak az MTA Nyelv- és Irodalomtudományok Osztálya pénteki tanácskozásán.
A trójai falótól az online dezinformációig: hamisság, megtévesztés, manipuláció – interdiszciplináris megközelítésben címmel egész napos konferenciát tart június 27-én, pénteken a Magyar Tudományos Akadémia Nyelv- és Irodalomtudományok Osztálya. A konferencián meghallgatható előadások az interneten a valódi híreknél tízszer nagyobb eléréssel terjedő dezinformáció különböző formáival, például az álhírek és áltudományos szövegek, a „deep fake” és „cheap fake” hírek legaktuálisabb kérdéseivel foglalkoznak. Az előadók közt szerepel Németh T. Enikő akadémikus, a Szegedi Tudományegyetem Általános Nyelvészet Tanszékének vezetője, az MTA Tudomány a Magyar Nyelvért Nemzeti Program (TMNYNP) 4. alprogramjának vezető kutatója, aki kollégájával, Csendes Tibor matematikussal, az MTA doktorával többek között arról beszélt az alábbi interjúban, hol tart az álhírek, áltudományos nézetek nyelvészeti azonosítását célzó projektjük, milyen korszerű eszközöket tudnak a magyar nyelvész és informatikus kutatók a hétköznapi felhasználók és a hatóságok kezébe adni a dezinformáció elleni hatékony küzdelemhez.
2022-ben indult a szegedi és a debreceni egyetemen a Tudomány a Magyar Nyelvért Nemzeti Program „Álhírek, áltudományos nézetek nyelvészeti azonosítása” című alprogramja, amelynek Ön a vezető kutatója. Jövőre véget ér az MTA támogatásával futó négyéves projekt. Hol tart most a program, milyen eredményekről tudnak beszámolni?
Németh T. Enikő: Három fronton dolgozunk. Az egyik a tudományelméleti megközelítés: mit lehet mondani a jelenkori tudományfilozófia, tudományelmélet szempontjából a tudomány és áltudomány lehetséges elhatárolásáról. Ez az úgynevezett demarkációs probléma, ezzel foglalkozik csapatunk egy kisebb csoportja, Rákosi Csilla, Vecsey Zoltán és Kertész András. Ők azt is vizsgálják, hogy miképp lehetne az álhíreket definiálni, mert rengeteg meghatározás van a világon különböző tudományterületekről, amelyek különböző aspektusait ragadják meg az álhíreknek. Mi egyrészt empirikus kutatásaink, másrészt tudományelméleti hátterünk alapján vizsgáljuk ezt a kérdést. A pénteki konferencián Demarkációs duett című nyitóelőadásukban Rákosi Csilla és Vecsey Zoltán ezt a demarkációs problémát járják majd körül, és a két különböző úton közelítő szerző megmutatja, mi a létjogosultsága a tudományfilozófiai, tudományelméleti, illetve a szemantikai módszertannak.
A második nagy kutatási blokkunk a nyelvészeti elemzés, az álhírek nyelvészeti alapú azonosítása. Ezen a téren is vannak már nagyon ígéretes eredményeink, megjelentek Q1-es folyóiratokban az első nemzetközi publikációink, és az eredményeket már nemzetközi konferenciákon is bemutattuk. Többek között azt vizsgáljuk, hogy a társas kapcsolatok kifejeződései, a tegezés, magázás, önözés alapján hogyan lehet különbséget tenni az álhírek és a valódi hírek között, ugyanis más megoszlásban és más funkcióban használatosak ezek az olvasóra irányuló közvetlen megszólítások. Sikerült olyan nyelvi, nyelvhasználati jegyeket azonosítani, amelyek azt mutatják, hogy az álhírek és a valódi hírek szövegei valóban megkülönböztethetők nyelvi alapon.
A nyelvi jegyek esetében már bizonyosan látszik, hogy szignifikánsan eltérnek az álhírszövegek a valódi hírek szövegétől a felszólítások különböző típusaiban, sűrűségében. Közvetlen és közvetett felszólításokról egyaránt szó van, tehát nemcsak az egyértelmű, felszólító módú igealakok fordulnak elő gyakrabban az álhírek szövegeiben, de jóval több az indirekt felszólítás, a feltételes mód, a kérdő forma is, olyan kifejezések, mint például „nem kellene”, „kell”, „szükséges”, „érdemes”. Mint már említettem, jelentős különbség van abban is, hogy miképp viszonyulnak az olvasóhoz, hogyan szólítják meg, ami nemcsak a tegezés vagy a magázás használatában mutatkozik meg, hanem az igevégződésekben, a személyragokban vagy a visszaható névmásokban is.

Nagyon fontos részkutatás volt a címekkel kapcsolatos kutatás, hogy miben térnek el az álhírek és a valódi hírek címei. Az utóbbi évtizedben a sajtóban sajnos a valódi hírek címadásai is nagyon hasonlítanak már az álhírekéihez, hatalmas a hírtömeg, amelyben sok lap kattintásvadász címekkel próbál minél több olvasót elérni. Ami talán általánosan jellemző az álhírcímekre, hogy kiemelkedően sok bennük a rejtett, kimondatlan információ, amelyekhez csak akkor juthatunk hozzá, ha rákattintunk a címre, és a cikk szövegét is elolvassuk, de gyakran még akkor sem. Sokat foglalkoztunk az attitűdjelöléssel vagy benyomáskeltéssel is: hogyan térnek el ezek a kétfajta szövegtípusban. Vizsgáltuk az összeesküvés-elméletek nyelvi megjelenéseit is, legújabban pedig a fokozás és a túlzás szerepét kutatjuk, hogy miként lehet a kétfajta szövegtípust efelől megközelíteni. Hipotéziseinket először kvalitatív elemzésekkel ellenőrizzük, majd ezek alapján következik a korpusz kvantitatív elemzése, ami statisztikailag releváns vagy érvényes eredményeket szül.
Ezen a ponton nagyon fontos leszögezni, hogy a projekt ötlete a COVID alatt fogalmazódott meg bennünk, mikor láttuk, hogy milyen iszonyatos álhírtömeg zúdul az emberekre, és mennyire nem tudnak eligazodni a rengeteg téves információ között. Azt gondoltuk, hogy mi, nyelvészek elég sokat tudunk a befolyásolás nyelvi eszközeiről, a manipulációról, fektessük be hát ennek a kérdésnek a vizsgálatába ezt a tudást. Mindig elmondjuk, hogy mi az egészségügy területén megjelenő álhírekkel, egészségüggyel kapcsolatos szövegekkel foglalkozunk, nyelvészeti eredményeink erre az írásos korpuszra vonatkoznak, hozzátéve, hogy az álhírek terjesztői ugyanazokat a nyelvi eszközöket használják a politikai propaganda, a kereskedelmi propaganda és a közélet más területein is. Emiatt nem könnyíti meg a dolgunkat, hogy jelenleg nagyon nagy az ellenérdekeltség az álhírek leleplezése terén. Hatalmas mértékű a dezinformáció, és a terjesztőknek nem érdekük, hogy olyan eszközöket adjunk az emberek kezébe, amelyek megmutatják nekik: álhírt olvasnak.
Milyen eszközökről van szó?
Németh T. Enikő: Ez a harmadik blokk, Csendes Tibor professzor és informatikusokból álló csapatának a feladata, a nyelvészeti tudáson alapuló innovatív eszközfejlesztés az álhírek azonosításában. Azt vizsgálják, hogy miképp automatizálható, hogyan integrálható az álhírfelismerés különféle eszközökbe, okostelefonokba, internetes böngészőkbe, ezen túl egy mesterségesintelligencia-alapú detektort is készítenek. Az Álhírdetektor nevű telefonos alkalmazás és a böngészőbővítmény a nyelvészek által megállapított jegyek segítségével működik. Ennek nagyon fontos az edukációs oldala is, mert nemcsak jelzést adnak az olvasónak, hogy gyanús egy hír, hanem azt is megmutatják, hogy miért.
Csendes Tibor: Megpróbálunk sok területen eredményesek lenni. Amiről Enikő beszélt, az ennek a feladatnak az értelmes, emberi szaktudást igénylő része. Amivel mi, informatikusok foglalkozunk, az a számítógépen elérhető, nyilvánvaló megoldások legyártása. A nyilvánvaló alatt azt értem, hogy az eszközünket használó olvasó tudatában legyen, hogy mi miatt jelöli az okostelefonos alkalmazásunk vagy böngészőbővítményünk álhírnek az adott szöveget. Ennek oktató szerepe is van, ezt szolgálja, hogy az applikáció százalékosan mutatja meg, mekkora a valószínűsége, hogy a számítógép vagy az okostelefon képernyőjén látható szöveg álhír. A megbízhatóság szempontjából az egyszerű, mesterségesintelligencia-alapú megoldás az eredményesebb, az viszont nem jelzi, hogy miért is álhírgyanús egy szöveg.
A telefonos applikációnk az éppen megtekintett oldalnak csak az olvasó által a képernyőn látható részét elemzi, a többi részét egyelőre figyelmen kívül hagyja. A becslés pontosságát tekintve jelenleg ez a legbizonytalanabb módszer, még dolgozunk a finomhangolásán. Egyébként szépen látszik, hogy mik az egyes faktorok, mik a szöveg gyanút keltő elemei, és hogy azok milyen arányban támasztják alá az adott szöveg álhír voltát.

Magasabb szinten tudjuk helyesen jósolni egy szöveg álhírjellegét, ha ezt egy nagy nyelvi modell külön erre betanított változatával tesszük meg. Az elterjedt mesterségesintelligencia-alapú rendszerekkel azonban az a gond, hogy általában csak magát a százalékot tudjuk velük megmondani, de ezen túl lényegében semmit. Nem tudjuk, minek alapján döntött így a rendszer, amely ad absurdum nem is elemzi a szöveget, csak azt ellenőrzi, honnan töltöttük le. Ez érdekes terület nekünk, informatikusoknak, hogy a csak kicsit eltérő feladatmegfogalmazásokra egészen más megoldások születnek.
Az a tisztán nyelvi modell, amelyet mi fejlesztettünk, lényegében egy webes program, és már elérhető és tesztelhető a honlapunkon. Ha egy egészségügyi szövegből bemásolunk egy nagyjából 500 karakteres részt, akkor ad rá egy értéket, hogy szerinte milyen valószínűséggel álhír. Ezenkívül fejlesztettünk egy keresőrobotot is, amely az interneten megjelenő új, egészségügyi jellegű szövegekben előforduló átveréseket tudja detektálni. Ennek segítségével az egészségügyi és nyomozó hatóságok hatékonysága drámaian javulhatna, hiszen egy olyan kontrollált és rangsorolt lista lenne a kezükben, ami a mi elég jó becslésünk alapján megmondaná, mivel kellene foglalkozni, és mivel nem – a Széchényi Könyvtár adatbázisán lényegében tudjuk is igazolni, hogy ez működik, jelenleg az egyetem és a hatóság közti együttműködési szerződés megkötésére várunk.
Mindent összevetve, a mi munkánkban az az érdekes és látványos, hogy valódi, a gyakorlati életben azonnal használható eszközöket tudunk produkálni. A hátulütője viszont az, hogy sok esetben csak statisztikai alapon tudjuk a megoldásunk helyességét igazolni. A nyelvészeti eszközök mély integrálása még várat magára, de a cél az, hogy olyan rendszert alkossunk, amely az összes ismert, jól dokumentált ráutaló nyelvi jelet helyesen használja, ráadásul a nagy nyelvi modellek tapasztalatait is magában foglalja.
Mennyire függ az álhírek terjedése az adott nyelvtől? Vannak ellenállóbb nyelvek vagy éppenséggel sérülékenyebbek, amelyeken az álhírek esetleg jobban terjednek?
Németh T. Enikő: Az elmúlt évtizedben nemzetközi szinten is megjelent az igény a nyelvészeti alapú álhír-azonosításra. Az álhírek azonosítása korábban alapvetően a tényellenőrzés módszerével történt, majd 2015-ben indítványozott az Európai Unió határozott lépéseket annak érdekében, hogy a – többek között – Oroszországból Európára zúduló hamis információkat kiszűrjék, visszaszorítsák. Mert bár a tényellenőrzés nagyon jó eszköz, az a baj vele, hogy komoly humánerőforrást igényel, ezért lassú és költséges.
A természetesnyelv-feldolgozáson (Natural Language Processing, NLP) alapuló álhír-azonosítás elvezet a mi már emlegetett harmadik célkitűzésünkhöz. A természetesnyelv-feldolgozáson alapuló módszerek mostanáig elsősorban a szókincs alapján vizsgálódtak, mi viszont azt gondoljuk, hogy a szókincs mellett vannak olyan nyelvi eszközök, nyelvi elemek, mint a felszólító mód, az önözés, magázás, tegezés, amelyek valóban nyelvspecifikusak. A mesterséges intelligencia használatán alapuló megoldásokat bizonyos finomhangolással más nyelvekre is könnyen át lehet vinni, a nyelvészeti alapú azonosításhoz azonban nyelvészek kellenek, akik az adott nyelvet jól ismerik.
Kutatási kapcsolatban állunk például a norvég Fake Speak kutatócsoporttal. A szintén nyelvészekből és informatikusokból álló szakértői csoportjuk angol, orosz és norvég szövegekkel foglalkozik, és a miénkhez nagyon hasonló célkitűzésekkel, de más nyelvi jegyeket vizsgálnak, nyilván a vizsgált nyelvek a magyarétól eltérő tulajdonságai, sajátosságai miatt. Barcelonában és a madridi egyetemen is zajlanak hasonló projektek, meg máshol is Európában. Ez egy nagyon fontos kérdés, de az álhírek terjedése nem függ attól, hogy milyen nyelvről van szó, mert az álhírek minden nyelven terjednek. Van egy másodéves PhD-hallgatóm Kazahsztánból, aki a kazahsztáni kazah és orosz nyelvű álhírek, valamint az angol nyelvű álhírek összevetésével foglalkozik, és érdekes kulturális különbségeket vett észre. Azt találta, hogy nem annyira nyelvi, hanem sokkal inkább kulturális különbségek számítanak abban, hogy milyen mértékben terjednek egy országban az álhírek. A kazah erősebben orális kultúra, mint mondjuk, az orosz vagy az angol, nagyon sok hír inkább szóban terjed, mint írásban, és ez hat rá, hogy milyen nyelvi eszközökkel formálják meg őket.

Ne felejtsük el azt se, hogy az utóbbi években elterjedt fordítóprogramok révén nyelvtől függetlenül pillanatok alatt elterjedhet bármilyen álhír is a világon. Sokszor meglátszik, hogy a gépi fordítás nem tökéletes, mégis eléggé globális jelenséggé vált az álhírek ilyen módon való terjedése. Jó is lenne, ha minél több helyen tudnának ezzel foglalkozni a nyelvészek, mert a lehetőség megvan, hogy olyan eszközöket adjunk az emberek kezébe, amelyek jelzik, ha gyanús tartalmakat olvasnak. Az persze nagyon fontos, hogy ne kategorikus ítéleteket hozzunk, mert az NLP-alapú rendszerek meg tudják állapítani, hogy egy szövegben szerepel az, hogy chip, vakcina, Bill Gates, ami önmagában alapos gyanút szolgáltat arra, hogy álhírről van szó, ugyanakkor álhírekről szóló szövegekben vagy nyelvészeti munkákban is szerepelhet ez a három szó.
A mi feladatunk tehát annyi, hogy felhívjuk rá az olvasó figyelmét: vigyázz, ez a szöveg 80 százalékban gyanús, esetleg álhír lehet. Egy határozott névelő, egy felszólító mód, egy névmás természetesen eredendően nem a megtévesztés eszköze, egyik nyelvnek sem célja, hogy álhíreket írjanak rajta. Nem lehet „bűnbakká tenni” egy-egy nyelvi elemet, mert nem nyelvspecifikus tulajdonságok okozzák, ha valahol jobban terjednek az álhírek. Azonban aki az álhíreket írja, az tud úgy bánni a nyelvvel, tud olyan szerkezeteket, megfogalmazásokat alkotni, amelyekkel rejtett módon befolyásol, vagy amelyekkel hazudik. Ennek a leleplezése nyelvenként más-más jegyekre támaszkodik, a nyelvi különbségek ebből a szempontból lehetnek fontosak, mint ahogy a kulturális különbségek is sokat számítanak, hogy egy országban mennyire elterjedt a közösségi média használata, milyen az internet-hozzáférés, hogyan terjednek a hírek, van-e épkézláb médiatörvény vagy éppenséggel cenzúra.
Csendes Tibor: Csoportunk tagja Berend Gábor, aki hosszabb ideje foglalkozik a közösségi médiával és a nagy nyelvi modellekkel (large language model, LLM). Az ő egyik legerősebb cikke pont erről szól. A nagy nyelvi modellek tapasztalata, hogy a különböző világnyelvekben meglevő hasonlóságokat automatikusan ki lehet használni, noha a nagy nyelvi modellek jelentős részét kizárólag angolul tanították. Van magyar LLM is, de abban is van angol nyelvű szöveg is, a kínaiak DeepSeek modelljében is használták az angolt. A lényeg annyi, hogy a mély neuronhálóknak megvan az a tulajdonságuk, hogy az alapnyelvi elemekből olyan kisebb egységeket, akár szótagokat hoznak létre, amelyek fölötti réteg egyre jobban egységesül nyelvektől függetlenül. Az látszik mindebből, hogy az emberi kommunikáció leglényegibb hasonló elemei részben nyelvtől függetlenül léteznek, és egy kizárólag angolul betanított eszközzel is lehet egy másik nyelven nem annyira pontos, de meglepően jó eredményt elérni.
Úgy tűnik, hogy az internet, a közösségi média a legjobb táptalaja az álhírek futótűzszerű terjedésének. Van-e terv esetleg arra, hogy összehasonlítsák a jelenlegi helyzetet azzal, ahogy az internet vagy akár a Facebook előtti időkben terjedtek az álhírek?
Németh T. Enikő: Ez teljesen érthető és nagyon jó kutatási kérdés lehet. Mi eddig csak az online elérhető, egészségüggyel kapcsolatos szövegek alapján vizsgálódtunk, de ha a projekt folytatásán gondolkodunk, értelmes és fontos kutatási irány lehetne mondjuk a sajtónyelvvel foglalkozni, párhuzamosan vizsgálva a kérdést a sajtó szerepének teljes átalakulásával. A pályám elején, a 90-es években sajtónyelvi kommunikációval is foglalkoztam, részt vettem a szegedi kommunikáció szak előzményének létrehozásában is. Az azóta eltelt 35 évben minden rengeteget változott. A sajtóirányelvek, az etikus hírközlés gyakorlata teljesen másként működik, érdemes lenne ezzel is foglalkozni. Még él az a generáció, amelynek az újság írta meg, a rádió, a tévé mondta be a híreket, és szinte soha nem kérdőjelezték meg az igazságtartalmukat. Azt lehet gyanítani, hogy most is ez az idős korosztály a legsérülékenyebb, legbefolyásolhatóbb. Rajtuk kívül – és a felmérések is ezt támasztják alá – a 6–16 éves fiatalok és érdekes módon a fiatal kismamák, az idejük java részét otthon töltő anyukák számítanak még veszélyeztetett célcsoportnak, legalábbis az egészségügyi álhírek területén. Nagyon érdekes történetekkel találkozunk, amikor hallgatóknak tartunk álhírdetektálási szemináriumokat, folyton jönnek az ahaélmények, hogy „Jaj, az én nagymamám is megvette a rácsos csodaszemüveget, pedig az mekkora butaság!”. És mi ugyan nem vagyunk szemészek, de a csodaszemüveg reklámszövege alapján meg tudjuk nekik mutatni, hogy hol és mikor verték át a nagymamát.