200 slov a mají jasno. Vědci z Olomouce vyvinuli technologii umožňující profilování osob podle textu, pomohli si Havlem a Muskem

Bohatému podnikateli přijde anonym žádající mnohamilionové výkupné. Když jej předá policii, její specialisté z nejrůznějších stop zjišťují, kdo jej poslal. Pokud by dopis předal vědcům z Univerzity Palackého v Olomouci, mohl by se dozvědět, kdo ho napsal.

Už řadu let se odborníci z katedry obecné lingvistiky Filozofické fakulty Univerzity Palackého (FF UP) věnují vlastnostem textu, které jsou založeny na frekvencích. Princip frekvenčních analýz je dlouhodobě ověřenou metodou, která se využívá například při určování autorství.

Jenže zatímco klasická lingvistika se zabývá jevy s vyšší frekvencí, olomoučtí jazykovědci Dan Faltýnek, Martina Benešová, Ondřej Kučera a Vladimír Matlach na to šli trochu jinak. Po několikaletém bádání dospěli k tomu, že ještě lepší výsledky je možné získat i s využitím méně častých jevů. Zaměřili se proto na zvláštní skupinu slov v rámci slovní zásoby konkrétního mluvčího.

*Členové výzkumného týmu Martina Benešová, Ondřej Kučera a Dan Faltýnek (zleva) (Foto: UPOL)*

Havel, Unabomber i Musk

Aby svou hypotézu ověřili v praxi, zaměřili se na analýzu nejrůznějších textů. Studijním materiálem se jim tak stala například díla spisovatelů Jacka Kerouaca nebo Joanne K. Rowlingové. Aby bylo spektrum mluvčích v maximální možné míře různorodé a lépe tak posloužilo výzkumu, zkoumali také písemné projevy politiků Karla Marxe, Silvia Berlusconiho nebo Václava Havla, stejně tak texty masových vrahů Elliota Rogera nebo tzv. Unabombera Teda Kaczynskiho. Výzkumu neunikly ani vzorky textů podnikatele Elona Muska.

Vědci při studiu hledali určitý slovní otisk, který je při analýze a určení autora textu možné použít. „S kolegy jsme zjistili, že podle nízko frekventovaných, ale pravidelně rozmístěných, opakujících se slov lze autora poznat také. A co víc, ještě s vyšší mírou jistoty,“ konstatoval Faltýnek. Postupem času tak olomoučtí lingvisté vyvinuli technologii, která jim umožňuje najít nízkofrekventovaná klíčová slova, jež jsou společně s důrazem na sentiment v podobě postoje řečníka k určitému tématu otiskem osobnosti konkrétního autora.

Člen výzkumného týmu Dan Faltýnek (Foto: UPOL)

Převratnost objevu spočívá v tom, že dosavadní metody takto vysokou jistotu autorství textu při nižším počtu zkoumaných slov nepřinášely. Zatímco dříve si vědci autorstvím byli jisti až po analýze šesti tisíc slov, díky nové metodě jsou z 1500 slov schopni zaručit je s velmi vysokou mírou pravděpodobnosti. Zároveň ale umí autorství s určitou mírou přesnosti dokázat už z analýzy 200 až 500 slov.

Profil podle slovníku

Právě slovní zásoba toho o člověku prozradí až nečekaně hodně. A díky opakování určitých slov dokážou vědci z univerzity v Olomouci extrahovat profil daného mluvčího. Zjednodušeně řečeno z použitých slov určí psychický stav člověka nebo sociální prostředí, z něhož pochází. Vědce tak například při výzkumu šokovaly výsledky analýzy Unabomberova manifestu. Vyplynul z ní jak motiv, tak také místo následného násilného činu.

Prostor pro využití technologie je velmi široký. Použít se dá v personalistice, v online psychoterapii, při tvorbě personalizované reklamy nebo naopak při obraně proti personalizaci. Tedy k tomu, aby k ovlivňování chování osob na internetu nedocházelo. Aplikovat se dá také v boji proti extremismu, terorismu a dezinformacím, a to díky možnosti identifikovat inkriminované osoby. To vše zahrnuje oblast tzv. umělé inteligence, v tomto případě způsob zpracování digitálního textu. Technologie, jež vznikla na akademické půdě, se tak stává reálnou konkurencí například těm využívaným společnostmi, jako jsou Microsoft, Google nebo Adobe.

Patent i další rozvoj

Úspěšné řešení samozřejmě neuniklo pozornosti i mimo akademickou obec. V rámci programu Ministerstva vnitra Open Calls for Security Research, který je realizovaný formou veřejných soutěží ve výzkumu, experimentálním vývoji a inovacích, byl projekt čtyřmi ze čtyř posudků doporučen jako vhodný k rozvoji bezpečnosti státu. K dispozici bude ale i široké veřejnosti. „Nejjednodušší variantou využití naší technologie bude v dohledné době aplikace, která lidem umožní dozvědět se něco o sobě a pomůže jim v seberozvoji,“ uvedla Benešová.

Členka výzkumného týmu Martina Benešová (Foto: UPOL)

Vše se odehrává ve chvíli, kdy už je olomoucká technologie s názvem „System and method for adapting text-based data structures to text samples“ pod patentovou ochranou a je evidována na patentovém úřadu v USA. Rešerše totiž prokázaly, že je skutečně nová.

Neznamená to ale, že vědci z Olomouce mají hotovo. Díky několikaletému výzkumu badatelé z FF UP disponují třemi různými softwary, které jsou patentované technologii vytvořeny na míru, a které by rádi propojili. Zároveň vidí v tématu další výzkumné možnosti. Všechny uvedené technologické kroky bude výzkumný tým dál předávat studentům v novém profesně zaměřeném bakalářském studijním programu Jazykovědný analytik. A v neposlední řadě už nyní přemýšlí o dalších patentových možnostech.

200 slov a mají jasno. Vědci z Olomouce vyvinuli technologii umožňující profilování osob podle textu, pomohli si Havlem a Muskem

Havel, Unabomber i Musk

Profil podle slovníku

Patent i další rozvoj

Česko bude mít vlastní satelit pro pozorování životního prostředí. Do vesmíru ho vynese družice brněnské kosmické společnosti

Z garáže do New Yorku. Úspěšný příběh SlidesLive pokračuje

AI vs. analytici: GPT-4 je ve finančních prognózách lepší než lidé

Praha přivítá největší bitcoinovou konferenci v Evropě

Vsadili na průmyslovou automatizaci, AI a robotizaci. Letos AIKIT Digital plánuje dvojnásobný růst

Český startup Greenometer pomůže s přechodem na udržitelné podnikání i firmám na Slovensku