Bohatému podnikateli přijde anonym žádající mnohamilionové výkupné. Když jej předá policii, její specialisté z nejrůznějších stop zjišťují, kdo jej poslal. Pokud by dopis předal vědcům z Univerzity Palackého v Olomouci, mohl by se dozvědět, kdo ho napsal.
Už řadu let se odborníci z katedry obecné lingvistiky Filozofické fakulty Univerzity Palackého (FF UP) věnují vlastnostem textu, které jsou založeny na frekvencích. Princip frekvenčních analýz je dlouhodobě ověřenou metodou, která se využívá například při určování autorství.
Jenže zatímco klasická lingvistika se zabývá jevy s vyšší frekvencí, olomoučtí jazykovědci Dan Faltýnek, Martina Benešová, Ondřej Kučera a Vladimír Matlach na to šli trochu jinak. Po několikaletém bádání dospěli k tomu, že ještě lepší výsledky je možné získat i s využitím méně častých jevů. Zaměřili se proto na zvláštní skupinu slov v rámci slovní zásoby konkrétního mluvčího.
Havel, Unabomber i Musk
Aby svou hypotézu ověřili v praxi, zaměřili se na analýzu nejrůznějších textů. Studijním materiálem se jim tak stala například díla spisovatelů Jacka Kerouaca nebo Joanne K. Rowlingové. Aby bylo spektrum mluvčích v maximální možné míře různorodé a lépe tak posloužilo výzkumu, zkoumali také písemné projevy politiků Karla Marxe, Silvia Berlusconiho nebo Václava Havla, stejně tak texty masových vrahů Elliota Rogera nebo tzv. Unabombera Teda Kaczynskiho. Výzkumu neunikly ani vzorky textů podnikatele Elona Muska.
Vědci při studiu hledali určitý slovní otisk, který je při analýze a určení autora textu možné použít. „S kolegy jsme zjistili, že podle nízko frekventovaných, ale pravidelně rozmístěných, opakujících se slov lze autora poznat také. A co víc, ještě s vyšší mírou jistoty,“ konstatoval Faltýnek. Postupem času tak olomoučtí lingvisté vyvinuli technologii, která jim umožňuje najít nízkofrekventovaná klíčová slova, jež jsou společně s důrazem na sentiment v podobě postoje řečníka k určitému tématu otiskem osobnosti konkrétního autora.
Převratnost objevu spočívá v tom, že dosavadní metody takto vysokou jistotu autorství textu při nižším počtu zkoumaných slov nepřinášely. Zatímco dříve si vědci autorstvím byli jisti až po analýze šesti tisíc slov, díky nové metodě jsou z 1500 slov schopni zaručit je s velmi vysokou mírou pravděpodobnosti. Zároveň ale umí autorství s určitou mírou přesnosti dokázat už z analýzy 200 až 500 slov.
Profil podle slovníku
Právě slovní zásoba toho o člověku prozradí až nečekaně hodně. A díky opakování určitých slov dokážou vědci z univerzity v Olomouci extrahovat profil daného mluvčího. Zjednodušeně řečeno z použitých slov určí psychický stav člověka nebo sociální prostředí, z něhož pochází. Vědce tak například při výzkumu šokovaly výsledky analýzy Unabomberova manifestu. Vyplynul z ní jak motiv, tak také místo následného násilného činu.
Prostor pro využití technologie je velmi široký. Použít se dá v personalistice, v online psychoterapii, při tvorbě personalizované reklamy nebo naopak při obraně proti personalizaci. Tedy k tomu, aby k ovlivňování chování osob na internetu nedocházelo. Aplikovat se dá také v boji proti extremismu, terorismu a dezinformacím, a to díky možnosti identifikovat inkriminované osoby. To vše zahrnuje oblast tzv. umělé inteligence, v tomto případě způsob zpracování digitálního textu. Technologie, jež vznikla na akademické půdě, se tak stává reálnou konkurencí například těm využívaným společnostmi, jako jsou Microsoft, Google nebo Adobe.
Patent i další rozvoj
Úspěšné řešení samozřejmě neuniklo pozornosti i mimo akademickou obec. V rámci programu Ministerstva vnitra Open Calls for Security Research, který je realizovaný formou veřejných soutěží ve výzkumu, experimentálním vývoji a inovacích, byl projekt čtyřmi ze čtyř posudků doporučen jako vhodný k rozvoji bezpečnosti státu. K dispozici bude ale i široké veřejnosti. „Nejjednodušší variantou využití naší technologie bude v dohledné době aplikace, která lidem umožní dozvědět se něco o sobě a pomůže jim v seberozvoji,“ uvedla Benešová.
Vše se odehrává ve chvíli, kdy už je olomoucká technologie s názvem „System and method for adapting text-based data structures to text samples“ pod patentovou ochranou a je evidována na patentovém úřadu v USA. Rešerše totiž prokázaly, že je skutečně nová.
Neznamená to ale, že vědci z Olomouce mají hotovo. Díky několikaletému výzkumu badatelé z FF UP disponují třemi různými softwary, které jsou patentované technologii vytvořeny na míru, a které by rádi propojili. Zároveň vidí v tématu další výzkumné možnosti. Všechny uvedené technologické kroky bude výzkumný tým dál předávat studentům v novém profesně zaměřeném bakalářském studijním programu Jazykovědný analytik. A v neposlední řadě už nyní přemýšlí o dalších patentových možnostech.