Počítačové zpracování přirozeného jazyka je zajímavým vědecko-technologickým problémem, který stojí na pomezí lingvistiky, informatiky a dalších disciplín, na něž je v 21. století upřena mimořádná pozornost. Český startup Geneea pomáhá mediálním domům a tiskovým agenturám zrychlit vydávání mimořádných zpráv, pro srovnávač Heureka zase hledá opakující se vzorce v recenzích uživatelů. Umělá inteligence se ale trénuje i opačným směrem, aby jednodušší texty na základě strukturovaných dat tvořila zcela automaticky.
Článek vznikl v rámci spolupráce StartupJobs Newsroom a podcastu SCRIPTease. Celou epizodu si můžete poslechnout zde:
Firma Geneea vznikla v roce 2014. Založili ji Jiří Hana, Petr Hamerník a Tomáš Nowak. Jiří Hana a Petr Hamerník v ní mají pětadevadesátiprocentní podíl. Tomáš Nowak, který do roku 2017 ve firmě působil jako šéf obchodu, drží zbývajících pět procent. Začátky byly těžké, ale čekání na úspěch se vyplatilo. Geneea dnes žije výhradně z vlastních peněz a velký podíl utržených prostředků investuje do expanze na další trhy i rozvoje produktu. Jiří Hana se problematice NLP (Natural Language Processing – zpracování přirozeného jazyka) věnuje již od roku 2009 také na Ústavu formální a aplikované lingvistiky Univerzity Karlovy. A právě Jiří Hana společně s vedoucím vývojářem Tomášem Mudruňkou usedli do křesel pro hosty ve studiu technologického podcastu SCRIPTease.
„Geneea zpracovává text. To znamená, že se jednak snažíme automaticky textu porozumět, tedy vyrobit z něj tabulku, se kterou se dá něco dělat. A jednak text automaticky píšeme, což je vlastně opačný proces, kdy z tabulky vyrobíme například novinový článek,“ vysvětluje Hana. Jejich hlavním odběratelem v České republice jsou mediální skupiny Vltava Labe Media, MAFRA či Economia, ale i veřejnoprávní agentura ČTK nebo Česká televize. „Automaticky dodáme klíčová slova, doporučíme fotky nebo další články k přečtení,“ vyjmenovává funkcionality softwarového řešení, které Geneea nazývá Journalism Powered by AI. „To je přitom práce, která je pro úspěch textu velmi důležitá, ale novináře extrémně nebaví, a navíc zabere příšerné množství času. Někteří klienti nám říkají, že až polovinu,“ dodává Jiří Hana.
Technologie Geneea má aktuálně plně implementováno celkem 8 evropských jazyků, v plánu je ale schopnost zpracovat veškeré úřední jazyky Evropské unie. Tím by se kromě přílivu potenciálních institucionálních zákazníků přirozeně otevřela cesta i na většinu velkých latinskoamerických trhů. Přidání jakýchkoliv dalších jazykových mutací není podle Jiřího Hany limitováno primárně technologií, jako spíše množstvím relevantních zákazníků v daném teritoriu.
Firmu Geneea založil Jiří Hana v roce 2014 se svými společníky Petrem Hamerníkem a Tomášem Nowakem.
Sledování trendů za miliony
Úzkou spolupráci Geneea navázala s renomovanou agenturou Newton Media, která poskytuje víceúrovňový monitoring českého tisku zejména pro komerční sféru. „Analyzujeme zhruba padesát tisíc článků denně a hledáme, o jakých lidech, produktech, místech, firmách či odvětvích se mluví,“ vysvětluje Jiří Hana. Právě v pokročilých algoritmech z kategorie rozpoznávání pojmenovaných entit (named-entity recognition) pomocí neuronových sítí, ale také tradičních lineárních algoritmů, vidí mnozí odborníci budoucnost internetu. Tedy sítě, která je dnes notoricky přehlcena nestrukturovanými informacemi, jejichž další zpracování stojí čas i peníze.
Doporučit ke článku vhodný obrázek není tak jednoduché, jak se na první pohled zdá. Tlak na rychlost je především u agenturního zpravodajství enormní, zpráva by totiž ideálně nikdy neměla vyjít bez fotografie, tedy alespoň ilustrační. Ta ale nesmí v příjemci vzbudit rozpaky. „Analyzovat pouze samotná obrazová data nejde – to by se pak stalo, že nabízíme k jednomu plešatému pánovi jako alternativu jiného, nebo fotku z házení volebního lístku do urny ve Španělsku zaměníme s podobnou fotkou z voleb v Chorvatsku,“ navazuje s vysvětlením i příkladem Jiří Hana.
„Proto koukáme především na metadata, popisky, které velmi často zmiňují události, během nichž fotografie vznikla. I tak je ale třeba si dávat pozor, protože fotka s popiskem ‚setkání V4‘ může ve skutečnosti ukazovat třeba smějícího se Jiřího Ovčáčka,“ dodává. Z milionů fotek, které má konkrétní agentura či médium k dispozici, nabídne Geneea obvykle přibližně 25, ze kterých si následně novinář vybere na základě vlastního uvážení.
Efektivní péče o klienty i servis nakupujícím
Kromě služeb pro mediální trh se Geneea specializuje také na komerční subjekty a zpracování informací na vstupu kanálů pro interakci se zákazníky. Typickým příkladem zákazníka jsou velké B2C společnosti, které přijímají veškeré podněty na jednom kanále, například prostřednictvím jednoho zákaznického emailu. Strojovou analýzou textu s využitím umělé inteligence je možné jednotlivé záznamy roztřídit mezi pracovníky zodpovědné za konkrétní oblasti a taktéž je vhodným způsobem prioritizovat. Rychlá a efektivní vzdálená komunikace se zákazníky se stává i díky aktuální koronavirové situaci stále důležitějším tématem.
Geneea využívá ve svých produktech následující technologie:
Python, Java, Kotlin, Apache Solr, Kubernetes, Angular, React, AWS, Elastic Beanstalk
Dalším příkladem užití je služba Voice of the Customer (hlas zákazníka). Jiří Hana vysvětluje, že jejím jádrem je kontinuální monitoring uživatelských recenzí u partnerů. Tím hlavním je v Česku populární srovnávač cen Heureka. „Zákazníci by si sice teoreticky mohli vybírat z dlouhých předdefinovaných seznamů, co se jim líbilo a nelíbilo. Mnohem lepší ale je, když mají příležitost napsat to vlastními slovy. My následně desítky či stovky recenzí automaticky přečteme a sumarizujeme. Takže když kupující u konkrétního telefonu opakují výrazy jako ‚nic moc baterka‘ a ‚baterie nevydrží dlouho‘, Geneea tuto informaci vypíchne nahoru k často zmiňovaným negativům,“ dodává Jiří Hana.
Tomáš Mudruňka je v Geneea vedoucím vývojářů.
Ten, kdo má data, ovládá vše
Bez zajímavosti nejsou ani technické detaily implementace umělé inteligence od Geneea do softwarových řešení velkých vydavatelských domů či korporací. Firma dlouhodobě odolává tlaku na to, provozovat své řešení in-house u svých velkých zákazníků. „Snažíme se vše poskytovat v SaaS režimu, tedy jako službu. Máme REST API, ke kterému poskytujeme klíč, a integrujeme se do CMS (Content Management System – systém pro správu obsahu, pozn. red.) v jednotlivých médiích. To je ideální stav, v řadě případů je ale nutná nějaká úprava, nebo naprogramování doplňku do prohlížeče,“ vysvětluje Tomáš Mudruňka.
„Největší částí je komponenta, které říkáme Interpretor. Právě ta představuje NLP část systému, která je následně používána ve všem ostatním,“ dodává Mudruňka. Pro rychlé zpracování dat je ideální, když klient používá úspěšnou českou cloudovou platformu pro konsolidaci dat zvanou Keboola. „Takové zákazníky máme nejradši, protože nemusíme strávit den zjišťováním, z jaké databáze data exportují a jak je vůbec otevřít,“ směje se Mudruňka.
Pokud vás zajímají další detaily o tom, které technologie Geneea využívá nebo jaké nejčastější nástrahy na automatické strojové učení čekají, nalaďte si s Jiřím Hanou a Tomášem Mudruňkou ze startupu Geneea a moderátorem Jirkou Bachelem z vývojářské party LOLO.team.