Je to častý obrázek. Hrozen novinářů obklopí zpovídanou osobnost a vykřikuje na ni své otázky. Často jeden druhého překřikují, takže je obtížné rozpoznat, jaká konkrétní slova zazněla. Přesto by to díky vědcům z Technické univerzity v Liberci (TUL) už nemusel být dál žádný problém. Jejich nástroj by přitom ulehčil život nejen novinářům.
Tým SpeechLabu, laboratoře počítačového zpracování řeči na Fakultě mechatroniky, informatiky a mezioborových studií TUL (FM) totiž vylepšil aplikaci Beey, na které spolupracoval se vývojáři z pražské firmy Newton Technologies. Nově tak aplikace převádějící hlas na psaný text dokáže přesně zapisovat slova řečníka, přestože se kolem něj rozléhá hluk. Umělá inteligence to zvládá zásluhou nových neuronových modelů.
„Nové architektury neuronových sítí umožňují trénovat systémy rozpoznávání řeči pouze na základě zvukových nahrávek a odpovídajících textových přepisů,” konstatoval Petr Červa, vedoucí týmu vědců z FM, který pracuje na počítačových modelech na rozpoznávání řeči. Doplnil, že na rozdíl od minulé generace modelů tak není nutné vytvářet slovníky obsahující pro každé slovo různé výslovnostní varianty. „Zejména novou generaci modelů není vůbec nutné učit, jak se slova v daném jazyce vyslovují. To výrazně zjednodušuje proces přípravy dat pro učení, kterých je nyní možné použít řádově více než v minulosti,“ doplnil Červa.
Základem programu je jeden z nejkvalitnějších nástrojů pro automatické rozpoznání řeči, který je momentálně na trhu. Zvládne nejen češtinu, ale také dalších devatenáct světových jazyků. Mezi všemi dvaceti jazyky umí aplikace také překládat. I proto Beey získala uživatele už v padesáti různých státech světa.
Víc dat, lepší výsledky
Přibližně desetičlenný tým, který se na TUL počítačovým zpracování řeči zabývá, založil v roce 1993 Červův předchůdce ve vedení SpeechLabu Jan Nouza. Na vývoji programu pro přepis češtiny pod Nouzovým vedením tým pracoval už od roku 1996. Výsledky byly patrné jak v počtu jazyků, které program vyvinutý na TUL dokáže rozpoznat a přepsat je do textu, ale také v míře přesnosti. U čtené nebo předem připravené řeči je dnes přesnost přepisu téměř stoprocentní. U záznamů, které obsahují řeč více mluvčích najednou nebo velkého ruchu na pozadí, se pohybuje od 80 procent výše.
Prostor pro zlepšení tak stále ještě je, což přiznává i docent Červa. Zároveň vysvětluje, co jej usnadňuje. „Obecně ke zvyšování přesnosti přispívá kromě stále lepší architektury neuronových sítí také vzrůstající množství dat pro trénování, které máme k dispozici. Souvisí to s tím, že dané technologie využívá stále více lidí,“ konstatoval Červa. Do neuronových sítí tak vstupuje stále větší objem slov v podobě zvuku. Sítě se postupně učí, jak vypadá textový přepis každého slova, díky čemuž se preciznost zápisu stále zlepšuje.
Právě výrazný nárůst objemu dat stál před rokem za rychlým zlepšením při zvládnutí zápisu obtížné mluvené norštiny, na kterém odborníci z Liberce spolupracovali s Norwegian University of Science and Technology a Newton Technologies. Výsledky zápisu pomocí algoritmů porovnané s tím, jak by promluvy zapsal člověk, vykazovaly úspěšnost kolem 88 procent. Což je při vědomí toho, že si systém musí poradit i s přeřeky, špatnou výslovností, vadami řeči nebo ruchy v pozadí, velmi dobré číslo.
Že záludnosti nemusí spočívat jen v tomto, se na norštině ukázalo také v tom, že jazyk má dvě rovnoprávné spisovné formy bokmål [ˈbuːkˌmɔːl] a nynorsk [ˈnyːˌnɔʂːk]. A aby toho nebylo málo, tak má ještě řadu dialektů. „Je to, jako by systém slyšel hanácký, chodský i ostravský dialekt a ještě slovenštinu a musel promluvu zapsat buď spisovnou češtinou, nebo slovenštinou,“ vysvětlil profesor Nouza a doplnil, že je na programu, aby se sám rozhodl, co je nejpravděpodobněji správné.
Různorodé využití
Ke svému učení potřebuje co nejvíc dat. Jejich zdrojem jsou například televizní nebo rozhlasové reportáže, audio knihy, e-knihy i texty nejrůznějších zpravodajských webů. Vždy, když liberecký vědecký tým začíná pracovat s novým jazykem, stáhne si veškeré veřejně dostupné texty.
„Většinou to bývá více než 1 GB textů. Pak v nich hledáme nejčastěji se opakující slova. Naučit systém mluvenou podobu je těžší. Neuronovým sítím vlastně předkládáme zvuk a k tomu informaci, jak má vypadat přepis,“ konstatoval profesor Nouza.
Díky práci libereckého týmu tak převod mluvené řeči na psaný text umožňuje získávat rychlé a levné přepisy podcastů, rozhovorů nebo třeba přednášek. Umělá inteligence v aplikaci Beey pak také titulkuje videa na internetu a s využitím automatických překladů zpřístupňuje i audiovizuální obsah z celého světa. Díky tomu tak technologie nachází využití v průmyslu, zdravotnictví, médiích nebo státní správě.
Současný zvýšený zájem o novinky v oblasti umělé inteligence podle ředitele Newton Technologies Petra Heriana pomáhá tyto technologie dále zlepšovat a nacházet i jejich další uplatnění. „Lidé si pomalu zvykají na to, že se hlasové technologie stávají součástí jejich práce i běžného života. A nejde už zdaleka jen o diktování zpráv do mobilu. Náš program titulkuje oblíbené seriály, pomáhá neslyšícím nebo přepisuje jednání na soudech. Nových příležitostí je celá řada, “ říká Herian.
Titulkování, jež aplikace umožňuje, bylo možné využít i jinak než u seriálů. V době pandemie koronaviru platforma Beey titulkovala vybrané, zejména zpravodajské, pořady pro sluchově postižené. Roušky byly všudypřítomné a odezírání ze rtů nebylo možné. Neslyšící tak prostřednictvím speciálního webu mohli sledovat vybrané televizní a rozhlasové pořady, které byly opatřeny titulky.
Covid sice už nějaký pátek není tím, co by dominantně ovlivňovalo náš každodenní život, ale vědci z libereckého SpeechLabu nemají problém popasovat se se stále novými výzvami. Ještě před covidem se rozhodli, že se zaměří na veškeré slovanské jazyky. Do své jazykové nabídky tak vkomponovali i běloruštinu a některé menší balkánské jazyky, jako jsou bosenština nebo černohorština.
Jinou výzvou pro tým bylo, aby jejich systém dokázal v rámci on-line přepisu rychle rozpoznat situaci, kdy některá osoba hovoří v jiném jazyce. V českém prostředí například slovensky. A díky rychlé identifikaci odlišného jazyka v horizontu několika málo vteřin přepnout do slovníku právě používaného jazyka. I tuto výzvu si tým laboratoře počítačového zpracování řeči na liberecké univerzitě může odškrtnout jako dokončenou.