Když v lednu bývalý premiér Andrej Babiš vystoupil před soudem v kauze Čapí hnízdo se svou závěrečnou řečí, byla obsáhlá. Její délka vedla předsedu soudního senátu Jana Šotta k tomu, že požádal strany sporu o souhlas, aby se řeč nepřepisovala do protokolu, ale založila se tam v podobě zvukového záznamu. Důvodem bylo i to, aby při specifičnosti řečníka dávala smysl. Což lépe splňoval zvuk než psaná podoba. Jde sice o nedávný případ, který se odehrál v rámci české justice, ale zvukový přepis řeči je velkým tématem celosvětově.
V souvislosti se společností OpenAI se v posledních měsících nejvíce mluví o ChatGPT, ale už loni v září představila produkt Whisper. Jde o systém automatického rozpoznávání řeči trénovaný na 680 tisíc hodinách vícejazyčných a multitaskově kontrolovaných dat shromážděných z webu. Firma na něm ukázala, že použití tak velké a různorodé datové sady vede k lepší odolnosti vůči akcentům, hluku na pozadí a technickému jazyku.
Ještě o pár let dříve se na přepis mluvené řeči s využitím možností umělé inteligence vrhnul česko-slovensko-americký startup Parrot. Své zaměření ale zúžil na oblast a teritorium, kde by využití jeho produktu mohlo byznysově nést okamžité výsledky.
Američané jsou totiž schopni se soudit téměř o cokoli. A protože ve Spojených státech musí být každá výpověď zaznamenána v psané podobě, jde o trh s obrovským potenciálem. Ambicí Parrotu je tento proces zcela digitalizovat a s pomocí umělé inteligence zásadně zrychlit.
Rychle a co nejpřesněji
Jednou ze základních součástí amerického právního procesu jsou takzvané depositions. Jde o líčení, kde svědci poskytují výpovědi. I na jejich základě může věc dospět až k soudnímu jednání. Výsledkem depositions jsou hodiny záznamů a mnoho archů textových přepisů. Záznam od soudního zapisovatele je právně závazný dokument, který je možné použít jako důkazní materiál. Právě v těchto záznamech zástupci obhajoby hledají vše, co může jejich klientům pomoci. Už jen přečíst je ale zabere spoustu času.
Nejinak je tomu s přepisem výpovědí. V roce 2004 byl do Guinnessovy knihy rekordů zapsán Američan Mark Kislingbury se světovým stenografickým rekordem 360 slov za minutu s přesností přepisu přibližně 97 procent. Záznam svědeckých výpovědí bylo možné dlouhé roky pořizovat pouze prostřednictvím stenografických přepisů. Ty však vyžadovaly fyzickou přítomnost člověka se specifickou sadou schopností.
Důvodů je více. Jedním z hlavních byly například zkušenosti. Skutečně porozumět řečenému v zemi, kde se přízvuk řady mluvčích velmi liší, používají slangové výrazy, občas jim do řeči vstupují cizí slova z jejich mateřských jazyků, bývá velmi obtížné. A to jak pro člověka, natož pak pro stroj.
Ale i člověk při takto zodpovědné práci dělá chyby. A když jde o to, kolik let obžalovaný stráví za mřížemi, nebo jak vysokou pokutu zaplatí, je i sebemenší nepřesnost zcela nežádoucí. Ideálně by stenograf měl výpověď zaznamenat v poměru jedna ku jedné. Když ale nestíhá, může při zápisu dojít k odchylkám od toho, co zaznělo ve výpovědi. Tyto nepřesnosti se obvykle dolaďují dodatečně ze zvukového záznamu.
Stenograf navíc ve Spojených státech u soudních stání také opakuje vyřčené výpovědi, pokud o to právní zástupce požádá. I při tomto čtení textu může docházet k určitému zkreslení. Jakékoli technologické řešení, které dokáže podobné chyby a nepřesnosti eliminovat, navíc celý proces urychlí z dní na minuty, je tak vítanou změnou.
Data v hlavní roli
Vytrénovat strojové učení tak, aby zvládalo efektivně přepsat angličtinu zaznívající v soudním řízení, není snadný úkol. Je potřeba, aby zvládlo rozpoznat jednotlivé řečníky - vlnové délky mužského a ženského hlasu se liší. Za opravdu efektivním a kvalitním záznamem lidské řeči do psané podoby tak stojí ohromné množství tréninkových dat.
Akceleraci jejich získávání paradoxně napomohla epidemie koronaviru. Řada soudních jednání se konala přes Zoom, což byly pro Parrot ideální podmínky. Firma díky tomu mohla sbírat větší objem dat a díky tomu vylepšit svůj výsledný produkt. S nárůstem objemu dat se totiž výrazně zlepšovala přesnost záznamu. Za rok fungování během pandemie se přesnost záznamu posunula z patnáctiprocentní chybovosti na osm procent. Aktuálně se pohybuje někde na hranici pěti až šesti procent.
Pro srovnání, chybovost zápisu soudních zapisovatelek je někde kolem čtyř procent. Problémem ale je, že stenografek a stenografů ubývá. Každoročně jich ve Spojených státech odchází do důchodu přibližně desetina a vytrénovat nového stenografa zabere v průměru necelé dva roky. Při současném počtu přibližně 23 tisíc soudních zapisovatelek se tak zdá jako zcela racionální v maximální možné míře přenechávat jejich práci technologii. Obzvlášť v případě, kdy je přesnost záznamu srovnatelná a rychlost hraje jednoznačně ve prospěch stroje. Zatímco člověku trvá přepis zaznamenaných výpovědí do oficiální podoby několik dní, strojové učení je schopné dodat je v reálném čase.
Za opravdu efektivním a kvalitním záznamem lidské řeči do psané podoby stojí ohromné množství tréninkových dat. Aby do sebe vše správně zapadalo, je nezbytné využívat audio vstupy a textová data. To vše pak projde přes více než deset různých modelů strojového učení a systém monitoringu. I na základě toho je možné se oproti generickým speech-to-text nástrojům s chybovostí záznamu na úrovni dvaceti až třiceti procent dostat na současnou úroveň někam k pěti procentům.
PŘEČTĚTE SI: Konkurence pro advokáty? Umělá inteligence vstupuje do soudní síni
Bez papíru to nejde
K maximální možné přesnosti záznamu Parrot využívá proces kontroly AI přepisů pomocí kontrolního týmu. Každý strojový přepis je rozdělen na krátké textové bloky, které následně revidují lidé k dosažení maximální přesnosti. Na základě těchto informací startup disponuje datovou sadou detekce častých chyb, kterou dokáže okamžitě nasazovat do tréninkových modelů a zlepšovat tak výsledný výstup.
S textem zároveň v ten samý moment mohou pracovat jak přepisovatelé, kteří mají za úkol jej revidovat a editovat, tak i klienti. Ti kladou důraz především na možnost dokument poznámkovat a spolupracovat na něm v rámci většího týmu. A přestože jde v případě Parrot o produkt, který stojí na moderních technologiích, bylo velmi důležité zachovat například číslování jednotlivých řádků a stránek, jež je doplněno o jméno osoby. Právníci jsou totiž zvyklí si výpovědi tisknout a pracovat s jejich papírovou verzí. Když pak u soudu na něco odkazují, jde právě o konkrétní řádek na určité stránce.
Z důvodu snazší orientace v textu i v nahrávce Parrot vyvinul dvě funkce. „Pinpoint playback umožňuje kliknout na slovo v textu, čímž se začne v daném bodě přehrávat i audio. Karaoke playback pak jde opačným směrem, kdy se při hrající zvukové stopě a při přehrávání vybarvuje jedno slovo za druhým tak, jak je v nahrávce řečené,“ vysvětlil staff software engineer Jerguš Lejko.
Díky tomu, že je audio, případně video, spárováno s textem, mohou si klienti vytvářet takzvané klipy. Ty si mohou sestavit do jedné finální stopy a stáhnout ji, ať už v podobě audia nebo videa společně s embedovanými titulky a použít ji u soudu jako důkaz.
Týdenní sprinty pomáhají
Ke zlepšování výsledné podoby produktu v případě společnosti Parrot ale nevede pouze narůstající objem vstupních dat. Důležitou součástí progresu jsou také pravidelné rozhovory s klienty. Díky jejich zpětné vazbě může firma rychle přistoupit ke změnám a prototypovat nové, případně požadované prvky. I díky tomu je výstup a jeho kvalitativní proměna viditelná téměř ihned, čehož si klienti všímají.
V rámci platformy Parrot totiž zákazníci mají přístup hned ke třem verzím přepisu. „Za prvé hrubý real-time transkript, který se na platformě zobrazuje souběžně s videohovorem. Dále umělou inteligencí vyladěný přepis, který obdrží přibližně do půl hodiny po skončení záznamu. A v případě, že potřebují notářsky ověřený text k použití u soudu, dodáme jej po lidské revizi a schválení do několika hodin. Pracujeme tak se třemi různými poměry rychlost versus přesnost,“ konstatoval engineer manager Parrotu Mark Nemec.
Aby ale něco takového bylo možné, je potřeba, aby inženýři strojového učení splňovali určité požadavky. „Vývojář by měl chápat celý proces od A do Z. Od přípravy dat přes vymyšlení architektury až po samotnou infrastrukturu digitálního přepisování. Díky širšímu technologickému rozsahu vidí důsledek změny v jedné oblasti modelu na všechny jeho úrovně. Dokáže tak odhadnout, kdy jeho změna způsobí komplikaci zase někde jinde, a takové situaci se vyhnout,“ říká Jonáš Kratochvíl, machine learning lead v Parrot.
Aktuálně Parrot využívá při tvorbě architektury a trénování umělé inteligence technologie Argo Workflows a Gantry. Ambicí firmy je ale další technologický posun rozpoznávání řeči na základě stavby samotných modelů při zpracování přirozeného jazyka. Jednoduše řečeno, startup pracuje na tom, aby umělá inteligence byla schopna rozpoznat kontext přirozené řeči a porozumět jí. V konečném důsledku by pak mohla například vytvářet shrnutí mnohahodinových výpovědí na ploše jedné nebo dvou stránek. Případně, což může výrazně usnadnit práci advokátům, srovnat odlišnosti ve výpovědích více svědků na stejnou otázku.
Dosahovat rychlých vylepšení se společnosti daří díky firemní kultuře, která pro machine learningové týmy není standardem. „Fungujeme v týdenních sprintech, což nám umožňuje přepínat mezi projekty a zaměřit se vždy na to, co nejvíce hoří, aniž se proces zbytečně protahuje. Zatímco je agilní přístup hodně zajetý v softwarovém inženýrství, v našich kruzích se často člověk ponoří na několik měsíců do řešení jednoho modelu. Nám se tento stereotyp daří nabourat a udržovat procesy dynamické. Díky této rychlosti máme prostor na každý nový problém vyvinout třeba pět různých prototypů a implementovat ten nejlepší,“ uvedl Kratochvíl.
Výpovědi skrze svou platformu Parrot vede přes Zoom. Startup si ho vybral proto, že umožňuje posílat audio v reálném čase. Díky vlastnímu botu je Parrot schopen připojit se i na platformy jako jsou MS Teams, Google Meets, WebEx nebo Cisco. „Abychom měli nad celým procesem maximální kontrolu, vytvořili jsme kompletně infrastrukturu i machine learning modely in-house a kvůli délce výpovědí šli cestou nekonečné streamovací architektury,“ doplnil Nemec.
Hlavně jednoduše
První verze přepisu v reálném čase vznikla za čtyři týdny, ale firmě chyběl vlastní model strojového učení v reálném čase. Sáhla proto po Amazon Transcribe. Zároveň ale vyvíjela svůj vlastní. Měl však jeden zásadní nedostatek - data se mu posílala v přibližně třicetisekundových blocích, což systém zpomalovalo a občas docházelo k výpadku slov na přelomu jednotlivých bloků.
Aby bylo možné text zobrazovat v reálném čase, muselo dojít ke dvěma integracím. Na straně Zoomu prostřednictvím API a na straně modelu strojového učení pro práci s krátkými úseky. „Dnes používáme protokol RTMP pro příjem real-time audia. To dělíme na dvousekundové bloky, zpracováváme v Amazon Kinesis a proženeme modelem strojového učení zaměřeným na real-time přepis. Výsledný text se vrací zpět do platformy a zobrazí klientovi,“ ozřejmil Nemec.
I když se může zdát, že problém byl vyřešen, objevila se další výzva. Jak zajistit, aby měl uživatel k dispozici i několikahodinový přepis v reálném čase a současně mohl s celým textem pracovat? Teoreticky je řešením mít text uložený v databázi prohlížeče. To by ale vyžadovalo pravidelné obnovování. Následné nahrání celého transkriptu by navíc s rostoucí délkou výpovědi na hodiny protahovalo i načítací rychlost stránky nad přijatelnou mez.
„Řešení jsme našli v protokolu WebSocket, který na rozdíl od HTTP umožňuje obousměrnou komunikaci a místo načítání celého obsahu pouze aktualizuje upravené bloky stránky a doplňuje nové. Stránku tak stačí „nakešovat“ pouze jednou a změny probíhají okamžitě,“ vysvětlil engineer manager Parrotu Mark Nemec.
Parrot v současnosti používá na některé funkce modelu GPT-3. A právě práce s nejnovějším strojovým učením je také tím, co inženýry do Parrotu láká. „Z toho, jak o těchto modelech nadšeně mluví špičky našeho odvětví, jsem zvědavý, kam se budou naše možnosti jejich využití dále posouvat. Celkově to vnímám jako jistý úsvit AI, kdy ji konečně začínáme jako lidstvo používat kreativně k řešení problémů, nejen coby chytřejší kámen k zatlučení hřebíku. Potenciál umělé inteligence je obrovský, protože dokáže posbírat data z různých domén a vygenerovat odpovědi, které pro nás mohou být zdrojem nových nápadů. Nebo pomoci vyřešit zapeklitý problém, se kterým jsme si nevěděli rady,“ uzavřel Nemec.