Pokud se alespoň občas podíváte na film, televizi nebo si poslechnete hudbu, s největší pravděpodobností se setkáváte s technologií pražského startupu AIMS, aniž byste to patrně tušili. Mladý tým v čele se zakladateli Martinem Nedvědem (na fotce vpravo) a Viktorem Parmou dodává největším světovým producentům audiovizuálního obsahu algoritmus, který je zcela revoluční pro hledání v hudebních knihovnách. Místo nespolehlivého pátrání pomocí metadat dovede jejich technologie naservírovat producentům skladby na základě toho, jak moc se podobají jejich již existujícím předlohám.
Když chtějí tvůrci filmů, krátkých videí či různých spotů přidat do snímků hudbu (což je až na výjimky vždy), pomohou si běžně tak, že v hudební knihovně hledají podle metadat, konkrétně tagů, například: romantická, rychlá, slavnostní a podobně. Martin Nedvěd a Viktor Parma však namítají, že takový postup je nepřesný a neefektivní - tagy jsou jednak podle nich příliš vágní, jednak příliš subjektivní a jednak nedemokratické, neboť zvýhodňují stopu s lépe propracovanými metadaty.
V jejich startupu AIMS (Artificial Intelligence Music Search), který v lednu oslaví třetí narozeniny, na to jdou jinak. Společnostem dodávají technologii, která je schopná vyhledat skladbu na základě zvukové podobnosti. „Téměř každý režisér, hudební dramaturg, zvukař nebo kdokoli, kdo pracuje s videem a chce do něho přidat audio, začne typicky u nějaké reference, tedy něčeho, co zná. Hledat v hudebním archivu skrze klíčová slova je ale nešťastné z mnoha důvodů, a také to trvá dlouho. S AIMS stačí například vložit YouTube odkaz a do několika vteřin máte seznam skladeb, která náš algoritmus vyhodnotí jako nejpodobnější,” vypráví zakladatel a CEO společnosti Martin Nedvěd.
Spoluzakladatelé AIMS Martin Nedvěd (vlevo) a Viktor Parma.
AIMS se typicky propojí se systémem klienta, zanalyzuje jeho audio katalog a následně umožní v jeho rámci hledat podobnosti. „Referencí může být nejen hudební stopa, kterou už má klient v katalogu, ale jakákoli skladba, která vás napadne,” doplňuje Viktor Parma, šéf výzkumu AIMS a strůjce algoritmu, který je zároveň hudebním producentem.
„Technicky používáme metodu deep learning,” přibližuje. „Podobnost, kterou hledáme, určujeme na základě vstupního audiosignálu, nikoli metadat. Pokud bych měl zabíhat do podrobností, tak 1D audiosignál transformujeme do spektogramu, tedy 2D reprezentace, kdy na jedné ose je čas a na druhé frekvence. Takový spektogram se dá chápat jako obrázek, i když je to stále reprezentace zvuku. Na něj pak aplikujeme neuronovou síť, která ze spektrogramu extrahuje číselné vektory popisující zvukový obsah. Pokud získáme pro každou skladbu jeden vektor, pak dvě podobné skladby mají vzájemně podobné vektory. A to je právě to, co nám umožňuje zefektivnit proces hledání. Pokud bychom chtěli procházet jednu skladbu po druhé, trvalo by to hodiny či dny. Díky vektorovému prostoru jsme schopni provést hledání během zlomku sekundy.”
Největší hudební společnosti
Mezi klienty AIMS patří typicky různé nahrávací společnosti, hudební banky, ale také televize, tvůrci filmů, reklam či různých videí. „V zásadě se jedná o profesionály, kteří se jakýmkoliv způsobem podílejí na procesu zařazování hudby do videa,” upřesňuje šéf společnosti a pokračuje: „Typicky chtějí najít hudbu pro film, reklamu, seriál či YouTube. A pak jsou tu hudební firmy, které mají vlastní audio obsah, jenž chtějí prodat.”
Středně velké hudební firmy mají podle Nedvěda stovky tisíc nahrávek, ty největší pak až miliony. Z toho vyplývá, že hledat mezi nimi pomocí klíčových slov je nevděčný úkol. „Firmám to trvá hrozně dlouho, případně ani nenajdou, co hledaly. Přitom často vědí, že ve svém katalogu mají skladbu, která by se jim hodila, ale netuší, jak se k ní dostat, protože nikdo nemůže znát stovky tisíc hudebních stop,” vypráví Nedvěd.
Mladá společnost má v tuto chvíli ve svém portfoliu zhruba 15 klientů, přičemž v drtivé většině jde o zahraniční (USA, Německo, Velká Británie) hudební firmy, které vytvářejí hudební knihovny a snaží se svůj obsah licencovat do televizí či reklam. Mezi klienty patří například španělská veřejnoprávní televize a nedávno se AIMS podařilo uzavřít smlouvu s americkou Universal Production Music, což je světová hvězda mezi dodavateli produkční hudby.
Vzhledem k tomu, že se společnost orientuje zejména na větší firmy s širokým pokrytím, je proces schvalování a dohadování spolupráce zdlouhavý, proto Martin Nedvěd a Viktor Parma počítají, že nová jména budou přibývat až v následujícím čtvrtletí. „Máme rozjednaných několik obrovských televizí v Americe, ale některá jednání jsou zkrátka zdlouhavější, mohou trvat i rok a půl,” říkají. Jejich současným cílem je proniknout do velkých tradičních nahrávacích společností, jejichž hlavní příjem sice plyne ze Spotify, ale pět až deset procent celkového revenue údajně pochází právě z licencování obsahu do audiovize. V této oblasti se teď AIMS snaží podle svých slov prosadit nejvíc, mají rozjednané desítky potenciálních spoluprací.
Jediným českým jménem v portfoliu AIMS je Hudební banka, největší tuzemský dodavatel hudby, který se však nedá považovat za běžného klienta, neboť AIMS původně vznikl právě jako interní projekt Hudební banky, již navíc Martin Nedvěd dodnes řídí. Teprve od prosince loňského roku se AIMS osamostatnil a nyní funguje jako svébytná jednotka.
Viktor Parma (v popředí) sestavil algoritmus, CEO Martin Nedvěd má na starosti chod společnosti.
V provozním zisku
Ostatně samotný impuls pro vznik nové společnosti pocházel podle spoluzakladatelů právě z Hudební banky, která si dříve platila podobnou technologii, jakou se nyní AIMS zabývá, jenže tehdejšího dodavatele podle Martina Nedvěda koupil Spotify a ponechal si jeho řešení pro své vlastní potřeby. „V tu chvíli jsme zůstali v nešťastné situaci, protože jsme věděli, že máme zhruba tři čtvrtě roku, než nám skončí smlouva u služby, kterou potřebujeme. Protože ještě horší, než nějakou funkci pro klienty nemít, je ji mít a pak ji přestat nabízet, přestože je úspěšná. A tak jsme se rozhodli si vytvořit vlastní řešení,” vzpomíná.
Dnes si klienti AIMS platí subscription, které začíná kolem tisíce dolarů měsíčně v případě nejmenších hráčů a šplhá k 10 tisícům dolarů a více u velkých firem. „U skutečně velkých značek, na které se teď ještě více zaměříme, si lze představit, že půjde v korunách o vyšší miliony,” odhaduje Martin Nedvěd.
Firma s mezinárodním devítičlenným týmem a sídlem v Praze je už nyní v provozním zisku a pochvaluje si růst. „Daří se nám dobře. Ale růst je samozřejmě relativní, každý si ideální rychlost růstu představuje jinak. Tím, že jsme finančně nezávislí, financujeme se sami, nakládáme přece jen s penězi trochu jinak než startupy, které najednou naraisují ohromné finance,” poznamenává CEO.
Kromě etablování se ve velkých nahrávacích společnostech se chtějí AIMS zaměřovat na prozkoumávání nových možností, které jejich algoritmus může skýtat. „To, že umí vyhledat podobnosti, neznamená, že bychom ho mohli využívat jen na hledání podobnosti v hudbě,” uvádí Martin Nedvěd a Viktor Parma dodává: „Nabízejí se zajímavé možnosti, co se dá ve vektorovém prostoru ještě dělat.”
Jednou z nových funkčností pro hudební průmysl podle něj může být hledání průniků různých skladeb, což by podle Martina Nedvěda mohlo posloužit třeba v případě, že si někdo u labelů objedná skladbu, „která zní, jako by se potkala Helenka Vondráčková s Rytmusem”. Technologie AIMS umí propojit vektory písní obou interpretů a najít výsledek, který vypadá, „jako kdyby tyhle dvě skladby měly dítě”.
Foto: AIMS