Kreativní spolupráce lidí a strojů. Český startup AIMS API patří mezi nejlepší na světě ve výběru hudby pro filmy

Zakladatelé AIMS API Viktor Parma a Martin Nedvěd

Foto: Lukáš Bíba

Hudba ve filmu není jen podkres. Když si Pán Blond ve slavné scéně z Tarantinových Reservoir Dogs pustí k mučení policisty píseň Stuck in the Middle with You (Uvízl jsem tu s tebou), strneme kvůli zvrácené ironii radostné melodie a textu. Rozhovor se zakladateli AIMS API začal odkazem právě na hollywoodského režiséra, který místo originálního soundtracku většinou pracuje s již existujícími skladbami. Český startup totiž vyvíjí nástroje s umělou inteligencí, které hudbu analyzují a hledají podobnou.

Hned zkraje je potřeba říct, že cílem Martina Nedvěda a Viktora Parmy z AIMS rozhodně není práci Quentina Tarantina nějak devalvovat, právě naopak. Cílem vývoje jejich algoritmů je tvůrcům poskytnout způsob, jak hledání vhodné hudby výrazně zjednodušit a zrychlit, tedy vytvořit větší prostor pro experimenty. V průběhu rozhovoru jsme se proto od byznysových začátků a přes spolupráci s největšími katalogy skladeb na světě dostali až k problému kreativity strojů.

Ale popořadě. O prvotní myšlenku startupu se vlastně postarala jiná firma, která svoje služby přestala nabízet a nechala tak díru na trhu. Martin Nedvěd, ředitel AIMS API, totiž pracuje také v Hudební bance, což je největší poskytovatel existující hudby v Česku. Je to vlastně rodinná firma, kterou aktuální vedení zmodernizovalo, zdigitalizovalo a rozšířilo do zahraničí. Rychle se ale objevil zásadní problém – jak se v rozsáhlé knihovně zorientovat?

aims_martin-nedved-1

Martin Nedvěd má mnoho zkušeností v hudebním byznysu i právu

Foto: Lukáš Bíba

Nejjednodušší odpovědí jsou samozřejmě dobře známá klíčová slova, tedy jména umělců, roky vydání, žánry, nálady a podobně. „Málokdo ale o hudbě přemýšlí v klíčových slovech,“ říká Nedvěd s tím, že vyhráno zdaleka nemají ani ti, kteří ano. Pro klíčová slova, jinak řečeno metadata, neexistují kodifikovaná pravidla, takže někdo může skladbu označit za jazz, někdo jiný za blues; někdo jako veselou, někdo jiný jako radostnou.

Řešení Hudební bance nabídla firma, jejíž nástroj ke zdrojovým písním nacházel alternativy na základě zvukové podobnosti, nikoliv klíčových slov. Netrvalo ovšem dlouho a skvěle fungující řešení koupilo Spotify, které právě zásadně vylepšovalo své doporučovací algoritmy. Na jednu stranu to znamenalo nepříjemnou ztrátu, na druhou příležitost.

„My jsme díky tomu věděli, že to lze udělat, ale v zahraničí jsme nenašli nikoho, kdo by měl dostatečně kvalitní řešení,“ vysvětluje Nedvěd. Jelikož má sám bohaté zkušenosti a přehled o mezinárodním hudebním byznysu, bylo mu jasné, že je na čase se pokusit o vytvoření vlastního algoritmu.

Spoluzakladatele s pozadím v hudební produkci i strojovém učení, Viktora Parmu, našel po třech měsících diskuzí s akademiky a procházení konferencí necelého půl kilometru od vlastních kanceláří. „Spojuje to pro mě všechno, co jsem dělal a chtěl jsem dělat,“ říká Parma, který je sám hudební producent a vystudoval elektrotechniku.

Za dva roky práce nejlepší produkt na trhu

Podle Martina Nedvěda je to významný důvod, proč se jim v AIMS podařilo v horizontu dvou let vytvořit nástroj, jehož schopnosti překračují i konkurenci od dobře zavedených mezinárodních firem s mnohem větším rozpočtem a zaměstnanci s doktorskými tituly. Sám Viktor Parma přitom – retrospektivně se smíchem přiznává, že naivně – nejdříve očekával mít všechno potřebné hotové do čtyř měsíců.

I když se ale původní plán poměrně výrazně protáhl na rok a čtvrt před první prodávatelnou verzí algoritmu, pořád se jednalo o poměrně přímočarý vývoj podpořený jen z vlastních zdrojů zakladatelů. „U jiných startupů to bývá tak, že přijdou s nějakým technickým řešením a až pak hledají, kde a jak ho aplikovat,“ vysvětluje Nedvěd.

AIMS naproti tomu vzniklo jako reakce na přesně definovaný problém. „My jsme navíc věděli, že náš problém jde vyřešit, což byla velká psychologická pomoc,“ dodává. V základu technologie startupu, který firmám dodává soubor nástrojů k integraci do vlastních systémů, je umělá inteligence. Její úkol je jednoduchý: analyzovat vloženou píseň a nabídnout seznam jí podobných.

aims_viktor-parma-1

Viktor Parma do AIMS přišel jako hudební producent i programátor

Foto: Lukáš Bíba

Jedině s pomocí strojového učení lze přitom dosáhnout bodu, kdy vyhledání hudby v knihovnách s desítkami či stovkami tisíc položek zabere nanejvýš pár vteřin. „Určitě jsme nechtěli jít do umělé inteligence proto, že je to zrovna atraktivní buzzword,“ podotýká Nedvěd.

Původně s tímto oborem neměl čtyřiatřicetiletý spoluzakladatel téměř žádné zkušenosti a přistupoval k němu jako k jediné rozumné možnosti. V dnešním světě zkrátka existuje velké množství hudebních nahrávek a strojové učení nabízí nejefektivnější způsob, jak se v nich zorientovat. Přesto na počátku stojí stará známá, nekvalitní metadata – vtip spočívá ve výrazně odlišném přístupu k nim.

Umělá inteligence v samotném jádru

„Používáme deep learning, takže neuronové síti poskytneme velké množství skladeb s metadaty a učíme ji, aby je začala správně predikovat,“ vysvětluje Parma. Pokud chceme jako koncoví uživatelé použít klíčová slova k vyhledávání hudby, rychle narazíme na špatné jednotlivé informace. Když ale neuronové síti dodáme obrovské množství různě kvalitních informací, bude schopná z nich vykrystalizovat spolehlivé výsledky.

Software si metadata jako název umělce, rok vydání, tempo, náladu nebo nástroje spojuje se zvukovou analýzou (spektrogramem) skladeb. Postupně se pak dostane do bodu, kdy už se slovními reprezentacemi nemusí vůbec pracovat, samotné vyhledávání se tedy spoléhá jen na zvukové charakteristiky hudby. Takový přístup umožňuje nejen obcházet nespolehlivé informace, ale zároveň nabízet mnohem širší a komplexnější výsledky.

„Je to jako mít kolegu, který celý katalog perfektně zná a okamžitě ví, kam pro co sáhnout.“

„S nadsázkou se můžeme například zeptat, jak by to znělo, kdyby tyhle dvě skladby měly dítě,“ navrhuje Nedvěd. Odpovědí přitom nemusí být zdaleka jenom dokonalý průměr, ale celá škála podobností mezi dvěma písněmi. První výsledek je velmi podobný nahrávce A a jen málo nahrávce B, druhý je na ose A-B trochu více vpravo, třetí ještě více a tak dále.

V rámci vteřin tak vznikne celý, takřka libovolně dlouhý playlist, který může dokonale plynule přecházet mezi dvěma žánry, náladami a podobně. Například v restauraci tak bude ráno vhodnější použít energičtější hudební podkres pro nastartování dne. Do večera ale zvukový prostor přejde do klidnější atmosféry, otevřené zase jinému typu sociálních interakcí.

aims_viktor-parma-2

Viktoru Parmovi se za dva roky podařilo vytvořit nejlepší software na trhu

Foto: Lukáš Bíba

Hlavními klienty AIMS ovšem nejsou streamovací služby, jak by mohl poslední příklad naznačit. Popisuje totiž možná častý, ale velmi specifický případ. Zvuková podobnost je pro doporučovací algoritmy Spotify a dalších jen jedním z obšírnějšího souboru kritérií. Navíc potřebují příslušné nástroje vlastnit, jinak by riskovali, že je koupí konkurence a oni by přišli o naprosto zásadní způsob, jak se odlišit od ostatních služeb.

Ačkoliv tak mohou být technologie českého startupu pro některé hráče na streamovacím trhu zajímavé, spolupráce je reálná jen u menších, přičemž ty větší už mají vlastní nástroje. Mnohem atraktivnější je ovšem filmový, televizní a reklamní segment, které jsou na hudbě závislé prakticky ve stejné míře.

„Spousta lidí si neuvědomuje, kolik hudby je potřeba pro každodenní vysílání,“ poznamenává osmatřicetiletý Viktor Parma. I když má velká hudební knihovna dobře zpracovaná metadata, ruční vyhledávání podle nich je pořád značně zdlouhavé. V praxi to může často znamenat vybírání toho, co je dostatečné, místo toho, co je ideální.

horyna-eman

Přečtěte si takéPár velkých příležitostí české firmě eMan těsně uteklo, teď už je pustit nehodlá. I díky penězům, pro které si jde na burzu

AIMS proto nedávno uzavřel smlouvu například s Universal Production Music, největším katalogem hudby pro použití v různých médiích na světě. Kromě toho pracují s dalšími společnostmi z Anglie, Spojených států, Německa nebo Japonska. „Firmy nám říkají, že to je jako mít kolegu, který celý katalog perfektně zná a okamžitě ví, kam pro co sáhnout,“ dodává šéf vývoje Parma.

Díky tomu jsou ochotné zaplatit poměrně vysoký obnos i za produkt, s nímž sám jeho hlavní vývojář není tak docela spokojený. Na svou práci má ale typicky velice vysoké nároky – přiznává, že až do bodu, kdy to trochu omezuje jeho schopnost označit něco za publikovatelné.

„Viktor má tak trochu impostor syndrome,“ směje se jeho kolega Martin Nedvěd s odkazem na syndrom, kdy lidé věří, že svých úspěchů dosáhli nezaslouženě, byť to tak obvykle není.

Pragmatický ředitel a perfekcionistický šéf vývoje

V současnosti startup pracuje na automatickém tagování, kdy algoritmus k vybraným písním automaticky přiřadí správná klíčová slova. Tzv. auto-tagging by mohl konkurovat celým firmám, které pro soubor zaslaných skladeb vytvářejí přehledné tabulky s klíčovými slovy. Zatímco pragmatický ředitel chce ke klientům co nejdříve dostat první funkční verzi pro zpětnou vazbu, perfekcionistický šéf vývoje trvá na omezené dostupnosti betaverze a zakazuje ji prodávat.

Viktor Parma se původně chtěl hudbě věnovat jako tvůrce a až později ho zaujalo programování. Snad díky tomuto propojení oborů říká: „Záleží mi na tom, aby napsaný kód měl i určitou estetickou úroveň, aby kromě správné funkce byl i kvalitně napsaný.“ V tomto kontextu můžeme vzpomenout například Steva Jobse, který lpěl na úhledném rozložení komponent uvnitř počítače a často mluvil o průniku technologie a umění.

aims_viktor-parma-martin-nedved-4

Vývojář Viktor Parma a byznysmen Martin Nedvěd se dobře doplňují

Foto: Lukáš Bíba

Martin Nedvěd svému parťákovi v tomto ohledu poskytuje důležitou protiváhu. Jeho mantrou prý je, že „pokud se za první produkt nestydíme, vydali jsme ho příliš pozdě“. Nezdá se ale, že by se v AIMS měli příliš za co stydět, ostatně mají nejlepší produkt v dané kategorii a za pravdu jim dává Universal Production Music, který byl založen v roce 1989 v Kalifornii a dříve působil pod názvem Killer Tracks.

I když je řešení mladého českého startupu nejdražší, v Universalu si ho vybrali, protože nenašli konkurenceschopnou alternativu. „Klientům je jedno, jaké má kdo jméno. Potřebují prostě, aby to skvěle fungovalo,“ poznamenává Nedvěd. Přesto je ale pochopitelně důležité je správně oslovovat, takže má AIMS ještě třetího spoluzakladatele, zkušeného norského byznysmena Einara M. Heldeho.

Jeho přínos nespočívá ani tak v dobré znalosti byznysových strategií, jako spíš ve skvělé orientaci v oboru, kde se pohybují klienti. Helde má za sebou, podobně jako Nedvěd, mnohaletou kariéru v hudebním průmyslu, takže už předem přesně ví, jaké problémy chtějí klienti řešit a jak o nich mluvit.

„V Česku je dostatek technologicky schopných lidí na to, abychom se mohli posouvat dál.“

„Potom to už není ani tak o samotném nabízení našeho produktu, ale diskuze o implementaci a jeho používání. Připravili jsme školení, kde firmám ukazujeme, k čemu náš algoritmus používat, protože ne všechny celá škála možností napadne,“ vysvětluje Nedvěd.

Dalším aspektem jsou mezinárodní kontakty na firmy, se kterými by AIMS chtělo pracovat. Byznysmen pracující v Dánsku je prozatím jediným členem startupu mimo Česko, v plánu je ale najmout dalšího ze Spojených států. Naopak z technologického hlediska prý není třeba o rozhazování sítí přemýšlet.

Příkladem je sám Viktor Parma, který poznamenává: „V Česku je dostatek technologicky schopných lidí na to, abychom se mohli posouvat dál, a zároveň si myslím, že pro ně můžeme být zajímaví.“ Podle vlastního průzkumu zakladatelů startupu u nás žádný jiný, který by kombinoval strojové učení a zájem o hudbu, není.

Důležitá spolupráce člověka s technologiemi

Opět se vracíme k zajímavému projevu Jobsovské syntézy technologií s uměním. Znovu si můžeme vzpomenout i na Tarantina. Režisér dnes ikonickou skladbu, známou jako hlavní hudební motiv Kill Billu, objevil téměř náhodou, když se podíval na remake oblíbeného japonského yakuza filmu. Kdyby místo toho použil nástroj AIMS, mohl by objevit podobný klenot? Je to dost možné.

Hudební streamovací služby se dnes potýkají s problémem, že algoritmické doporučování může mít negativní vliv na vývoj posluchačské kultury. Ve světě, kdy nám po dohrání jednoho alba nebo automaticky generovaného náladového playlistu okamžitě začne hrát další, podobný, je snadné se stát pouhým konzumentem. 

V rámci své práce ve sdružení českých nezávislých vydavatelů se s takovým fenoménem Martin Nedvěd přímo setkal. Spotify, v Česku dle Nedvěda zdaleka nejpoužívanější streamovací služba, totiž do playlistů a doporučení nezahrnovala místní tvorbu, ale jen mezinárodně žádané umělce. Loni se české asociaci firmu konečně podařilo kontaktovat a zajistit lidskou kurátorku, která začala domácí hudbu na službě více zviditelňovat.

aims_viktor-parma-martin-nedved-1

V AIMS API věří, že úkolem strojů je kreativním lidem pomáhat, nahradit je nikdy nemohou

Foto: Lukáš Bíba

AIMS nicméně věří, že u nich podobný problém neexistuje. To, co vyvíjejí, má kreativitu od začátku podporovat a profesionálové v televizi i reklamě se v posledních letech naopak více obracejí k méně známé hudbě. Možných omezení algoritmu na podobnost se Nedvěd nebojí. „Je možné, že se tím zúží výběr, ale možná víc se děje opak – někdy algoritmus nabízí skladby, jaké by dramaturgy nenapadly,“ přemítá.

Jejich nástroj také nemá žádné hranice dané zaměřením na žánr, rok nebo nástroje. Ke zdrojové skladbě tak nabídne i takovou, která má podobnou atmosféru, ale místo syntezátorů ji tvoří kytary a místo roku 2019 je ze 70. let. Poslední slovo by ovšem vždy mělo zůstat člověku. „Pro nás je důležitá spolupráce člověka s technologiemi. Lidi nemají nahrazovat, ale usnadňovat jim práci a rozšiřovat možnosti,“ konstatuje Parma.

corovent-mico2-min

Přečtěte si takéČeský plicní ventilátor CoroVent slaví velký úspěch. Certifikace od americké FDA mu otevírá dveře do světa

Stejný étos se přenáší i do posledního tématu naší diskuze, algoritmické tvorby hudby. Na jednu stranu spoluzakladatel AIMS věří, že uměle vytvořené písně nerozeznatelné od těch, co denně hrají v rádiu, jsou za dveřmi. Invence a originalita, stejně jako proměňující se vkus, jsou ale bytostně lidské záležitosti, nenahraditelné stroji. „To, co výtvor počítače může označit za esteticky zajímavé, je člověk. Software mu může pomoci se k výsledku přiblížit, ale finální rozhodnutí je nutně na něm,“ říká Parma.

Loni jsme ostatně psali o novém albu americké umělkyně Holly Herndon, kde se mísily lidské sbory s umělou inteligencí. Stroj se snažil reprodukovat jeden z nejintenzivnějších projevů lidství – zpěv. V AIMS mají podobný pohled. Stejně jako může mít kód estetické kvality, také v základu banální úkol hledání podobné hudby je zásadním projevem kreativity. Umělá inteligence nedokáže nahradit umění, může ale umělcům výrazně pomoci, když zjednoduší mechanické procesy a více pootevře dveře vlastní invenci.

Student filozofie a filmových studií, fanoušek vědy, umění a moderních technologií.