Roztříštěnost důležitých dat napříč desítkami či stovkami různých zdrojů, technologických platforem a úložišť je jedním z nejčastějších problémů, které řeší globální koncerny i rostoucí startupy. Česká datově-integrační platforma Dataddo si klade za cíl poskytovat spolehlivou infrastrukturu pro sběr a přenos dat i jejich zápis v podobě připravené pro zobrazení pomocí rozmanitých dashboardů. Hostem technologického podcastu SCRIPTease byl Tomáš Sedláček, který do Dataddo nastoupil v lednu 2020 jako back-end vývojář a od léta 2021 zastává roli technologického ředitele.
Článek vznikl v rámci spolupráce StartupJobs Newsroom a podcastu SCRIPTease. Celou epizodu si můžete poslechnout zde:
Příběh vzniku firmy Dataddo je důkazem toho, že svět je malý a o náhody v něm není nouze. Společnost založil zkušený developer Petr Nemeth, který dnes působí na pozici výkonného ředitele, a to spolu s provozním ředitelem a profesionálním hercem Zdeňkem Pechou. Toho mohou znát diváci, kteří viděli filmy Nabarvené ptáče a Mimořádná událost či úspěšnou divadelní inscenaci Společenství vlastníků souboru Vosto5.
Třetím do party zakladatelů je Američan Joel Thom, který do České republiky přijel na výměnný pobyt na Univerzitě Karlově a Petr Nemeth jej potkal zcela náhodou v letadle. Thom se stal klíčovou postavou při expanzi Dataddo na americký kontinent a ve firmě v současnosti působí na pozici Head of Customer Success (ředitel pro péči o zákazníky – pozn. red.). Rozvoj startupu Dataddo je od jeho založení v roce 2018 financován prostřednictvím fondu Impulse Ventures českého miliardáře Ondřeje Tomka. V rámci tří investičních kol do firmy napumpoval již více než 100 milionů korun.
Vodovod pro data. Tedy datovod?
„Dataddo je česká technologická softwarová firma s vlastním produktem, který se jmenuje taktéž Dataddo. Je to integrační nástroj nabízený široké paletě zákazníků, se kterým mohou propojovat různé aplikace a cloudové technologie a přelívat mezi nimi data. Metaforicky by to šlo připodobnit k vodovodnímu potrubí. Nacucneme vodu z různých zdrojů, ta proteče naším potrubím, kde se ji snažíme vyfiltrovat, a poté ji někam nalijeme. Působíme tedy jako provozovatel potrubí, který zákazníkovi dodává vodu v určité kvalitě, čistotě a v konkrétní čas,“ používá poněkud netradiční metaforu Tomáš Sedláček.
Mezi významné světové zákazníky Dataddo patří sociální síť Twitter, dovážková služba Uber Eats, herní obchod Epic Games, francouzská fotbalová federace nebo hokejové týmy Dallas Stars a Minnesota Wild ze slavné severoamerické NHL. Právě v USA sídlí majorita aktuálních zákazníků. Z českých firem jde například o online agregátor sportovních výsledků LiveSport nebo softwarové řešení Mews určené pro ubytovací zařízení, jehož hodnota atakuje jednu miliardu dolarů. Celkem se jedná o přibližně 400 enterprise klientů. „V posledním čtvrtletí jsme zaznamenali významnější nárůst v počtu zákazníků a pokud tento trend bude pokračovat, přehoupneme se v roce 2023 přes tisíc klientů,“ kalkuluje spokojeně Tomáš Sedláček.
Zálohujete? Pokud ne, měli byste
Technologický ředitel firmy vysvětluje, že pro platformu Dataddo existuje několik základních příkladů užití. „První z nich je, když je potřeba data vytáhnout a zpřístupnit v aplikaci, která umí interpretovat data v grafické podobě. Například stáhneme denně data z Google Analytics, kde je uživatel limitován tříměsíčním obdobím, po které si může data stáhnout sám, a přehrajeme je do jiného nástroje, kde toto omezení není. Druhým z nich je záloha, tedy přenesení většího objemu dat a jejich replikace. Třetím je extrakce, příprava a uložení dat, nad kterými si pak staví vlastní řešení například pomocí PowerBI konkrétní zákazník. Posledním je ‚promíchávání‘ dat z různých zdrojů a filtrace,“ uzavírá dlouhý výčet Tomáš Sedláček.
„Historicky jsme se nazývali no-code nástrojem a cílili jsme na lidi, kteří nejsou programátory. Nejsme framework nebo něco, co by programátoři vyhledávali – ve většině případů by totiž jednotlivé integrace dokázali napsat sami. Cílovou skupinou jsou lidé, kteří tyto dovednosti nemají. Umožňujeme jim data přenášet a staráme se o vše okolo, aby se to nerozbilo třeba v okamžiku, kdy se na jedné straně změní specifikace API,“ vysvětluje Sedláček.
U tří stovek konektorů nekončí
Zvyšující se počet i absolutní velikost jednotlivých zákazníků klade rostoucí nárok na technologické zázemí Dataddo. Tomáš Sedláček nicméně jedním dechem dodává, že pakliže nějaká část integrace přestane fungovat, je to nejčastěji kvůli úzkým hrdlům na straně zákazníka, nikoliv jejich platformy pro přenos dat. „Za poslední rok jsme urazili poměrně dlouhou cestu a podařilo se průběžný tok optimalizovat. To nám rozšířilo obzory a otevřelo nové možnosti v tom, jaké služby dokážeme nabízet. Zároveň s tím nám ale roste i faktura, kterou nám posílají Amazon Web Services,“ směje se Tomáš Sedláček.
Dataddo využívá ve svých produktech následující technologie:
PHP, JSON, Go, Vue.js, Kubernetes, MongoDB, Redis, RabbitMQ, PostgreSQL, Terraform, Symfony
Firma celkově nabízí už na 300 takzvaných konektorů, tedy předpřipravených integrací s webovými službami či databázemi, ze kterých je schopná data stahovat. Řádově nižší je počet cílových platforem, do kterých Dataddo dokáže zapisovat – asi 30. „Extrakce a zápisy nepodporujeme v režimu 1:1. Máme speciální tým lidí, kteří píší kód pro extrakce, a konektory vznikají poměrně rychle. Stačí nám nastudovat si, jak konkrétní API vypadá, v jakém formátu vrací data, jak se u něj autorizovat, jaké jsou limity. Jakmile je řešení stabilní, uložíme jej jako šablonu a vydáme jej jako samostatný konektor, který zařadíme do našeho seznamu,“ vysvětluje Sedláček.
V okamžiku, kdy se data nacházejí „v potrubí“ Dataddo, jsou uložena jako jeden ze čtyř standardizovaných typů (textový řetězec, celé číslo, číslo s desetinnými místy a datum). Následně už míří do cílové destinace. Tomáš Sedláček upozorňuje, že tzv. writery (konektory – zapisovače) jsou oddělená nádoba a jejich vývoj trvá výrazně déle.
Cloud nejen pro Brazílii
Samostatným tématem je pro firmu postupné snižování zbytných provozních nákladů (například na provoz některých databází) a vztah s cloudovým řešením Amazon Web Services. „Nemám moc zkušenosti s jiným cloudem, abych to mohl hodnotit. Na druhou stranu máme takové řešení, že do konzole AWS nás nic nenutí chodit. Nejvíce nás zajímají finance a na trhu aktuálně není žádný hráč, který by nás uměl obsloužit a zároveň byl výrazně levnější. Budeme ale v blízké budoucnosti muset řešit kompatibilitu s cloudy od Google či Microsoftu, a to i kvůli tomu, že někteří zákazníci data u Amazonu mít zkrátka nechtějí. Třeba proto, že si v nějaké oblasti podnikání konkurují,“ vysvětluje Tomáš Sedláček.
Druhou plánovanou změnou je geografická diverzifikace, protože Dataddo výrazně roste v regionu Jižní Ameriky. Například data zákazníků z Brazílie však stále protékají přes evropská datacentra. Podle interních měření firmy to celý přenos zpomaluje až desetinásobně. Vyřeší to také četné otázky ohledně tzv. data residency (domovské lokality dat), které jsou propírány v legislativě většiny států ve vztahu k důležitým službám infrastruktury.
Kolik různých databází musí firma jako Dataddo provozovat pro testovací účely? Jak se dynamický růst společnosti projevil na výběru technologií a které z nich odhalily svoje limity? Jaké konektory v portfoliu firmy považuje Tomáš Sedláček za „obskurní“, ale zákazníci je vyžadují? A proč vývoj nových funkcionalit v Dataddo připomíná stavebnice LEGO? Nejen tyto otázky zodpoví CTO Tomáš Sedláček v další epizodě podcastu SCRIPTease, který moderuje šéf technologické skupiny LOLO.team Jirka Bachel.