středa 20. května 2020

Nenechme datové skladníky definovat náš nový svět!

Bez širší diskuse byl prosazen koncept „chytré karantény“, vytvořený skupinkou IT firem, jejichž ajťáci jsou přesvědčeni o tom, že virus se dá „porazit“ daty.

Stále silněji je tlačen pohled, že v současné situaci je na výběr pouze mezi svobodou a zdravím, případně mezi destrukcí ekonomiky a zdravím. Názory nesouhlasící s formulací těchto voleb nemají prostor, brání přece rychlému vybojování války. Nesmíme se na nic ohlížet, musíme bojovat.

Hlavně bojovat. Jediné, co se k nám přes zavřené hranice dostalo, je čínský styl odpovědi na virus. Kdokoli se podívá například do Jižní Koreje a vznese logickou otázku „proč to neděláme jako tam, když nemají exponenciální růst a obchody jsou otevřené“, je okamžitě uzemněn univerzálním argumentem, že tam je to přece úplně jiné.

V momentě, kdy někdo nechce mluvit o vstupních datech a nezveřejňuje okamžitě s výsledkem i metodiku, je jedno, jestli vystudoval Oxford, nebo Vysokou školu života. Z veřejného prostoru i tolik navštěvovaných sociálních sítí zcela zmizelo kritické uvažování nad prezentovanými daty.

Studenti s kariérou ve strojírenství se snaží argumentovat technicky. Řeší se hlavy motorů a těsnění. Ekonomové v místnosti počítají scénáře hospodářských výsledků nyní ztrátového týmu odvíjející se od vztahů mezi vstupními poplatky, získanými a ztracenými sponzory.
Stále častěji se objevuje citát manažera týmu ze zadání případové studie „nikdo nikdy nevyhrál závod tím, že seděl v garáži“. Přítomní statistici dochází k závěru, že nějaký mechanik z garáže nemá co mluvit do závislostí, protože určitě v životě neviděl lineární regresi, natož nelineární, a vůbec – jaképak pocity („gut feelings“), když jsou tady tvrdá data a jejich statistická analýza jasně ukazuje, že žádná závislost mezi teplotou a výbuchy motoru není.
Desítky let výuky této případové studie tvoří statistiku, ve které jsme si nevedli zase tak špatně. Otázka o životě a smrti závodního jezdce v případě exploze motoru totiž ve většině případů vůbec nepadne. A pokud padne, vždy ji položí žena, kterou následně utnou alfa samci argumentem, že „nikdo nikdy nevyhrál závod tím, že seděl v garáži“.
Dobré případové studie jsou tvořené s cílem navodit zážitek a nastavit dynamiku, která posiluje typy chování, jež chce případová studie demonstrovat. Trik přenést situaci do jiného odvětví je klasický tah. V tomto případě autoři případovky do textu zcela záměrně umístili věty typu „nikdo nikdy nevyhrál závod tím, že seděl v garáži“, aby do skupinové dynamiky diskutujících lidí vnesli emoce.

Právě emoce a jejich vliv na lidské rozhodování jsou první klíčovou linkou mezi rozhodováním o závodění a naší dnešní situací v době koronavirové. Komplexita světa již dávno předběhla základní schopnosti našich mozků lovců a sběračů. Částečně (někteří více, někteří méně) jsme tato omezení pochopili.
Související otázky emoční inteligence i kognitivních zkreslení nejsou předmětem jen akademické literatury, ale jsou široce popularizované.

Nicméně i tato sebekontrola má své hranice; emoce – zejména strach – jsou největším nepřítelem při snaze ovládat svůj vlastní mozek tak, abychom se nedopouštěli chyb, jejichž původcem jsou kognitivní zkreslení a rozhodovací pasti. V každé rozhodovací situaci se náš mozek totiž snaží nějakým způsobem doplnit chybějící části obrázku.

Druhým a zcela zásadním společným prvkem koronavirové situace a závodní případovky jsou neúplná data. Média každý den prezentují počty provedených testů, nakažených a mrtvých. Počítají poměry v procentech na jedno až dvě desetinná místa. Hovoří o tvrdých datech. Přitom nemáme v ruce nic než agregovaná data (tj. data bez původního kontextu), u nichž máme vlastně jednu jedinou jistotu – že jsou extrémně nepřesná.

Stát přiznává, že neví, kolik bylo vlastně testováno lidí, protože se počítají testy. To však nebrání např. Seznamu publikovat hodnotu reprodukčního čísla R – bez informace o tom, z čeho je spočítána (datová základna) a jak (metodika). Ajťáci a dataři se totiž stali oběťmi svých velice lidských mozků v podmínkách stresu a nejistoty.

Data, která jsou jejich modlou, začali zneužívat tak, aby si sami pro sebe vytvořili uklidňující jistotu, že celá situace kolem covid-19 je nějak pod kontrolou. Opak je ale pravdou, spolehlivé číslo k tématu covid-19 nemáme ani jedno. Jen se na ně zbytečně upínáme.

 Všechna čísla prezentovaná v souvislosti s covid-19 podléhají výběrovému zkreslení. Dokonce i počty mrtvých, protože ne všichni zemřelí v populaci jsou testováni na covid-19. Ani dopady viru na ekonomiku a společnost nebudou nikdy zcela jasné, protože nemáme paralelní vesmír, který 1. 1. 2020 vypadal stejně jako náš a virus se v něm podařilo zadržet v Číně. Respektive o takovém paralelním vesmíru (zatím) nevíme.

Takže budeme ještě dlouho diskutovat, co způsobil virus, a co by se stalo tak jako tak. S výběrovým zkreslením lze samozřejmě pracovat a snažit se o jeho kompenzaci, jak ukazují například v ekonomii práce Daniela Heckmanna.

Covid-19 ale není ekonometrický experiment, je to reálná situace, kde výběrový vzorek vzniká částečně organicky („kdo přijde a chce se nechat otestovat“), částečně činností těch, kteří ovládají rozdávání vstupenek na testy („kdo z těch, kteří přišli, bude otestován“).

Doporučení „testovat, testovat, testovat“ i snaha například Jižní Koreje a Německa otestovat velkou část populace mají za cíl právě minimalizaci výběrového zkreslení. Než se tak stane, mohli bychom jako vodítko použít zacílené experimenty a sondy. Jejich relevance záleží na kontextu, ve kterém se odehrají, a předpokladech, které budou v jejich konstrukci vestavěny. A ty musí hodnotit virologové a lékaři.

Při rozhodování máme tendenci spoléhat se na konkrétní informace a vnímaná fakta, která nám pak slouží jako vstupy do samotného rozhodovacího procesu. Pokud se spoléháme (kotvíme) na nesprávné vstupy, nemůžeme se rozhodovat správně. Žijeme v době extrémní posedlosti exaktním popisem úplně všeho. Moderní technologie nám umožňují posbírat ohromná množství dat.
A pomalu se také dostáváme do stavu, kdy data začínají sloužit jako zdroje jistoty, a snažíme se s jejich pomocí změnit situaci rozhodování za nejistoty na rozhodování v jistotě. Což je přirozené a lidské, protože mozek lovce a sběrače nesnáší nejistotu a změnu. Zejména když je ve stresu a bojí se.
Měli bychom si ale dávat velký pozor na to, zda nás náš vlastní vystresovaný mozek neopíjí rohlíkem a nesnaží se vytvořit si jistotu z dat, která jsou nespolehlivá. Mozek dosáhne svého (vnímání jistoty – má přece data, tím si doplnil obrázek a rozhodl se na jejich základě), ale my používáme špatná data.

A co je ještě horší, automaticky omezujeme příjem dalších vstupů, které by nám mohly v rozhodování pomoci. Hodili jsme kotvu a přestáváme hledat další zdroje, které by mohly rozhodování zlepšit. Přestáváme si klást kritické otázky, zda „naše“ data odpovídají tomu, co vidíme v realitě.
Je to právě schopnost neustále „kreativně pochybovat“ nad daty, jejich původem, způsobem sběru i metodikou zpracování, co dělá špičkové datové analytiky. Odlišuje je od datových skladníků a je to také důvod, proč jsou tak vzácní.
Tuto krizi nevyřeší data, nicméně k jejímu vyřešení může pomoci pochopení, že přesně vypadající data jsou ve skutečnosti omezená a nelze se na ně spoléhat. Nakonec tuto krizi vyřeší moderní lidstvo stejným způsobem jako krize předchozí. Dělbou práce. Koncept pojmenovaný Adamem Smithem v roce 1776 je základem specializace a všech hlubokých odborností, které dnes máme k dispozici.
Lékaři ať léčí, virologové ať zkoumají virus, makroekonomové ať řeší, jak minimalizovat destrukci ekonomiky. Ajťáci ať pomáhají školám přesunout výuku do online prostoru a drží funkční všechny systémy, bez nichž by dnes v klíčových sektorech ekonomiky nic nefungovalo. Firmy s flexibilními výrobními nástroji jsou schopny rychle vyrábět potřebné věci. Firmy v příbuzných odvětvích mohou doplnit výrobní kapacity těch odvětví, která nestíhají dodávky kritického materiálu.

A datoví skladníci by se taky měli držet své práce – měli by nadále přehazovat data v databázích a přestat se pokoušet spasit svět pomocí nástrojů vhodných tak akorát na hodnocení marketingových kampaní. Protože svými v realitě nesmyslnými daty často jen dávají zbraně přátelům starých pořádků a podkopávají snahy zbytků občanské společnosti vypořádat se s virem západním způsobem. Ambiciózní jedinci přesvědčení o tom, že spasí svět, a zavirovaní posedlostí kontrolovat se stávají se svými totalitárními nápady mnohem větším rizikem než virus samotný.

Přemýšlejte kriticky nad čísly, která vidíte. Číslům bez kontextu vůbec nepřikládejte význam. Nenechte si zavirovat mozek, on se totiž nedá vydezinfikovat tak jednoduše jako ruce. V kontextu neúplných a nespolehlivých dat jsou často nejhodnotnější ta data, z nichž nejsou vyvozeny žádné závěry.
Nenechme datové skladníky definovat náš nový svět. Nevěřte jejich proklamacím, že se díky skvělým datům a chytrým karanténám vrátíme k normálu. Žádný návrat ke starému normálu se totiž konat nebude. Nás všechny a celou naši společnost ovlivní to, co v těchto dnech prožíváme.
Naše dnešní akce a rozhodnutí spoluutváří svět, ve kterém budeme žít po viru. Jak ten nový svět bude vypadat, o tom můžeme dnes jen spekulovat. Jasné je jen jedno – digitální a datová totalita by byla mnohem horší než ta analogová, která skončila před třiceti lety. Teď nejde o život závodního jezdce ani o posádku raketoplánu. Teď jde o to, jak bude svět vypadat příští desítky let.

Aby to zkrátka nebylo jako v údajném Churchillově výroku, že „statistika je jako pouliční lampa pro opilého: slouží daleko více jako podpora než jako osvětlení“. A to ještě zbývá otázka, co by vlastně taková statistika podpořila.





Ondřej Zaoral + Karel Oliva

Žádné komentáře:

Okomentovat

Zkoušky z lásky

Připadá mi to absolutně nemožné, ale buď se mi rozbilo vyhledávání, nebo jsem skutečně ještě nikdy nevyzval ke zrušení Vánoc. Tudíž je dost ...