L'ospite
Big Data

Big data di Viktor Mayer-Schonberger e Kenneth Cukier è un libro importante per almeno due ragioni: la qualità dei contenuti e l’oggettiva rilevanza del tema trattato.
Dal primo punto di vista, il pregio del libro è quello di possedere una “visione” della situazione attuale e futura delle economie moderne, cioè una capacità di: a) cogliere fenomeni rilevanti, talvolta sotto traccia, in altri casi (come in questo) più evidenti, che sono destinati a cambiare le caratteristiche strutturali e le modalità di funzionamento di un sistema economico; b) intuire e prevedere le implicazioni di tali fenomeni: le sfide che racchiudono, le opportunità che aprono, i cambiamenti che richiedono alle politiche pubbliche, alle imprese e ai singoli individui.
Oltre che dall’acutezza dell’analisi e dalla capacità di visione, l’importanza del libro dipende però anche dalla rilevanza dell’oggetto indagato: il cambiamento tecnologico, in particolare quello riguardante la tecnologia dell’informazione. La tecnologia è una delle grandi variabili di contesto in grado di disegnare lo scenario del business. Innovazioni radicali che riguardino tale variabile producono effetti molteplici, profondi, strutturali e trasversali, al pari dei grandi cambiamenti che interessano gli assetti geo-politici (ad esempio la globalizzazione), i modelli di management (la struttura multidivisionale, il Total Quality Management, il Business Process Reengineering, ecc.) , gli assetti proprietari (la ritirata della proprietà pubblica, il peso crescente degli investitori istituzionali, e così via).
Tra i tanti cambiamenti in ambito tecnologico, il libro si sofferma su uno in particolare: i big data, cioè la possibilità di raccogliere ed elaborare eccezionali quantità di dati, fino spesso a rappresentare l’intero universo dei fenomeni indagati e realizzare così il sogno della “conoscenza totale”. I big data non hanno però solo una valenza “quantitativa”, ma anche “qualitativa”; questa è in realtà la prima definizione che gli autori ne danno nel libro: “la capacità di sfruttare le informazioni con modalità innovative per ricavarne utili indicazioni, o beni e servizi di notevole valore” (p. 11).
La portata e la profondità degli implicazioni comportate dai big data dipendono dalla natura dell’innovazione della tecnologia dell’informazione, che ha la caratteristica di essere una general purpose technology (GPT). Lo storico dell’economia Gavin Wright definisce le GPTs come “deep new ideas or techniques that have the potential for important impacts on many sectors of the economy” (Wright, 2000). Le caratteristiche delle GPTs sono tre: la pervasività, il progressivo miglioramento nel tempo, la capacità di favorire altre innovazioni in diversi settori dell’economia. Tutti i business usano informazioni e il miglioramento nella quantità e qualità delle stesse è destinato a influenzare in profondità tutti i business.
Fondamentalmente, i big data si basano su tre condizioni: l’aumento delle informazioni disponibili, il miglioramento delle capacità di elaborazione delle stesse, la convenienza economica (bassi costi, alti benefici) nell’ottenere i due scopi appena indicati.
La prima condizione è sua volta la conseguenza di fenomeni quali la “datizzazione” e l’“Internet delle cose”.
La datizzazione consiste nel convertire un qualunque fenomeno in forma quantitativa, così da poter estrarre dati dallo stesso. Tale processo è favorito dalla digitalizzazione, anche se non coincide con essa (la scansione elettronica dei documenti li trasforma in formato digitale e li rende più facilmente trasferibili, archiviabili, utilizzabili, ma di per sé non genera dati). La datizzazione sta invadendo sempre nuovi campi: Facebook permette di trasformare in dati le relazioni, Twitter i sentimenti, Linkedin le esperienze professionali.
Da parte sua, il cosiddetto “Internet of things” permette di raccogliere informazioni sullo stato e il funzionamento degli oggetti, attraverso appositi sensori applicati agli stessi. Anche il sedile del posto di guida di un’autovettura può produrre dati e dialogare con altri sistemi: può riconoscere una postura diversa da quella del proprietario e attivare un sistema antiintrusione; può riconoscere uno spostamento del guidatore (colpo di sonno, movimento per prendere un oggetto) e attivare un allarme. La conoscenza della posizione e del movimento dei diversi veicoli (GPS, sistemi di geolocalizzazione) può essere utilizzata in molti modi: una compagnia assicurativa può personalizzare le proprie tariffe assicurative, un vettore può controllare e gestire la propria flotta di veicoli, un viaggiatore può ottimizzare il proprio percorso, un’agenzia pubblicitaria può mirare meglio i propri messaggi pubblicitari…e un’apposita app può segnalare al conducente quando e dove conviene far benzina, incrociando i dati relativi all’attuale livello di carburante nel serbatoio, allo stile di guida, al consumo previsto, al traffico, alla localizzazione dei punti di rifornimento, ai prezzi di vendita del carburante.
La seconda delle tre condizioni citate alla base dei big data è collegata alla crescita esponenziale (secondo la legge di Moore) della potenza di calcolo e dallo sviluppo dei sistemi di Intelligenza Artificiale.
Infine, come Shapiro e Varian (1998) già parecchi anni fa hanno dimostrato, la raccolta, l’archiviazione e l’elaborazione dei dati possono avvenire con un sacrificio economico relativamente ridotto, sia a causa del processo di riduzione dei costi comportato dallo sviluppo tecnologico che caratterizza il settore dell’ICT, sia a causa del costo marginale di produzione pressoché nullo comportato dalla riproduzione/trasmissione dell’informazione digitale.
Una delle parti più acute e stimolanti del libro è quella in cui gli autori riflettono sulle modalità con cui l’avvento dei big data cambia il nostro modo di usare le informazioni ed estrarre conoscenza dalle stesse. Il cambiamento quantitativo (maggiori dati a disposizione) produce infatti un cambiamento qualitativo, così come, secondo l’esempio degli autori, una sequenza di tantissimi fotogrammi produce una trasformazione della natura delle stesse: non più una serie di immagini statiche, ma un film. Gli aspetti più rilevanti sono tre:
- L’universo sostituisce il campione.
- La quantità del dato sostituisce la sua precisione
- La correlazione sostituisce la causalità
I tre aspetti elencati riguardano rispettivamente tre diversi e importanti profili dei dati: la loro quantità, la loro qualità e le relazioni che intercorrono tra essi. Il cambiamento contemporaneo di tutti e tre questi profili non può che comportare un profondo cambiamento nel processo di raccolta ed elaborazione dell’informazione, così come nei valori di fondo che guidano tale processo (la “cultura del dato”). Analizziamo in modo più approfondito tali aspetti.
1. Il primo profilo di cambiamento riguarda la possibilità di lavorare su tutti i dati relativi a un determinato fenomeno anziché solo su una loro parte. L’universo sostituisce il campione e la realtà sostituisce l’inferenza. Scompaiono gli errori di campionatura e si raggiunge un maggior grado di certezza sui fenomeni oggetto di indagine. “Puntare su un campione statistico nell’era dei big data è come usare il cavallo nell’era dell’automobile” (p. 49).
2. Con la scomparsa dei problemi di campionatura e la maggiore ampiezza di dati disponibili, cambiano le condizioni di efficacia nella raccolta dei dati: la quantità dei dati fa premio sulla loro qualità. E’ meglio avere un maggior numero di punti di accesso e raccolta dei dati, anche se non tutti “certificati” o di assoluta attendibilità, piuttosto che disporre di pochi dati precisi. Negli anni novanta IBM tentò di lanciare un programma di traduzione automatica e simultanea su Internet, alimentandolo con le traduzioni ufficiali dei dibattiti parlamentari presenti nella rete: informazioni di elevata qualità, ma di numero ridotto. Nel 2006 Google riuscì a migliorare significativamente i risultati nel momento in cui scelse di avvalersi di un data set molto più ampio, anche se confuso e di minor qualità: tutte le traduzioni esistenti in rete. Il prodotto di Google si rivelò superiore non perché si basava su un algoritmo più preciso, ma perché era alimentato da un numero molto più elevato di informazioni. In presenza di un minor numero di errori di campionamento, si possono accettare più errori nella misurazione. Tutto ciò implica un cambiamento di natura culturale nella valutazione del dato: viene meno l’ossessione per l’esattezza e la precisione del dato, tipica dell’era analogica, e si è disposti a tollerare maggiori livelli di confusione e ambiguità, nonché una qualche imperfezione negli strumenti di misurazione. Questo soprattutto laddove, come spesso accade, la conoscenza del quadro di insieme e del trend relativo a un determinato fenomeno è più importante di quella del dato puntuale.
3. Anche il terzo degli aspetti sopra elencati comporta un rilevante cambiamento di natura culturale, che interessa i valori che stanno alla base del nostro processo di conoscenza, così come di larga parte delle convenzioni che reggono il funzionamento della nostra società. Si tratta di ridimensionare l’importanza del principio di causalità. Ricorrendo ad antinomie semplificate, il cosa accade diventa più importante del perché accade, il principio induttivo prevale su quello deduttivo, il pragmatismo sulla teoria. Tutto questo in quanto esplorare la totalità dei dati permette di far emergere associazioni tra variabili inattese e allo stesso tempo significative (proprio perché relative non a un campione ma al totale dell’universo). La probabilità di avere “correlazioni spurie” è minore e le relative preoccupazioni diventano meno rilevanti.
Se la finalità è quella di incrementare la conoscenza umana, resta pur sempre necessario trovare una spiegazione ragionevole dei legami che si sono scoperti, ma può trattarsi di giustificazioni ex post, non della verifica empirica di ipotesi formulate aprioristicamente. Ad esempio, si è scoperto che, nel caso dei neonati prematuri, prima della comparsa di una grave infezione si registra una stabilità, quando non un miglioramento, dei segni vitali. Tale evidenza andava contro le ipotesi dominanti e la logica convenzionale dei medici, ma è stato possibile spiegarla (a posteriori) come uno sforzo operato dal corpo del bambino per rafforzarsi e prepararsi alla tempesta imminente.
Se invece, più prosaicamente, l’obiettivo è quello di fare business, allora la ricerca della relazione causa-effetto è meno decisiva: per un’impresa come Amazon è sufficiente sapere che quanti hanno acquistato l’ultimo album di Neil Young (Storytone) hanno acquistato anche quello di Jackson Browne (Standing in the breach), senza necessariamente cercare di capire perché (sembrerebbe che allo stato attuale un terzo delle vendite di Amazon sia generato dai suoi sistemi di raccomandazione personalizzata).
Quello di cui si sta discutendo è in realtà un grande problema di natura epistemologica. La ricerca delle relazioni causa-effetto è alla base dell’approccio scientifico così come della cultura razionalistica occidentale. Non ci sembra si debba mettere in discussione l’utilità di tale principio come base della conoscenza e soprattutto della capacità di prevedere e gestire i fenomeni. La costruzione di una teoria si basa infatti su tre fasi:
- l’osservazione, la descrizione, la misurazione dei fenomeni oggetto di studio;
- la classificazione di tali fenomeni in categorie simili;
- infine la ricerca dei legami causa-effetto, cioè dei fattori che spiegano il comportamento dei fenomeni.
“A theory is a statement of what causes what, and why, and under what circumstances”. (Christensen, Carlile, Sundahl, 2002). Una volta elaborate la teoria, il suo potere predittivo e quindi anche la sua validità vanno testati empiricamente. Come detto, non si vuole smentire la validità di tale approccio. Né ci si riconosce nelle posizioni estreme di Chris Anderson, a suo tempo caporedattore di Wired, allorchè nel 2008 proclamava la “fine della teoria”. Anderson sosteneva che il processo tradizionale su cui si fondava la ricerca scientifica - un’ipotesi testata empiricamente utilizzando un modello di causalità– sarebbe stato sostituito da un’analisi statistica di pure correlazioni prive di teoria sottostante.
Piuttosto, la domanda che occorre porsi è: “E’ necessario avere sempre un’ipotesi prima di condurre una ricerca empirica?”. Senza smentire la validità di un approccio deduttivo, i big data consentono di allargare il confine delle possibilità di conoscenza percorrendo il cammino inverso; navigando i dati, non testando ipotesi. Questo d'altronde equivale a riconoscere che la realtà è in gran parte ancora incognita, misteriosa. Non è riducibile a ciò che di essa già conosciamo, ma ci può sorprendere con correlazioni impreviste. A tali fini, per usare un’espressione spesso usata dagli autori, bisogna “lasciar parlare i dati”. E ci sembra che tra le capacità di un ricercatore vada annoverata anche quella di “saper ascoltare i dati”.
Rifuggendo da facili entusiasmi, gli autori sanno anche scorgere i rischi delle nuove opportunità tecnologiche, il “lato oscuro” dei big data. Ne parlano nel capitolo 8 e li identificano nei seguenti:
- l’invasività dei dati e le crescenti difficoltà di tutela della privacy individuale; il problema non pare risolvibile mediante una generica richiesta di autorizzazione all’uso dei dati individuali a fronte di tutti gli utilizzi futuri, molti dei quali, tra l’altro, non ancora prevedibili;
- la tentazione di spingere le tecniche di profiling utilizzate nella prevenzione dei reati fino al livello individuale, ponendo in conflitto le esigenze di lotta al crimine e di tutela della libertà individuale; nel film Minority Report la condanna preventiva era comminata in base alla previsione dei crimine futuri effettuata da tre veggenti; nel nostro caso si tratterebbe, più semplicemente, di sostituire i veggenti con i dati;
- un regime di “dittatura dei dati”, in cui ci si fida ciecamente dei numeri e si svaluta l’importanza dell’intuito, della conoscenza esperienziale e tacita; l’iPod e l’iPad non sono stati inventati in base a ricerche di mercato o sulla scorta di evidenze quantitative relative ai comportamenti dei consumatori.
In definitiva, i big data, come molti strumenti frutto della creatività umana, presentano luci e ombre, ben esemplificate dalla seguente citazione, a p. 23: “In futuro, e prima di quanto immaginiamo, molti aspetti del nostro mondo verranno potenziati o sostituiti da sistemi di valutazione automatici che oggi sono ancora appannaggio esclusivo della discrezionalità umana. Non solo guidare o combinare incontri amorosi, ma anche compiti più complessi. Dopotutto, Amazon è in grado di consigliare il libro ideale, Google è in grado di selezionare il sito più pertinente, e Linkedin è in grado di indovinare chi conosciamo. Le stesse tecnologie si possono applicare alla diagnosi delle malattie, alla raccomandazione delle terapie, e persino all’identificazione preventiva dei criminali” Il passo citato fa sorgere la classica domanda: chi di noi vorrebbe vivere in un mondo simile ?
L’ultimo tema su cui si richiama l’attenzione del lettore è rappresentato dalle ripercussioni dei big data sul business. Un recente e importante contributo sul tema è apparso su Harvard Business Review, a firma di M. Porter e James Heppelmann (2014). Il padre della strategia competitiva ha analizzato gli impatti dei big data, delle tecnologie digitali e dell’Internet delle cose sulla struttura concorrenziale dei mercati (attraverso il modello delle Five Forces) e sulla creazione del vantaggio competitivo.
Per Mayer-Schonberger e Cukier, non solo i big data cambieranno i mercati esistenti, fornendo alle imprese e ai loro clienti nuove e migliori informazioni, ma creeranno un nuovo e vasto mercato: quello dell’offerta di nuovi servizi che sappiano sfruttare in modo innovativo il valore racchiuso nei dati.
Gli autori sottolineano a tale proposito come in gran parte il valore dei dati stia nei loro potenziali utilizzi futuri, che possono essere non ancora chiari nel presente e certamente molto diversi dagli scopi originari per cui l’informazione è stata raccolta. E’ il cosiddetto “valore opzionale” dei dati. Esso è particolarmente rilevante, secondo i principi dell’economia dell’informazione, a causa della possibilità pressoché infinita del loro riutilizzo (i dati non si consumano), ad un costo marginale nullo.
Gli autori analizzano la catena del valore dei big data: le aziende che vi prendono parte possono creare valore sotto diverse forme, e in particolare specializzandosi nei dati, nelle competenze o nelle idee. Candidate a rivestire il primo ruolo sono le imprese che per via della loro attività possiedono i dati o hanno la possibilità di accedervi, ma che potrebbero non avere le capacità o le idee per estrarre valore dagli stessi, sfruttandone tutte le potenzialità (le aziende di telefonia e le banche dispongono di una sterminata quantità di dati, ma non sempre eccellono nel loro utilizzo). Il secondo ruolo può essere convenientemente sfruttato da aziende che puntano sulle competenze, ad esempio società di consulenza, venditori di tecnologia e fornitori di supporti analitici (data specialist). Infine, vi è spazio per aziende che hanno il proprio punto di forza nella capacità di individuare modalità innovative di sfruttamento dei dati per generare nuovi servizi e nuove forme di valore.
Al momento sembra che la maggior parte del valore stia nelle idee e nelle competenze, ma in prospettiva, secondo gli autori, risiederà nei dati. Questo perché i detentori dei dati in futuro saranno in grado di comprendere meglio il valore degli asset di cui dispongono. Si tratta di una visione che però solleva qualche dubbio. Più in generale, pare davvero difficile prevedere lo spostamento di importanza tra le diverse fasi della value chain, tra le diverse forme di creazione del valore, tra le competenze chiave destinate a generarle.
Si può preconizzare, come fanno gli autori, la fine degli esperti, sostituiti dai dati, che “parleranno da soli” senza aver più bisogno per essere interpretati dell’intuito e dell’esperienza umana (o, forse meglio, sostituiti dagli statistici e analisti di dati, che sapranno come far parlare i dati). E’ indubbio che in futuro, in molte valutazioni e decisioni, i dati avranno un ruolo crescente e ridimensioneranno il peso dell’intuito, dell’esperienza e dell’aneddotica. Ma almeno per quelle decisioni non completamente automatizzabili e deterministiche, è forse preferibile vedere nei dati una funzione di sostegno e arricchimento del sapere del decisore, più che di sostituzione. E a questo proposito, per tornare alla catena del valore dei big data, uno dei grandi campi in cui l’intuito e le idee giocano un ruolo prevalente è proprio nell’innovazione delle forme di utilizzo dei dati. In questo senso, ci convince di più l’affermazione degli autori: “il vero valore dei dati si può paragonare a un iceberg che si sposta lentamente nell’oceano. Emerge solo la punta, mentre tutto il resto si nasconde sotto la superficie. Le aziende innovative che lo capiscono possono estrarre quel valore occulto e conseguire dei benefici potenzialmente enormi. In poche parole, il valore dei dati va calcolato in base a tutti i possibili modi con cui si potrebbero impiegare in futuro, e non semplicemente in base all’uso che se ne fa attualmente” (p. 142).
Il che è un altro modo per dire che in molti casi (e quello dei big data pare essere uno di questi) è l’ingegno umano che dà valore alle cose. Il valore non sta quindi tanto nei dati e nel possesso degli stessi, quanto nel loro utilizzo. Analogamente, il differenziale di valore (e il vantaggio competitivo) stanno nella novità e nell’originalità di tale utilizzo.
Riferimenti bibliografici
Anderson, C. (2008), “The Petabyte Age”, Wired, giugno.
Christensen, C.M., Carlile, P., Sundahl, D.M. (2002), The process of Theory-Building, Harvard Business School
Porter, M.E., Heppelmann, J.E. (2014), "How Smart, Connected Products Are Transforming Competition", Harvard Business Review, 92, 11-64.
Shapiro C., Varian, H.R. (1998), Information Rules. A strategic Guide to the Network Economy, Harvard Business School Press, Boston,MA
Wright, G. (2000), “Review of Helpman (1998)”, Journal of Economic Literature, 38 (1), pp. 161-162
Recensioni e Riflessioni
- Davide Calandra
- Martin Dege
- Irene Strasser