Data Selfie: come spiare ciò che Facebook spia

Data Selfie, estensione per Google Chrome, replica il meccanismo con cui Facebook traccia le nostre abitudini e predice attività ed interessi degli utenti.

DATA SELFIE, E COSA FACEBOOK SA DI NOI – Non è un segreto che Facebook – come gli altri giganti del virtuale – spii sistematicamente le abitudini dei propri utenti. Ma perché la creatura di Mark Zuckerberg dovrebbe essere interessata a raccogliere in massa i nostri dati, sensibili e non? La risposta è semplice: le informazioni ottenute costituiscono un’enorme fonte di incassi del social network di Palo Alto, in quanto esse sono vendute a terze parti a scopo commerciale.

Le nostre informazioni di base, i post ed i likes, i commenti ed i messaggi privati – ma anche le foto e le attività su altri siti – sono combinati attraverso meccanismi di analisi predittiva, allo scopo di tracciare un profilo reale della nostra persona a partire da ciò che immettiamo nel profilo virtuale. Molte aziende bramano questi “resoconti” sulle nostre attività, poiché con questi dati a disposizione possono fornire pubblicità mirate (e quindi di maggior successo) agli utenti, ma anche creare a loro volta statistiche utili a pianificare la produzione.

La vicenda del Datagate ha inoltre mostrato al mondo come tali dati possano divenire parte di banche dati governative, in particolare delle agenzie di sicurezza degli Stati Uniti, aprendo così le porte ad un sistema di sorveglianza globale su base volontaria.

Nessun complotto, sia chiaro: tutti gli utenti di Facebook hanno accettato queste condizioni contrattuali al momento dell’iscrizione. Questo, d’altra parte, è il motivo per cui ci si è potuti permettere di fornire il social network gratuitamente al pubblico – e persino farci sopra un’immensa ricchezza.

Per istruire e sensibilizzare il pubblico a questo meccanismo, le sviluppatrici di Data-X hanno realizzato Data Selfie, un’estensione gratuita per Google Chrome. Una volta installata, Data Selfie inizierà ad analizzare il comportamento dell’utente sul social di Mark Zuckerberg. A quel punto basterà, semplicemente, continuare a navigare Facebook come al solito: dopo un certo periodo di utilizzo, l’estensione sarà in grado di fornire un profilo dettagliato dell’utente e delle sue attività ed interazioni, predicendone gli interessi, le convinzioni personali, l’attitudine all’acquisto ed il probabile modo di pensare.

data selfie chrome
Data Selfie è disponibile sul Web Store di Google Chrome.

COME FUNZIONA DATA SELFIE – Data Selfie utilizza un sistema di machine learning per emulare il funzionamento di Graph, l’insieme degli algoritmi di Facebook. “Emulare” è il termine più adatto poiché, com’è facilmente intuibile, il funzionamento interno di Graph è un segreto commerciale e non vi è modo di riprodurlo con esatta precisione all’esterno, salvo un accesso limitato che viene fornito agli sviluppatori (le cosiddette API, Application Programming Interface).

Il machine learning è una branca dell’informatica basata sulla creazione di programmi che siano – appunto – in grado di imparare in modo relativamente autonomo. In breve, è un primo passo verso una vera e propria intelligenza artificiale, ed attualmente costituisce la “frontiera” del mondo software. In ambito commerciale è particolarmente utile nel campo del data mining, ovvero la raccolta massiva ed automatizzata di dati che andranno poi analizzati per vari scopi: proprio ciò che fa Facebook, ma anche Google, Amazon e via discorrendo, facilitati dalla loro immensa quantità di utenti.

Infatti, creare un programma in grado di effettuare queste operazioni non è materialmente alla portata di tutti: si tratta di algoritmi estremamente complessi che hanno alle spalle anni di test e – soprattutto – enormi moli di dati fornite loro “in pasto” per generare meccanismi di predizione attendibili, cioè che siano in grado di riconoscere i pattern giusti quando li riscontrano nella realtà.

La stessa Data Selfie utilizza, per il suo funzionamento, le API di due algoritmi di machine learning ben oltre la portata produttiva dei suoi sviluppatori: Watson di IBM e Apply Magic Sauce dell’Università di Cambridge.

I dati che l’estensione fornisce a questi due programmi sono i seguenti: clic e like sui post nel proprio news feed, i secondi spesi ad osservare ciascun post sulla propria home, i link esterni cliccati e le statistiche di ciascun post cliccato, oltre al tempo speso su Facebook in assoluto e qualunque cosa venga digitata nei post o nei messaggi privati. Il tutto, in questo caso, viene utilizzato esclusivamente per la predizione: Data-X afferma infatti di non aver alcun interesse a vendere a sua volta queste informazioni, che non vengono registrate dopo essere state processate dagli algoritmi.

data selfie posts interface
L’interfaccia di Data Selfie mostra, innanzitutto, le nostre interazioni con i post. (Data-X)

LE NOSTRE ABITUDINI – Dopo un po’ di tempo trascorso a navigare su Facebook dal proprio browser, Data Selfie comincerà a restituirci qualche informazione sulle nostre abitudini. Aprendo l’apposita interfaccia, la prima cosa che si noterà è un grafico indicante le nostre azioni da quando si è installata l’estensione. Man mano che queste sono elaborate, in basso andranno ad aggiungersi le predizioni vere e proprie – le quali si aggiorneranno periodicamente.

In primo luogo, sarà premura di Data Selfie elencarci le varie parole chiave registrate nel corso delle nostre attività, e le relative sensazioni da parte nostra – positive o negative –come sono state riconosciute dagli algoritmi, in base al carattere dell’interazione avvenuta con quell’entità.

In questa sezione sono mostrate le parole chiave con cui l’utente ha avuto a che fare, e la sua reazione. (Data-X)

Al che l’estensione cercherà di capire i tratti distintivi della nostra personalità, in base a ciò che viene scritto e osservato su Facebook. Questi tratti sono posti su un grafico, il cui valore relativo si basa su quella che è ritenuta essere la distribuzione generale della popolazione. In pratica, Data Selfie ci dice quanto siamo liberali, ansiosi, spontanei o competitivi rispetto al resto degli utenti.

data selfie personality
Il grafico con cui gli algoritmi di machine learning predicono la nostra personalità in base all’attività di Facebook. (Data-X)

Infine vengono riportati alcuni dati che, sapendo l’utilizzo che ne fa Facebook, potrebbero far storcere il naso agli utenti più consci della propria privacy. Gli algoritmi rivelano infatti la probabilità di appartenenza ad un determinato orientamento politico o religioso, il probabile genere sessuale in cui ci si identifica, la soddisfazione nella vita, l’intelligenza e la capacità di leadership.

data selfie predictions
Predizioni sui “credo” dell’utente e la propensione all’acquisto, come ad attività di vario tipo. (Data-X)

In base a questi dati, Data Selfie ci mostra infine una serie di predizioni possibilmente congruenti a ciò che di noi si aspettano di sapere Facebook e le aziende che da esso acquistano i dati; quindi, la possibilità di essere portati ad essere influenzati dalla pubblicità o dai conoscenti quando si fa acquisti, la propensione all’utilizzo della carta di credito o alle spese pazze, la probabilità che ci piacciano le attività all’aria aperta, o che mangiamo spesso fuori, che ci preoccupino le tematiche ambientali, o che siamo interessati ad aprire un’attività commerciale nei prossimi anni, e così via.

I LIMITI DI DATA SELFIE – Per quanto questi risultati siano verosimilmente attendibili, si sottolinea ancora come Data Selfie possa solo emulare il data mining compiuto da Facebook. Non è infatti possibile replicare in ogni singolo dettaglio quanto la creatura di Zuckerberg compie in continuazione ogni giorno: l’ingerenza di Facebook nella nostra privacy è molto più ampia di quanto possa emergere dai soli post, likes e messaggi privati.

Ad esempio, le API utilizzate da Data Selfie non sono in grado di riconoscere il contenuto delle immagini, cosa che Graph è invece da qualche anno in grado di fare. Tutti gli utenti di Facebook avranno notato il suggerimento di tag sempre più preciso, grazie all’acquisto da parte di Facebook di diversi sistemi di riconoscimento facciale; i più attenti avranno notato che, da qualche tempo, Facebook indica in didascalia il possibile contenuto di una foto non ancora caricata dal browser.

Inoltre, a differenza di Data Selfie, Facebook traccia l’attività dell’utente anche su altri siti web che siano dotati di appositi componenti (come i pulsanti di condivisione o di like, i cosiddetti social plugin). L’esempio classico col quale ci si può accorgere di ciò è la ricerca di biglietti aerei su Internet, che spesso restituisce immediatamente una pubblicità su Facebook relativa al viaggio che si sta per intraprendere.

Ma il maggior distacco tra i dati realmente ottenuti da Facebook e le previsioni di Data Selfie si ha nell’utilizzo mobile. Infatti, a livello di privacy, l’app per smartphone di Facebook è notoriamente uno dei software più invasivi in assoluto, poiché non si limita a tracciare l’attività sul social ma estende il suo ficcanasare anche al resto del telefono. Motivo, questo, per cui al momento dell’installazione essa richiede un’infinità di permessi – ed anche il motivo per cui consuma molta batteria.

Ad ogni modo, Data Selfie rimane uno strumento utile per comprendere i meccanismi etici e tecnici dietro queste attività, ma soprattutto farsi un’idea di quanto vale ciò che condividiamo di noi stessi su Internet.

Aggiornamento (20/3/2017): Hang Do Thi Duc, sviluppatrice di Data-X, ha risposto ad un paio di nostre domande sul suo lavoro con Data Selfie.

VB: Quanto precise pensi che siano le predizioni di Data Selfie – ovvero di Watson e Apply Magic Sauce – se le paragoniamo a quelle compiute da Facebook?
HDTD: L’obiettivo di Data Selfie non è mai stato quello di mostrare il 100% di precisione. Puoi verificare come anche gli algoritmi di Facebook non siano accurati al 100%: se hai mai controllato le preferenze delle tue pubblicità, avrai notato che talvolta anche gli interessi desunti sembrano sballati. Il nostro scopo è mostrare cosa sia possibile, e quegli algoritmi non possono che migliorare con più tempo e più dati a disposizione.

VB: Sicuramente avrete a che fare con molto lavoro e molte spese, dal momento che non avete intenzione di vendere i dati degli utenti!
HDTD: Sì, con così tanti utenti abbiamo molte spese al momento. Siamo molto impegnate a trovare finanziamenti che possano permetterci di tenere in funzione il server e le API in modo continuativo. Altrimenti potremmo aver bisogno di donazioni, o essere costrette alla chiusura.

Valerio Bastianellihttps://buntekuh.it
Sono laureato in Scienze Politiche e Relazioni Internazionali all'Università La Sapienza e in Informazione, Comunicazione ed Editoria all'Università di Tor Vergata. Sono fondatore e direttore editoriale di Bunte Kuh, oltre che autore e responsabile tecnico per theWise Magazine.

ARTICOLI POPOLARI