Salta al contenuto principale
  1. Lab/

Guida ai dati problematici

5010 parole·24 minuti

Lavorare con i dati non è sempre un processo diretto come può sembrare, inoltre i numerosi corsi online ti fanno esercitare su dataset già pronti all’uso anche se spesso (se non sempre) i dati che abbiamo davanti sono tutt’altro che chiari, puliti e facilmente interpretabili.

QZ, uno dei miei preferiti portali di notizie, ha pubblicato una guida su come individuare, lavorare e risolvere le situazioni con dati problematici. Il taglio della guida è per i giornalisti, ma le indicazioni generali sono utili per chiunque lavori con i dati.

La versione Italiana (attualmente in corso di finalizzazione) è questa qui:

🎁 Problemi risolvibili dalla fonte dei dati #

Valori mancanti #

E’ consigliabile rimuovere i valori vuoti (detti null) in un dataset a meno che non si ha assoluta certezza del loro significato. Ad esempio se il dataset contiene dati per anno e una cella è vuota, il valore per quell’anno non è mai stato raccolto o è zero? Se si tratta di un sondaggio, l’utente si è rifiutato di rispondere alla domanda?

Ogni volta che lavori con dei valori mancanti dovresti chiederti: “Sono certo di cosa significhi la mancanza di questo valore?” Se la risposta è no, dovresti chiedere maggiori informazioni alla fonte del dato.

Zero sostituisce valori mancanti #

Una situazione peggiore può essere usare un valore arbitrariamente per sostituire i null. Questo può essere il risultato di intervento manuale che non ha valutato le implicazioni di quel zero, oppure può essere il risultato di processi automatizzati che semplicemente non sanno come gestire valori nulli (i null sopra citati). In ogni caso, se vedi degli zeri in una serie di numeri dovresti chiederti se quei valori sono davvero il numero 0 o se invece significano niente. (A volte -1 viene usato in questo modo.) Se non sei sicuro, chiedi alla fonte dei dati.

La stessa cautela dovrebbe essere esercitata per altri valori non numerici dove uno 0 potrebbe essere rappresentato in un altro modo. Per esempio un falso 0 in una data lo vediamo in 1970-01-01T00:00:00Z o in 1969-12-31T24:59:59Z a causa dei timestamp in Unix. Un falso 0 per un luogo potrebbe essere rappresentato da 0°00'00.0"N+0°00'00.0"E o semplicemente 0°N 0°E, un punto nell’Oceano Atlantico a sud del Ghana noto come Null Island.

Vedi anche:

Mancano dati che sai che dovrebbero esserci #

Può succedere che mancano dei dati e che ne hai la certezza grazie alla tua conoscenza dell’argomento (la padronanza del dominio è una caratteristica vitale per un buon analyst). Ad esempio se stai lavorando su un set di dati sulle regioni Italiane è possibile verificare se tutte e 20 le regioni sono presenti (o 21, se il dataset preferisce trattare le provincie autonome di Trento e Bolzano separatamente). Generalmente puoi fidarti della tua intuizione se qualcosa sembra mancare ma prova a ricontrollare con la tua fonte. Non è da escludere che l’insieme (detto anche universo) dei tuoi dati potrebbe essere più piccolo di quanto pensi.

Righe o valori duplicati #

Se vedi la stessa riga apparire più volte nel dataset, dovresti capirne il motivo. A volte non si tratta di una riga intera. Alcuni dati possono includere emendamenti che utilizzano gli stessi identificatori univoci della transazione originale. Se questo viene ignorato, qualsiasi calcolo effettuato con i dati sarebbe errato. Se noti qualcosa che dovrebbe essere unico verifica che lo sia effettivamente, altrimenti verifica con la tua fonte.

Spelling inconsistente #

L’ortografia è uno dei modi più semplici per capire se i dati sono stati compilati a mano (e quindi proni ad errori). Non limitarti a guardare i nomi delle persone ma cerca, ad esempio, dove i nomi delle città non sono coerenti. (Los Angelos è un errore molto comune.) Se li trovi puoi essere abbastanza sicuro che i dati sono stati compilati o modificati a mano e questo è un segnale su cui esercitare cautela perché i dati che sono stati modificati a mano hanno maggiori probabilità di avere errori. Questo non significa che non dovresti usarli, ma potresti dover correggere manualmente quegli errori o comunque tenerne conto nei tuoi rapporti.

OpenRefine ha una funzione di text clustering che può aiutare a semplificare il processo di correzione ortografico suggerendo combinazioni ravvicinate tra valori inconsistenti all’interno di una colonna (per esempio, armonizzando Treviso e Trevso). E’ importante documentare i cambiamenti che vengono fatti per fornire una buona provenienza dei dati.

Vedi anche:

Ordine dei nomi incoerente #

I dataset contengono nomi mediorientali o asiatici? Hai presente i portoghesi che hanno 4 cognomi? Sei sicuro che i cognomi sono sempre nello stesso posto? E’ possibile incontrare un mononimo?. Se stai lavorando ad una lista di nomi che non sono Italiani, dovresti controllare che le colonne first_name e last_name rappresentino effettivamente nome e cognome.

Leone è uno dei cognomi italiani più comuni e, allo stesso tempo, un nome.

Formati data incoerenti #

Quale di queste date è nel mese di Settembre?

  • 10/9/15
  • 9/10/15

Se la prima data è stata scritta da un europeo e la seconda data da un americano allora entrambe le date sono in Settembre. Senza conoscere l’origine dei dati non è possibile avere certezza del formato di data, ma puoi sempre controllare se nel dataset trovi il 31 dicembre come 12/31/15 per capire se il formato utilizzato è quello europeo o americano.

Unità non specificate #

peso o costo non forniscono tutte le informazioni sull’unità di misurazione. Attenzione, ad esempio, ad assumere che un dataset proveniente dall’Italia abbia come valuta di default l’euro. I dati scientifici sono spesso di tipo metrico. I prezzi e i costi possono essere specificati nella loro valuta locale. Se non trovi la misura unitaria è consigliabile controllare con la tua fonte. Considera inoltre che la stessa unità può avere valori diversi nel tempo. Un dollaro nel 2010 non è lo stesso dollaro oggi a causa dell’inflazione. In Inglese, inoltre, ci sono diversi tipi di tonnellata: short ton, long ton e tonne.

Vedi anche:

Categorie scelte approssimativamente #

Presta attenzione a valori come true o false ma dove la realtà può essere più complessa. Ad esempio, nei sondaggi, refused o no answer sono valori che possono essere confusi con false (o come uno 0). Un altro problema comune potrebbe essere l’uso della categoria other. Ad esempio se le categorie sono una lista di nazioni e abbiamo tra le voci un other, cosa significa? Il sistema che raccoglieva i dati non sapeva cosa usare? Ad esempio un apolide o un rifugiato politico in che nazione andrebbe messa?

Categorie approssimative possono venire scelte per mascherare intenzionalmente i dati. Questo spesso accade con le statistiche del crimine dove la definizione può cambiare nel tempo (alcuni criminologi sostengono che le statistiche sugli stupri fatte dall’FBI non dovrebbero essere utilizzate). Fate inoltre attenzione ai dataset che contengono colonne tipo razza e etnia.

Nomi dei campi ambigui #

In un dataset potreste trovare residenza, ma a differenza dell’Italia lo sappiamo definire? È dove qualcuno vive o dove pagano le tasse? È una città o una provincia? I nomi dei campi nei dati non sono mai specifici come vorremmo e si dovrebbe applicare particolare attenzione quando un campo può voler dire più cose. Anche se ci puoi arrivare per deduzione, non hai la sicurezza che la fonte dei dati abbia applicato il tuo stesso criterio.

Provenienza non documentata #

I dati sono creati da una una grande varietà di fonti tra cui: individui, organizzazioni, aziende, governi, non profit e, perché no, cospirazionisti. I dati vengono inoltre raccolti in modi diversi tra cui sondaggi, monitoraggio dei social media, sensori e satelliti. Può essere digitato, modificato o scarabocchiato. Sapere la provenienza dei dati significa saperne i limiti.

I dati di un sondaggio, ad esempio, sono raramente esaustivi. Un sensore varia nella sua precisione. I governi sono spesso inclini a darti informazioni imparziali. I dati provenienti da una zona di guerra possono avere un forte pregiudizio geografico dovuto al suo contesto. Per complicare ulteriormente questa situazione, le fonti dati possono concatenarsi. Gli analisti politici ridistribuiscono frequentemente i dati ricevuti dal governo. I dati che sono stati scritti da un medico possono essere rilavorati da un’infermiera. Ogni fase in quella catena è un’opportunità d’errore.

E’ utile sapere sempre da dove arrivano i tuoi dati e come vengono trasformati.

Vedi anche:

Valori sospetti presenti #

Se vedi uno di questi valori nei tuoi dati, applica cautela:

Numeri:

Date:

Coordinate e indirizzi:

Ognuno di questi numeri indica un particolare errore. Se li vedi, assicurati di verificare cosa rappresentano realmente.

Vedi anche:

Dati troppo aggregati #

Ti trovi con regione e hai bisogno di province. Hai imprese e hai bisogno di dipendenti. Ti hanno dato anni ma vuoi mesi.

I dati di solito non possono essere disaggregati una volta che sono stati aggregati insieme. Se ricevi un dataset troppo aggregato, dovrai chiedere alla tua fonte qualcosa di più specifico. Potrebbero non averlo. Se ce l’hanno, potrebbero non essere in grado, o non essere disposti, a fornirtelo (ad esempio per motivi di privacy o di riservatezza). Tutto quello che puoi fare è chiedere.

Una cosa che non dovresti mai fare è dividere un valore annuale in 12 e considerarlo “media mensile”. Senza conoscere la distribuzione dei valori, quel numero sarà privo di significato. (Forse tutte le istanze si sono verificate in un mese o una stagione. Forse i dati seguono una tendenza esponenziale anziché lineare.).

Vedi anche:

Le somme del dataset portano a risultati diversi dall’aggregato #

Immagina di ricevere un dataset con una lista di casi di violenza da parte della polizia di 2.467 righe. Immagina che qualche settimana prima un portavoce ha riferito di meno di 2.000 casi di violenza, o comunque un qualsiasi numero che non fitta con il dataset che hai ricevuto.

Queste discrepanze dai dati raw rispetto informazioni pubblicate grazie a questi dati sono un invito ad approfondire. A volte la risposta può essere una semplice differenza dell’arco di tempo preso a disposizione. A volte è possibile che i dati vengono alterati di proposito.

In sintesi, cerca di far tornare le somme.

Il foglio ha 65.536 righe #

Il numero massimo di righe di un foglio Excel per 2007 è 65.536. Se si riceve un set di dati con quel numero di righe, hai quasi certamente dei dati troncati. Dovrai chiedere alla tua fonte ti fornirti il resto dei dati. Le versioni più recenti di Excel arrivano fino 1.048.576 righe.

Il foglio ha 255 colonne #

Numbers di Apple può gestire solo i fogli di calcolo con 255 colonne, l’app troncherà i file con più colonne senza avvisare l’utente. Se si riceve un set di dati con esattamente 255 colonne, chiedi se il file è stato aperto o convertito con Apple Numbers.

Il foglio ha date nel 1900, 1904, 1969 o 1970 #

La data di default di Excel è January 1st, 1900, a meno che non stai usando Excel sul Mac: in quel caso la data di default è January 1st, 1904. Ci sono una varietà di modi in cui i dati in Excel possono essere inseriti o calcolati in modo errato e finiscono con una di queste due date. Se li individui nei tuoi dati potresti avere un problema.

Alcuni database e applicazioni generano date come 1970-01-01T00:00:00Z o 1969-12-31T23:59:59Z, che è uno timestamp su Linux. In altre parole, questo succede quando un sistema prova a mostrare un valore vuoto o uno 0 come una data.

Testo convertito in numeri #

Non tutti i numeri sono numeri. Ad esempio alcuni codici possono iniziare con un zero (es 037), ma è un codice, non è un numero. Excel e altri fogli di calcolo come Google Sheet possono facilmente sbagliare e considerare il valore come un numero, rimuovendone lo 0 iniziale. Questo può causare diversi problemi sia nella condivisione del dataset, sia nel join con altri dataset.

Un esempio classico è il CAP 00100 di Roma. Inserito in una colonna di un qualsiasi foglio di calcolo verrà trasformato nel numero 100 a meno che con si anteponga il carattere ' (es '00100)

Numeri salvati come testo #

Quando si lavora con fogli di calcolo, i numeri possono essere memorizzati come testo. Ad esempio, invece di rappresentare un milione di dollari con il numero 1000000 una cella potrebbe contenere la stringa 1.000.000 o 1 000 000 000 o USD 1.000.000. Excel può correggere casi semplici con funzioni come Testo in colonne, ma per casi più complessi dovrai, più volte, rilavorare le colonne. Best practice è di memorizzare i numeri senza formattazione e includere le informazioni di supporto su colonne aggiuntive o sui metadati.

🥷 Problemi che puoi risolvere in autonomia #

Il testo è confuso #

Tutte le lettere sono rappresentate da un computer come numeri. I problemi di codifica sono problemi che sorgono quando il testo è rappresentato da un set specifico di numeri (chiamato “codifica”) e non si sa cosa sia. Questo porta ad un fenomeno chiamato mojibake e lo vedete quando il testo sembra spazzatura, tipo così: ���.

Nella stragrande maggioranza dei casi il tuo editor di testo o l’applicazione foglio di calcolo informerà la codifica corretta, tuttavia potresti pubblicare il nome di qualcuno con un carattere particolare nel mezzo. La tua fonte dovrebbe essere in grado di dirti quale sia la codifica dei tuoi dati. Nel caso in cui non possono esserci modi di indovinare, chiedi ad un programmatore.

Vedi anche:

  • Markdown
  • CSV

Interruzioni di linea mancanti #

Tutti i file di testo utilizzano caratteri invisibili per rappresentare la fine della linee. I computer Windows, Mac e Linux hanno storicamente metodi diversi su come far terminare la linea. A volte aprire un file creato in un sistema operativo in un altro sistema operativo può portare a testi senza interruzioni di linea.

In genere, questo problema si risolve facilmente usando un qualsiasi editor di testo pensato per la programmazione come Visual Studio Code e risalvando il file. Se il file è particolarmente grande potrebbe essere necessario l’utilizzo di uno strumento a riga di comando o chiedendo aiuto ad un programmatore. Puoi leggere di più su questo problema qui.

I dati sono in un PDF #

Un’enorme quantità di dati, in particolare quelli forniti dai governi, sono disponibili solo in formato PDF. Se hai dati all’interno del PDF, ci sono diverse opzioni per estrarlo. (Se invece hai documenti scansionati, questo è un altro problema) Un fantastico strumento, gratuito, si chiama Tabula. Chi ha accesso ad Adobe Creative Cloud ha anche accesso ad Acrobat Pro che ha l’abilità di portare tabelle dai PDF a Excel. Sempre più app e sistemi stanno integrando la possibilità di trasformare i PDF in testi.

Vedi anche:

Dati troppo granulari #

Questo è l’opposto dei dati troppo aggregati. Succede quando vuoi i dati per anno e ti vengono forniti per mese. O li vuoi per regione e ti vengono forniti per provincia.

I dati possono essere aggregati utilizzando la funzione Tabella Pivot di Excel o di Google Docs. Oppure utilizzando un database SQL o scrivendo codice su Python. Le tabelle pivot sono uno strumento essenziale che ogni persona che lavora con i dati dovrebbe imparare, ma hanno i loro limiti. Per set di dati o aggregazioni eccezionalmente grandi dovresti chiedere supporto ad un programmatore.

Vedi anche:

Dati inseriti a mano #

I dati inseriti a mano sono un problema così comune che in questa guida vengono citati in altri 10 casi. Non esiste un modo peggiore di registrare dei dati a mano senza un processo di verifica e convalida. Ad esempio un database ha permesso agli utenti di scrivere la razza del loro cane invece di sceglierla da un menà a tendina, trovandosi con 250 ortografie diverse di Chihuahua.

Anche con i migliori strumenti disponibili il problema può diventare ingestibile, e se i nomi della razza di un cane è un problema secondario, potresti trovarti lo stesso problema in situazioni più importanti.

I dati sono mischiati a formattazioni e commenti #

Formati come l’XML permettano una separazione netta tra dato e presentazione, ma purtroppo questo non è il caso dei fogli di calcolo. Un problema molto comune nei documenti di Excel (e app simili) è che le righe possono contenere note e commenti sui dati stessi. A volte anche le intestazioni possono essere ripetute oppure il foglio contiene diverse tabelle con diverse intestazioni o con un diverso numero di colonne.

In questi casi la prima cosa da fare è identificare il problema. Quando vi arriva un dataset per la prima volta, controllate sempre che non ci siano commenti tra le righe, o che il significato di una colonna cambi a metà foglio (ad esempio con due tabelle, una sotto l’altra)

Calcoli fatti su valori mancanti #

Immagina un set di dati con 100 righe e una colonna chiamata costo. In 50 delle righe la colonna del costo è vuota. Qual è la media di quella colonna? costo_totale / 50 o costo_totale / 100? Non c’è una sola risposta. In generale, se hai intenzione di fare calcoli su colonne a cui mancano dei dati, puoi tranquillamente farlo filtrando prima le righe mancanti ma fai attenzione a non confrontare due colonne in cui mancano righe diverse tra di loro! In alcuni casi i valori mancanti potrebbero anche essere interpretati come 0. Se non sei sicuro, chiedi a un esperto o semplicemente non fare calcoli su quei dati.

Questo è un errore che tutti possono fare: sia tu con le tue analisi, sia chi ti ha passato i dati.

Vedi anche:

Campione non casuale #

Un errore di campionamento non casuale avviene quando un’indagine, o un altro set di dati campionati, non riescono a coprire l’intera popolazione. Questo può succedere per una serie di motivi che possono essere intenzionali o accidentali. Per esempio può accadere quando un ricercatore pensa di avere un set di dati completo e ne estrae un campione. Se il set di dati originale è incompleto per un qualsiasi motivo, le conclusioni tratte dal campione non saranno corrette. Se il campione non è casuale è sconsigliato utilizzare quei dati.

Vedi anche:

Margine d’errore troppo grande #

Il margine d’errore (MOE) è spesso associato ai sondaggi. The MOE is a measure of the range of possible true values. Può essere espresso come un numero (400 +/- 80) o come una percentuale (400 +/- 20%). Più bassa è la popolazione rilevante, più alto il MOE sarà. Per esempio, nel 2015 si stimava che a New York vivessero 1,106,989 +/- 3,526 (0.3%) Asiatici. Il numero dei Filippini è 71,969 +/- 3.088 (4.3%). Il numero dei Samoani è 203 +/- 144 (71%).

I primi due numeri possono essere riportati, il terzo proprio no. Regola generale è di non utilizzare nessun numero dove il margine d’errore supera il 10%.

Vedi anche:

Margine d’errore sconosciuto #

A volte il problema non è un margine d’errore troppo grande, ma che non è stato neanche calcolato, rappresentazione di un lavoro fatto nel minor modo scientifico possibile. Senza calcolare il MOE, è impossibile sapere quanto è accurato quel numero. Generalmente, ogni volta che ricevi i dati di un sondaggio, assicurati di avere il MOE o rifiuta completamente i dati.

Vedi anche:

Bias nel campione #

Come il campione non casuale, anche un campione prevenuto è il risultato di uno scarso lavoro di campionatura, o, ancora peggio, con la volontà di guidare i risultati verso una direzione. Un campione potrebbe essere prevenuto perché è stato condotto su Internet e le fascie più povere non usano internet così frequentemente come le altre. I sondaggi devono essere attentamente ponderati per garantire che abbiano segmenti proporzionali di qualsiasi popolazione sia oggetto dei risultati. È quasi impossibile farlo perfettamente, quindi è molto facile farlo male.

Vedi anche:

Dati modificati manualmente #

Le modifiche a mano sono un problema quanto i dati inseriti a mano. Spesso i dati vengono editati a mano per sistemare errori originariamente fatti dall’inserimento a mano dei dati, e questo non è un problema grave finché la persona ha una buona conoscenza dei dati originali e del come e del perché li sta modificando. Provate a correggere il cognome Smit in Smith. E se fosse giusto Smit?

Problemi con la modifica manuale sono una delle ragioni principali per voler dati ben documentati. La mancanza di documentazione indicate che i dati possono essere stati manomessi, senza una tracca di come un dato è stato lavorato, è impossibile avere certezza di quello che si sta analizzando. Dove possibile cercate di ottenere il dato dalla fonte primaria o almeno la versione con meno modifiche rispetto a quello che avete ricevuto.

Vedi anche:

Inflazione altera i dati #

L’inflazione significa che nel tempo il denaro cambia di valore. Non c’è modo di dire se i numeri sono stati aggiustati per rispettare l’inflazione soltanto guardandoli. Se ottieni dati e non sei sicuro se sono stati regolati, verifica con la tua fonte. Se i numeri non sono stati aggiustati per rispettare l’inflazione, questo strumento è un buon punto di partenza per farlo da soli.

Vedi anche:

Stagionalità variano i dati #

Molti tipi di dati fluttuano a causa di alcuni fenomeni. L’esempio più noto è l’occupazione che varia con le stagioni. Gli economisti hanno sviluppato una varietà di metodi di compensazione di questa variazione di cui la metodologia non è particolarmente importante, ma è importante sapere se i dati che stai utilizzando sono stati “regolati”. Se vuoi confrontare dei dati periodicamente, e sai che sono oggetti di stagionalità, dovrai chiedere alla tua fonte di poterti fornire i dati regolati.(La regolazione tende a essere più difficile dell’aggiustamento per inflazione).

Vedi anche:

Contesto manipolato #

Un esempio classico lo si può vedere nelle statistiche del crimine dove, per motivi politici, si tende a confrontarsi con un anno di comodo. Se si ha bisogno di far vedere che il crimine è aumentato, si può prendere come confronto un anno relativamente tranquillo e poter affermare un +40% d’incremento nella criminalità.

La stessa cosa la puoi fare anche confrontanto dei luoghi, ed è una metodologia tipica di chi ha un forte bias e ha bisogno di affermare con numeri le proprie convinzioni.

Dove possibile, fai confronti con più punti per vedere se e come i numeri cambiano.

Vedi anche:

🥼 Problemi dove un esperto può aiutarti #

Autore del dataset non affidabile #

A volte gli unici dati che hai provengono da una fonte di cui ti devi fidare. In alcune situazioni va bene ma tieni presente questo esempio: le uniche persone che sanno quante pistole sono fatte sono i produttori di pistole. Quindi, se si dispone di dati da una fonte discutibile, controllali sempre con un altro esperto se non due o tre. Non pubblicare i dati da una fonte che non ti convince a meno che tu non abbia prove sostanziali di corroborazione.

Processo di raccolta troppo vago #

È tanto facile, troppo facile introdurre errori, false ipotesi e alterazioni nel momento di raccolta del dato. Per questo motivo è importante che i metodi utilizzati per la raccolta siano trasparenti. È raro sapere esattamente come è stato raccolto un set di dati, ma le indicazioni di un problema possono includere numeri che portano precisione irrealistica e dati che sono troppo belli per essere veri.

A volte l’origine della storia può essere sospetta: può un istituto aver intervistato 50 membri di gang attive a sud di Chicago? Se il processo di raccolta del dato è troppo vago e la fonte non può fornire documentazione sulla sua provenienza e sulla sua lavorazione, allora è consigliabile fare un secondo controllo con un esperto del tema.

Vedi anche:

Precisione irrealistica #

Al di fuori degli amibiti scientifici, poche cose vengono misurate con più di due punti decimali. Se ti arriva un dataset che pretende di mostrare le emissioni di una fabbrica al 7imo punto decimale è quasi sicuramente una stima buttata li. Le stime non sono concettualmente sbagliate finché si è trasparenti sul fatto che si tratta di una stima.

Outliers inspiegabili #

In un dataset che misurava quanto ci mette un messaggio a viaggare su internet, tutti i tempi andavano in un range da 0.05 a 0.8 secondi, tranne che in tre casi che erano oltre i 5,000. Questo può essere un segnale di errore nella produzione del dato; nel caso sopra c’era un errore nel codice che produceva questi messaggi di test.

Se lavori molto con le medie, degli outliers come questi possono darti problemi nelle analisi (probabilmente la mediana è un metodo migliore). Con un nuovo dataset è sempre consigliabile vedere il valore massimo e minimo per vedere se sono dentro un particolare range. Se un outlier sembra giustificato, puoi provare a condurre un’analisi più approfondita con la deviazione standar o la deviazione media.

Allo stesso tempo gli outliers possono anche essere degli indicatori importanti per far vedere cosa emerge sopra (o sotto) la media.

Vedi anche:

L’indice nasconde le variazioni nei dati #

Gli analisti che vogliono seguire una tendenza spesso creano indici di vari valori per tenere traccia dei progressi. Non c’è nulla di intrinsecamente sbagliato nell’utilizzare un indice perché possono avere un grande potere esplicativo. Tuttavia è importante esercitare cautela su indici che combinano più misure.

Per esempio l’indice delle Nazioni Unite chiamato Gender Inequality Index combina diverse misure per vedere gli avanzamenti delle donne rispetto l’eguaglianza, una di queste misure è la “rappresentazione di donne nel parlamento”.

Due nazioni nel mondo hanno leggi che vietano le donne nei loro parlamenti: Cina e Pakistan. Come risultato queste due nazioni hanno un valore migliore nell’indice rispetto agli altri paesi che condividono valori simili nelle altre misure. Ogni indice deve essere usato con attenzione per assicurarsi che le variabili che lo compongono non variano il ranking in modi inaspettati.

P-Hacking #

P-hacking è alterare di proposito i dati, o la metodologia d’analisi, o l’omissione di elementi, per dare artificiosamente significanza statistica ai risultati dell’analisi . Alcuni esempi: fermare la raccolta dati appena si ha il risultato desiderato, rimuovere selettivamente dei dati o fare più analisi ma utiizzare quelle di maggior comodo. La testata americana 538 ha fatto un bel report su questo problema.

Vedi anche:

Legge di Benford #

La legge di Benford è una teoria che afferma che le piccole cifre (1, 2, 3) appaiono all’inizio dei numeri molto più frequentemente rispetto alle grandi cifre (7, 8, 9). Nella legge di Benford può essere utilizzata per rilevare anomalie nelle pratiche contabili o nei risultati delle elezioni, anche se in pratica può essere facilmente applicabile. Se si sospetta che un set di dati sia stato creato o modificato per ingannare, la legge di Benford è un eccellente primo test, ma dovresti sempre verificare i tuoi risultati con un esperto prima di concludere che i dati sono stati manipolati.

Troppo bello per essere vero #

Non esiste un set di dati globale dell’opinione pubblica. Nessuno conosce il numero esatto di persone che vivono in Siberia. Le statistiche del crimine non sono paragonabili ai confini. Il governo degli Stati Uniti non ti dirà quanto materiale fissile mantiene a portata di mano.

Attenzione a tutti i dati che pretendono di rappresentare qualcosa che non si può facilmente sapere. Non sono dati ma la stime di qualcuno, probabilmente sbagliata. Nel dubbio chiedi a un esperto del settore di verificarlo.

🧑‍💻 Problemi risolvibili da un programmatore #

Dati aggregati nelle categorie sbagliate #

A volte il dataset ha il giusto livello di dettaglio (non troppo grossolano e neppure troppo granulari), ma i valori sono stati aggregati in gruppi diversi dall’utilizzo che intendevi farne. Esempio classico è avere dei dati raggruppati per città ma hai bisogno dei singoli CAP (Città come Roma o Milano hanno più CAP a seconda della zona). In molti casi l’unica soluzione è di partire dal dato più granulare e rifare l’aggregazione, a volte è possibile fare delle proporzioni tra i gruppi ma bisogna farlo soltanto con una buona nozione dei marginini d’errore che ne possono uscire. Se ti trovi con dati aggregati nei gruppi sbagliati, prova a chiedere ad un programmatore se può aiutarti a riportarli nei giusti gruppi; dovresti anche sentire la fonte per capire se può fornirti il tabulato originale prima dell’aggregazione.

Vedi anche:

Dati presenti in documenti scansionati #

Grazie agli open-data spesso governi ed enti pubblici sono tenuti a fornirti dati, anche se non vogliono. Una tattica molto comune da quest’ultimi per ostacolare è di fornire scansioni o fotografie delle pagine. Questi possono essere file di immagine o, più probabile, dei PDF.

È possibile estrarre il testo dalle immagini e convertirlo in dati. Questo è fatto attraverso un processo chiamato riconoscimento ottico-carattere (OCR). I software attuali possono essere accurati quasi al 100%, ma molto dipende dalla natura del documento. Ogni volta che usi un OCR per estrarre dei dati è consigliabile verificare che i risultati corrispondano all’originale.

Esistono dei siti dove puoi caricare un documento per far fare il riconoscimento dei dati, ma ci sono anche strumenti gratuiti che un programmatore potrebbe essere in grado di utilizzare nei tuoi documenti specifici. Chiedi a loro quale sia la migliore strategia per i documenti che hai.

Vedi anche:

Denis Rasia
Autore
Denis Rasia
Denis Rasia è un consulente digital analytics e digital marketing specializzato nella piattaforma Google Analytics 4 e nella customer data platform di Segment.