Problemi di statistica

Leggendo qua e la per il web ho trovato questo articolo:

“La scienza ha un problema con la statistica” ( Wired 18-3-2016 )

che parla di come “addomesticare” la statistica ai propri fabbisogni per fare degli studi di dubbio contenuto statistico. La denuncia di questo fatto parte addirittura dalla American Statistical Association (Asa).

E, ci dice la Asa, molti di loro saranno giunti a conclusioni sbagliate. Volete un esempio? Abusando consapevolmente dei p-value è stato possibile dimostrare che la cioccolata fa dimagrire. Un caso limite, una bufala generata apposta, ma allo scopo di far riflettere su molti errori che i ricercatori fanno in più o meno buona fede. La scienza sta facendo i conti con un grosso problema di ripetibilità e l’abuso del p-value è uno dei principali colpevoli.

Nella pubblicazione degli articoli scientifici, per dare “robustezza” alle proprie conclusioni si usa un parametro, il famoso/famigerato “P value” che a seconda del suo valore indica se i nostri risultati sono frutto del caso oppure no. O meglio, indica formalmente quale è la probabilità che il nostro risultato sia frutto del caso. Più il valore di P è piccolo più siamo sicuri che il nostro risultato è vero e non una gradevole coincidenza.

L’articolo dice esattamente:

Che cos’è il p-value?
Immaginiamo di voler sapere se le banane fanno dimagrire. Prendo un gruppo di persone: a metà faccio mangiare banane tutti i giorni, a metà no. Dopo una settimana conto quante persone sono dimagrite in ciascuno dei due gruppi. Se nel gruppo delle banane dimagriscono di più rispetto al gruppo senza banane, possiamo concludere che le banane fanno dimagrire.

O no? In realtà non posso dirlo, perché in moltissimi casi (e i test clinici come quello del nostro esempio sono tra questi) i risultati sono intrinsecamente statistici. Ovvero, c’è una grossa componente casuale, dovuta a fattori che non posso controllare. Magari per puro caso nel gruppo delle banane hanno deciso di fare esercizio fisico. Come faccio a sapere se è solo una coincidenza?

Qui arriva Ronald Fischer, uno dei giganti della scienza del primo ‘900, biologo e statistico. Nel suo influente manuale di metodi statistici del 1925, introduce ufficialmente il p-value ai ricercatori. Ovvero, come calcolare un numero che, data una ipotesi di partenza e i nostri dati, ci dice quanto è probabile ottenere una differenza tra due gruppi pari o superiore a quella osservata. Per esempio, nel caso delle banane che fanno dimagrire, la nostra ipotesi di partenza è che non ci sia alcun effetto. Il p-value – semplificando – ci dice quanto è probabile che, se non ci fosse nessun effetto, per puro caso troviamo una differenza tra i due gruppi pari o maggiore a quella che osserviamo. Se il p-value è molto piccolo, si dice in gergo che l’effetto è significativo. Fischer consigliava come soglia 0,05, ovvero considerare significative le differenze sotto il 5% di probabilità.

Ovvero se la probabilità/ il rischio di avere un falso positivo, cioè un valore che “torna bene” per caso, è al di sotto del 5%, accettiamo questo rischio e diciamo che il risultato è buono, e ci si può fare affidamento. Se il valore di P è ancora più piccolo è ancora meglio.

Bello vero ? Quindi se facciamo una pubblicazione – anche non scientifica – in cui pubblichiamo dei dati, le elaborazioni fatte e ci “appiccichiamo dietro” un bel valore di P che sia convenientemente piccolo … il gioco è fatto! Il nostro studio è vero, anzi è fonte di verità, incontestabile.

Purtroppo non è così, ed ora vediamo il perché. Prima di tutto i metodi di analisi statistica funzionano su grandi quantità di dati. Citando il telefilm Numb3rs:

Prof. Epps: «Voglio i dati degli ultimi tre anni dei crimini avvenuti in questa zona»
Agente:«Saranno una quantità enorme! Sono almeno 2000 casi.»
Prof. Epps: «Allora mi porti i dati degli ultimi cinque anni! Anzi degli ultimi dieci.»

Perché i dati devono essere tanti ? Ve lo spiego con una storiellina:

Ammettiamo di essere in 3 persone di fronte ad un tavolo, con 3 panini. Io mi mangio ( comportandomi da incivile ) i 3 panini lasciando a bocca asciutta gli altri due. In media abbiamo mangiato 1 panino a testa. Ma la Moda Statistica ( che dice quale è il valore che compare più di frequente in un insieme di dati ) dice che abbiamo mangiato ZERO panini a testa. ( E già questo fa capire che molto che in base ai parametri studiati quello che si ottiene varia grandemente: un singolo parametro indica solo un aspetto del campione in esame e non la sua totalità ). E se a noi si aggiunge un’altra persona, la media di panini a testa scende a 0,75 mentre la moda resta zero…..

Cominciate a capire ?

Quando Fischer ha introdotto il p-value, non intendeva dare alla ricerca scientifica un oracolo per decidere la Verità. Voleva proporre uno strumento pratico di lavoro: un test a spanne per dire “ehi, questo esperimento è interessante, vediamo se c’è sotto qualcosa”.

La media, la moda, la varianza, il P-Value sono “cose” che vanno interpretate in base al contesto, eppure oggi – penso che questo sia dovuto ad un fatto di difficoltà nel mettere in discussione il proprio lavoro – ci siamo adagiati sullo “IPSE DIXIT” o meglio: “Il P è questo (quindi la realtà è così)”.

Siamo arrivati a un punto in cui gli studi scientifici hanno una sorta di venerazione per la soglia (del tutto arbitraria) dello 0,05: uno studio in cui l’effetto osservato si trovi sotto questo valore sarà considerato reale, uno sopra no.

Ma è veramente così?

NO, “per fortuna” non è così, anche se per molti è incomprensibile pensare al valore P=0.05 come qualcosa di arbitrario. Infatti molti che lavorano nel campo della statistica si rifiutano di fare studi in cui il valore di P è 0.01, infatti dicono: “Cosi’ NON va bene”. E perché non dovrebbe andare bene? Con questo valore di P la possibilità di accettare per buono un dato errato passa dal 5% allo 1% ovvero è un test 5 volte più stringente…

Eppure, per molti, se abbiamo un valore di P pari a 0.04999999999999 possiamo dire che il lavoro in esame è OK, ma se otteniamo un valore di P pari a 0.05000000000001 non è da scartare assolutamente. Tale valore – 0,05 – è una soglia inviolabile, una costante universale, cosmologica direi, per non dire che si tratta di una Legge Divina incisa su una tavola di pietra! ( Meglio mi fermi qui: ho già trasceso abbastanza 😀 )

Come risulta chiaro dall’articolo:

A questo punto è chiaro che i singoli p-value di questa batteria di esperimenti non mi dicono assolutamente niente su quanto sia probabile che ci sia una differenza reale. Dovrò semmai prendere quei risultati come preliminari e ripetere gli esperimenti, vedendo se l’effetto rimane: e solo dopo, mettendo insieme tutti i dati, arrivare a una conclusione. Purtroppo i ricercatori spesso nascondono i risultati negativi (ovvero, gli esperimenti senza un effetto significativo), perché non sono considerati interessanti, e pubblicano i risultati positivi (quelli con un effetto significativo). Accade quasi sempre in buona fede. Ma senza sapere il contesto, ovvero quanti esperimenti sono stati fatti, quante ipotesi sono state testate e messe nel cassetto, il p-value di un singolo esperimento non ci dice nulla.

Quindi, per essere sicuri che il risultato trovato in un esperimento sia reale e non frutto del caso, questo va ripetuto più e più volte, in modo tale da verificare/validare lo stesso e non prendere fischi per fiaschi.

Facciamo una piccola digressione grafica. Quando facciamo un esperimento ( ad esempio misuriamo l’altezza della nostro cespuglio di rose preferito ), siccome è difficile misurare con esattezza quello che stiamo facendo ripeteremo più volte le misure e queste misure possono essere riassunte in un grafico di questo tipo:

credits: Box Plot with Data Points Posted April 1st, 2009 by hegedus http://www.igorexchange.com/user/516

Ogni singola rappresentazione contiene tutti i parametri statistici che servono a quantificare “a colpo d’occhio” la misura fatta ( statistica descrittiva ) i cui parametri sono riportati nella figura sotto:

nel nostro esperimento, cosa possiamo dire ? La nostra rosa ( in verde ) è cresciuta più di quella dei vicini ( in rosso ed in blu ). E soprattutto, stiamo prendendo fischi per fiaschi ? “Ad occhio” si può dire che il nostro vicino ( in blu ) ha un cespuglio più alto del nostro, anche se i vari rami variano di più mentre quello in rosso è più piccolo anche se la lunghezza è mediamente più omogenea. Se avessimo avuto un risultato come quello riportato sotto sarebbe stato facile dire quale dei due cespugli è il più alto.

box2

ma nel nostro caso …. occorre conoscere anche la “P”. Fino a qui tutto OK. Ma………. se volessi – per pura invidia ortofrutticola – far vedere che il mio cespuglio è più grande, lo posso fare ? E come ?

Sì, e si chiama p-hacking. Non c’è bisogno di falsificare dati, basta, diciamo, farsi furbi.  Un esempio dei tanti trucchi? Immaginiamo di voler dimostrare che una moneta è truccata. La lancio e conto quante volte viene testa e quante volte viene croce. Dopo ogni lancio, calcolo il p-value. Quando vedo che il mio P-value scende sotto la soglia, fermo l’esperimento. La disonestà sta nel fatto che il p-value oscilla naturalmente man mano che faccio un esperimento: anche una moneta normale farà uscire, per puro caso, testa per qualche volta di fila. Se fermo l’esperimento apposta subito dopo che per caso è uscita una fila di teste, ho selezionato i dati per far venire il risultato che piaceva a me. Anche qui quindi il p-value da solo non vuol dire nulla, anzi, è ingannevole. Per applicarlo correttamente uno deve prima decidere quanti dati prende e cosa misurare: poi, a cose fatte, calcolare il p-value.

Nel nostro caso si possono togliere dalla misura i rami più alti del vicino ed i rami più bassi del nostro cespuglio ed il gioco e’ fatto!

Ma una cosa del genere, a chi fa bene ? A chi giova ? “Cui prodest?”

Sicuramente all’autore della ricerca, il quale può pubblicare su riviste prestigiose, con un alto impact factor –  e successivamente richiedere finanziamenti e collaborazioni per la propria attività. ( Di questo ho già parlato – in modo scherzoso, ma non troppo – nel post “pubblicazioni scientifiche” )

Ma alla ricerca in generale tutto ciò fa bene ?

Com’è la situazione allora?
Tragica. Specialmente in discipline come la medicina, la biologia o la psicologia, dove spesso si devono ricavare effetti deboli da esperimenti inevitabilmente rumorosi e dove è difficile raccogliere molti dati. E dove, forse, la consapevolezza sul problema è minore. Un esempio? Una indagine del 2012 su duemila psicologi ha svelato che metà ha riportato solo gli esperimenti funzionanti (togliendo quindi il contesto che da validità alla statistica) e il 58% ha guardato i dati e calcolato il p-value prima di decidere se fare o meno ulteriori esperimenti (P-hacking). Di più, non solo hanno ammesso candidamente queste pratiche, ma molti le hanno difese, ritenendole corrette. Non a caso la psicologia fa fatica a riprodurre i suoi risultati.

In generale, è difficile dedurre quale sia il vero senso del p-value in termini di “quanto è probabile il mio risultato sia vero”: dipende molto dal tipo di studio, dal numero di dati, da quanto è plausibile a priori l’ipotesi di partenza. Alcuni statistici hanno calcolato che, in media, uno studio con p-value di 0,05 potrà essere replicato si e no il 50% delle volte – ben lontano dalla quasi certezza che molti ricercatori gli attribuiscono. In generale si calcola che dal 17 al 25% degli studi scientifici potrebbero essere falsi, puramente per motivi statistici: secondo alcuni, addirittura più del 50%. La validità di milioni di studi scientifici individuali è quindi basata su fondamenta d’argilla.

Il vero problema comunque non è il p-value di per sé, che usato correttamente è uno strumento statistico rispettabile. È il fatto che viene usato da persone che, nonostante una esperienza scientifica di alto livello, non hanno necessariamente il training adeguato instatistica per fare analisi dati in modo corretto. Come fa notare il biostatistico Jeff Leek sul blog Simply Statistics, sostituire il p-value con altri strumenti non cambia nulla, se non si educa la comunità scientifica. Il grido d’allarme della American Statistical Association andrà raccolto non solo dai ricercatori, ma anche e soprattutto dalle università e dalle scuole.

«Ahi! Ahi! Ahi! Ahi! Ahi! Signora Longari……» (cit.)  Siamo messi male allora! Come facciamo a credere in quello che ci viene detto ? Tutto quello che ci veniva “propinato” per essere un dato di fatto, per essere “scienza”, allora non è più vero ? Questo può far crollare il mondo in testa a tantissime persone. Wired alla fine conclude:

Vuol dire che non possiamo più credere alla scienza?
No. È importante distinguere la credibilità del singolo studio da quella di una disciplina. Certo, l’uso errato dei metodi statistici genera un sacco di rumore, e diventa difficile, a volte anche per un esperto, separare uno studio fatto bene da uno problematico. Ma la verità nella scienza non si raggiunge mai con un singolo studio. Si raggiunge replicando gli esperimenti, molte volte, controllando e testando finché non si arriva a una conclusione solida. A questo punto i nodi vengono al pettine. Uno studio per esempio ha dimostrato che sì, il p-hacking è ovunque, ma alla fine non altera molto i risultati delle meta-analisi (analisi fatte su studi multipli pubblicati in letteratura).

Tanto rumore per nulla allora? Non proprio. Usare male la statistica significa sprecare tempo e denaro in studi fatti male che confondono le idee; significa comunicare al pubblico risultati che non sono tali; significa prendere decisioni importanti – dall’avanzamento di carriera dei ricercatori alla nostra salute – basandosi su certezze che a volte non esistono. Molte pseudoscienze spesso galleggiano rivendendo studi significativi che, nell’intero contesto, non lo sono per nulla.

L’abuso della statistica è una malattia che non ha ancora ucciso la scienza. Ma va guarita in fretta, prima che la ricerca perda credibilità.

Questo lascia aperta la porta ad una speranza, ma quello che non dice Wired (perchè penso andasse oltre gli scopi del suo articolo), è che esistono dei sistemi per ovviare a questo ed impedire il P-hacking.

Uno di questi è quello già detto: usare GRANDI campioni [big data]! Più grandi sono e meglio è. Ma questi campioni devono essere omogenei ( ovvero tutti rami dello stesso cespuglio ) e rispettare altre condizioni. Non ne parliamo in questo post per una questione di brevità ma lo faremo sicuramente in futuro.

Un altro sistema per ovviare al P-hacking è quello di utilizzare delle tecniche di ricampionamento casuale.

E di questo ne parleremo in un prossimo post.

 

Nota: i contributi grafici sono proprietà dei relativi autori.

Advertisements

3 pensieri su “Problemi di statistica

  1. Uno studio è …. uno studio.
    Più volte abbiamo sentito giustificarsi questi amanti della statistica dicendo dopo un fallimento sulla ripetività degli esperimenti: “il campione non era rappresentativo”.
    Ciao

  2. Pingback: Problemi di statistica – 2 | Num3ri v 2.0

  3. Pingback: Pubblicazioni scientifiche | Num3ri v 2.0

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...