Problemi di statistica – 2

In un post precedente ho commentato un articolo comparso su wired in cui si spiegavano le debolezze della statistica in certi studi scientifici.

Però quello che veniva detto nell’articolo in questione, seppur vero, era solo una parte del “lato oscuro della Forza Statistica”.

Vediamo ora di parlare un po’ del “lato luminoso”. ( Lo so: devo smettere di guardare Guerre Stellari! 😀 😀 )

Come ho già anticipato, non sono uno statistico, ma ovunque vada a vedere, quando si parla di statistica, si richiedono sempre grandi quantità di dati: in questo modo si riduce l’effetto dei dati che, per vari motivi, si discostano molto dalla “normalità”  di un campione ridotto, le cui grandezze caratteristiche potrebbero essere casualmente spostate rispetto a quelle realmente rappresentative.

Ma di che cifre si parla, quando si dice “grandi campioni” ?

Dipende!

Ad esempio: se vogliamo sapere se c’é una differenza statistica fra l’altezza degli studenti di 2 classi ( IV e V elementare ) si può fare un confronto con il test “T di Student“, ma questo funziona se le misure per ogni classe sono almeno 31 [per classe, ovviamente: 31 + 31 cioè].

Perchè 31 ? Perché la differenza fra la  distribuzione del campione selezionato e la distribuzione teorica ( gaussiana ) è al di sotto di un certo valore, e l’errore che si compie è trascurabile ai fini della misura.

Con certi particolari accorgimenti e correzioni del metodo si può scendere di numerosità: possono bastare anche una ventina di misure per classe, ma al di sotto di tale valore quello che si ottiene, non è più affidabile.

E questo vale solo se abbiamo delle ragionevoli ipotesi di “regolarità del campione” e delle misure effettuate.

Ma se queste ipotesi non si possono fare è necessario salire ENORMEMENTE con il numero di misure effettuate.

Ad esempio: guardando la documentazione di una libreria di programmazione scientifica ( la Scikit-Learn  ) nelle prime pagine si trova il seguente grafico che consente di scegliere quale è il migliore algoritmo da usare per analizzare i dati.

 

La prima condizione posta per procedere ad una analisi approfondita è vedere se si hanno almeno 50 misure ( data ). Il grafico dice molto chiaramente:

Hai più di 50 dati ?
Se “no” ottieni altri dati

che è un modo molto carino per dire: “Non pensare nemmeno a fare una analisi statistica che non sia una descrittiva“. Successivamente, in base al numero di dati stessi, si possono eseguire varie analisi sui dati stessi, che si possono dividere in poche grandi categorie:

  • classificazione,
  • clusterizzazione ( raggruppamento secondo certi criteri predefiniti ),
  • regressione
  • riduzione dimensionale ( estrazione delle caratteristiche che influenzano maggiormente i dati, scartando le fluttuazioni casuali )
  • predizione delle caratteristiche dei dati futuri (e parafrasando quello che dice la figura: “in questo caso ritenetevi fortunati” ).

Nota: Di questi argomenti, ne parleremo in post seguenti

Nel mio post precedente avevo parlato di “ricampionamento” del campione in esame per vedere la “solidità” dei risultati ottenuti. Vediamo a questo punto di spiegare in modo accessibile cosa è questa metodologia di lavoro.

Immaginiamo di essere in una fabbrica di cuscinetti a sfera, e bisogna verificare che il peso di ogni singola sfera del cuscinetto sia mediamente un grammo ( più o meno un errore di un decimo di grammo ) prima di poterlo montare. Sfere più pesanti o più leggere altererebbero le prestazioni del cuscinetto introducendo vibrazioni nel sistema e provocando una usura precoce del pezzo.

Come possiamo fare a fare questa misura? Inizialmente si può pensare di usare una bilancia molto precisa e pesare singolarmente ogni singolo cuscinetto. Però una bilancia precisa è molto lenta nel fare le proprie misure. Inoltre per non rallentare troppo la produzione si può pensare di misurare il peso di un cuscinetto ogni 100. E per velocizzare la misura si può usare una bilancia meno precisa: si misurano assieme 1000 cuscinetti e si vede se la misura effettuata è di 10 kg. Ma siamo sicuri che i cuscinetti pesati siano mediamente pesanti 10 grammi l’uno invece che ce ne siano 500 di 8 grammi e 500 di 12 grammi ? Anche in questo caso la misura verrebbe di 10 kg….

Per eliminare questa incertezza, si divide in due il nostro campione e si fanno altre 2 misure, che dovrebbero essere di 5 kg l’una. Se cosi’ non fosse, questo indicherebbe la presenza di un certo numero di cuscinetti che non rispettano il peso desiderato. Ma anche in se le due misure sono identiche non abbiamo ancora la certezza che i cuscinetti le rispettano: potrebbero esserci 250 cuscinetti da 8 grammi e 250 da 12 grammi per ogni sottocampione.

Allora rimettiamo tutti i cuscinetti assieme, rimescoliamo, ridividiamo in 2 parti da 500 cuscinetti l’una e pesiamo di nuovo.

Se facciamo queste misure un certo numero di volte ( 10 o 20 ) e le misure tornano sempre identiche ( 5 kg ) avremo la ragionevole certezza che tutti i cuscinetti siano identici. Se sono presenti piccole alterazioni in questa misure ( es: 4900 grammi contro 5100 grammi ) queste possono essere imputate alla presenza di alcuni cuscinetti che sono all’interno della fascia di tolleranza; ma se otteniamo una misura con differenze fra i sotto-campioni con una ampiezza superiore ( es: 4300 grammi contro 5700 grammi ) questo significa che molti cuscinetti non rispettano le specifiche e lo stock di sfere va scartato, oltre che la linea di produzione va revisionata.

Infatti in questo caso avremmo un campione con dei cuscinetti il cui peso medio è di 8,6 grammi al pezzo, mentre nell’altro avremmo un peso di 11,4 grammi al pezzo.

Il vantaggio di questo metodo è che con un numero limitato di misure, e quindi con un tempo e costi limitati, si ottiene una misura della qualità della produzione.

Questo sistema, applicato a dei dati puramente numerici (es: delle misure di lunghezza memorizzate in un file ) consente di vedere se le analisi fatte sulla totalità dei dati sono “robuste” (ovvero rispondono alla realtà dei fatti) oppure no.  Il “guaio” è che per applicare questa metodologia di lavoro occorre avere un gran numero di dati. Il vantaggio, è che questo sistema è facilmente implementabile in un calcolatore e fornisce dei risultati in tempi abbastanza rapidi.

Esistono vari sistemi e criteri per fare qualcosa del genere, ognuno dei quali ha un suo specifico campo di applicazione: nessun metodo è valido per tutti i casi. Comunque si può sempre trovare un metodo di ricampionamento che va bene per il caso in esame, a patto di avere un gran numero di misure.

Per concludere questo post e finire di commentare l’articolo comparso su Wired, posso dire che una statistica può essere pilotata, sia che si faccia su piccole cifre che su grandi cifre, ma se si ha l’accesso ai dati “grezzi” ( ovvero appena rilevati e non ancora elaborati e categorizzati ) è possibile scoprire, nel caso di grandi numeri, alterazioni intenzionali o meno dei risultati stessi, ripetendo le analisi fatte. Con piccoli numeri questo non è detto sia possibile, in quanto è molto facile escludere a priori ( riconoscendoli con una semplice occhiata )  i dati che potrebbero inficiare i risultati positivi dell’esperimento.

In un prossimo post vedrò di mettere qualche esempio numerico, che secondo il mio illustre e benevolente “revisore”,  ci starebbero bene come il cacio sui maccheroni.

Stay tuned! 🙂

Advertisements

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...