INTRODUZIONE ALLA STATISTICA
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
INTRODUZIONE ALLA STATISTICA APPUNTI RACCOLTI IN RETE Prof.ssa Francesca Pan Il peggior uso della statistica è quando la si dedica a fini retorici o propagandistici, non per sapere, bensì per far credere ai semplicioni. Sergio Ricossa Non mi fido molto delle statistiche, perché un uomo con la testa nel forno acceso e i piedi nel congelatore statisticamente ha una temperatura media. Charles Bukowski
CAPITOLO 1 _TRILUSSA E LA TEORIA DEL POLLO Carlo Alberto Salustri, più conosciuto con lo pseudonimo di Trilussa - anagramma del cognome - (Roma, 26 ottobre 1871 – Roma, 21 dicembre 1950), è stato un poeta italiano, noto per le sue composizioni in dialetto romanesco. Tutto nasce dalla poesia La Statistica: « Sai ched'è la statistica? È na' cosa che serve pe fà un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che spósa. Ma pè me la statistica curiosa è dove c'entra la percentuale, pè via che, lì, la media è sempre eguale puro co' la persona bisognosa. Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, t'entra ne la statistica lo stesso perch'è c'è un antro che ne magna due. » Di fatto il componimento di Trilussa non fa altro che affermare che se qualcuno mangia due polli, e qualcun altro no, in media hanno mangiato un pollo a testa, anche se di fatto sappiamo che uno non l'ha mangiato. La scelta del pollo va inserita nel contesto storico, in quanto ai tempi di Trilussa mangiare pollo era considerata "una cosa da ricchi", ma anche se oggi in Italia la situazione è diversa il significato del ragionamento umoristico non cambia. Quindi sebbene facendo la media sulla popolazione potesse risultare che ogni persona mangia un pollo (quindi abbia un certo benessere) nella realtà potrebbero essere in molti a non poterselo permettere e il dato sarebbe ingrossato dal consumo della fascia di popolazione più ricca. Con questa poesia Trilussa anticipa un tema che è diventato assai attuale con la diffusione dell'informazione statistica per fini di promozione politica, economica e non solo. Come infatti sosteneva Darrell Huff nel suo Mentire con le statistiche (How to Lie with Statistics) spesso il numero statistico, magari privo di informazioni dettagliate, può essere interpretato in modi diversi a seconda dei dati correlati. Così la media è un dato spesso poco significativo o addirittura fuorviante se non si sa esattamente su quale base è calcolata e con quale criteri è definita: e questa imprecisione, a volte, può essere voluta, con lo scopo intenzionale di ingannare. Casi del genere hanno portato con il tempo a modifiche sull'uso di dati statistici, ad esempio per misurare il reddito medio di una certa nazione, che può risultare elevato grazie alla presenza di pochi individui multimiliardari a fronte di una massa di persone sotto la soglia di povertà. La scienza statistica, peraltro, dispone di strumenti che permettono di tenere conto di questa variabilità, come il Coefficiente di Gini. Il coefficiente di Gini, introdotto dallo statistico italiano (di Motta di Livenza) Corrado Gini, è una misura della diseguaglianza di una distribuzione. È spesso usato come indice di concentrazione per misurare la diseguaglianza nella distribuzione del reddito o anche della ricchezza. È un numero compreso tra 0 ed 1. Valori bassi del coefficiente indicano una distribuzione abbastanza omogenea, con il valore 0 che corrisponde alla pura equidistribuzione, ad esempio la situazione in cui tutti percepiscano esattamente lo stesso reddito; valori alti del coefficiente indicano una distribuzione più diseguale, con il valore 1 che corrisponde alla massima concentrazione, ovvero la situazione dove una persona percepisca tutto il reddito del paese mentre tutti gli altri hanno un reddito nullo.
Cap. 2 _ La curva di Gauss La gaussiana (curva di Gauss) è un concetto matematico abbastanza avanzato, ma che ha notevoli implicazioni con il mondo reale. Molte persone ritengono la matematica arida e finiscono per odiarla ("non sono portato per i numeri"). Questa posizione può essere senz'altro giustificata da un insegnamento troppo nozionistico della materia, insegnamento che fa danni notevoli perché si riscontra che chi ha scarso spirito matematico ben difficilmente comprende a fondo la realtà. Per spirito matematico non s'intende la conoscenza delle scienze matematiche, ma la comprensione (a volte intuitiva) di ciò che della matematica ha un'applicazione concreta, anzi concretissima. È vero che molte nozioni sono assolutamente inutili per chi non le userà poi nella sua professione. Pensiamo alla trigonometria, utilissima a un ingegnere, ma inutile a una commessa, a un giornalista ecc. Che importanza "pratica" (cioè per la comprensione del mondo) ha sapere che sen2a+cos2a=1? Nessuna. La stessa cosa invece non può dirsi per altri concetti: la curva di Gauss (da Karl Friedrich Gauss, grande matematico tedesco) ne è un esempio. La distribuzione Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi possibili valori. Se lancio una moneta il valore testa ha probabilità 0,5 e idem ne ha il valore croce. Avremo una distribuzione a due soli valori, ognuno dei quali ha probabilità 0,5. La somma dei valori possibili dà l'unità (cioè la certezza, o esce testa o esce croce: non si considera la possibilità che la moneta resti in piedi!). Se analizziamo la distribuzione di un campione di persone che seguono un certo programma televisivo per decadi di età, magari otteniamo un grafico di questo tipo: Le cose si complicano quando ho molti valori possibili, addirittura infiniti. Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno strumento; avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro strumento e del nostro operato, che sono detti errori accidentali. Se rappresentiamo le misure ottenute su un grafico, se il numero di misurazioni è molto grande, al limite infinito, la curva che otterremo è proprio la curva di Gauss.
Si tratta di una curva dalla classica forma a campana che ha un massimo attorno alla media dei valori misurati e può essere più o meno stretta a seconda della dispersione dei valori attorno alla media; la dispersione si misura con la deviazione standard: praticamente una delle proprietà della gaussiana è che il 68% delle misurazioni differisce dalla media meno della deviazione standard e che il 95% meno di due deviazioni standard: quindi maggiore è la deviazione standard, più la gaussiana è "aperta" e più c'è la possibilità che la media (il punto più alto) non sia rappresentativo di tanti casi. Anche nel caso della curva di Gauss l'area sottesa dalla curva vale 1 perché la somma delle probabilità di tutti i valori dà 1, cioè la certezza. Un esempio reale La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè simile). Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere facilmente molti fenomeni; per detti fenomeni anche i concetti di media e di deviazione standard continuano a essere validi, anche se spesso solo il primo può essere definito con una notevole precisione. Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000 soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del tipo 174 cm di media con una "deviazione standard" di circa 10 cm, cioè il 95% dei soggetti analizzati sarebbe compreso fra 154 cm e 194 cm. L'importanza di questi concetti Siamo sommersi da mail di persone che, dopo aver fatto le analisi del sangue, si preoccupano che un dato valore sia fuori range. Qual è l'errore logico che commettono? Di solito uno dei due: credere che il range di normalità sia assoluto: al di fuori di esso c'è patologia; non conoscere la distribuzione del parametro. Il primo punto è quello che genera maggiori preoccupazioni; in realtà i parametri clinici si distribuiscono secondo curve a campana centrate attorno a una media; i range di riferimento cercano di indicare con buona probabilità quando si è di fronte a un individuo normalmente sano. Un po' come se io dicessi che gli italiani maschi sono alti da 165 a 185 cm: un soggetto alto 163 cm è comunque normale, mentre un soggetto adulto alto 140 cm è sicuramente
affetto da nanismo. Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il range di riferimento, ma anche la distribuzione completa dei valori nella popolazione, cioè capire la "gaussiana" dei valori normali e conoscere la sua deviazione standard. Per esempio, per la glicemia la deviazione standard potrebbe essere 10 mg/dl con una media di 95 mg/dl, per cui, nonostante i valori "consigliati" da un laboratorio siano 80-110, anche un valore di 75 (sportivo) o 115 potrebbe essere attribuito a un soggetto sano. Consideriamo poi che ci sarebbe sempre e comunque un 5% di soggetti sani con valori al di fuori del range 75- 115. Per altri parametri la deviazione standard potrebbe essere ancora maggiore. Quindi se avete capito il concetto di gaussiana, non è tanto importante capire se un parametro è vicino alla media della popolazione, quanto se ne è talmente lontano da avere pochissime probabilità di essere sani VEDI ALLEGATO: CURVA GAUSSIANA _ PER SAPERNE DI PIU’
Cap. 3 _ INTERVALLI DI CONFIDENZA Vedi Testo Ed. Zanichelli Autori Bergamin, Trifone, Barozzi -Matematica.azzurro Vol. 1 da pag 18α a pag. 19α
CAP.4 _ LEGGE DEI GRANDI NUMERI (O LEGGE EMPIRICA DEL CASO) Partiamo da un semplice esempio: lanciamo una moneta 10 volte, 100 volte, 1000 volte e controlliamo l'evento "uscita di testa". Io ho ottenuto questi risultati Numero lanci Uscita di testa Frequenza di uscita di testa 10 6 0,60 = 60% 100 56 0,56 = 56% 1000 532 ~0,53 = 53% Osserviamo che mentre aumentano in numero gli scarti dal valore teorico il valore della frequenza si avvicina a quello della probabilita'(0,5=50%) infatti gli scarti dal valore teorico (meta' dei lanci) sono per 10 lanci abbiamo 6 teste quindi scarto = 1 per 100 lanci abbiamo 56 teste quindi scarto = 6 per 1000 lanci abbiamo 532 teste quindi scarto = 32 La frequenza invece e' per 10 lanci e' 0,60 per 100 lanci e' 0,56 per 1000 lanci e' 0,53 Se aumentiamo il numero di lanci avremo che il valore della frequenza si avvicina sempre piu' a quello della probabilita' (0,50) Un esperimento di questo genere ci porta ad enunciare una legge che collega strettamente la frequenza alla probabilita' classica: Legge dei grandi numeri All'aumentare del numero delle prove fatte il valore della frequenza tende al valore teorico della probabilita' Attenzione a considerare in modo corretto la legge dei grandi numeri: se ad esempio ho, lanciando una moneta , l'uscita di testa per 6 volte di seguito non e' che nel lancio successivo e' piu' probabile che esca croce invece di testa: le probabilita' di uscita di testa o di croce sono esattamente le stesse
Puoi anche leggere