INTRODUZIONE ALLA STATISTICA

Pagina creata da Pietro Manfredi
 
CONTINUA A LEGGERE
INTRODUZIONE ALLA STATISTICA
INTRODUZIONE ALLA STATISTICA
                     APPUNTI RACCOLTI IN RETE
                        Prof.ssa Francesca Pan

    Il peggior uso della statistica è quando la si dedica a fini retorici o
    propagandistici, non per sapere, bensì per far credere ai semplicioni.
                              Sergio Ricossa

Non mi fido molto delle statistiche, perché un uomo con la testa nel
   forno acceso e i piedi nel congelatore statisticamente ha una
                        temperatura media.
                         Charles Bukowski
CAPITOLO 1 _TRILUSSA E LA TEORIA DEL POLLO

Carlo Alberto Salustri, più conosciuto con lo pseudonimo di Trilussa - anagramma del cognome - (Roma, 26 ottobre
  1871 – Roma, 21 dicembre 1950), è stato un poeta italiano, noto per le sue composizioni in dialetto romanesco.

                            Tutto nasce dalla poesia La Statistica:

                             « Sai ched'è la statistica? È na' cosa
                             che serve pe fà un conto in generale
                              de la gente che nasce, che sta male,
                           che more, che va in carcere e che spósa.
                                 Ma pè me la statistica curiosa
                                 è dove c'entra la percentuale,
                            pè via che, lì, la media è sempre eguale
                                  puro co' la persona bisognosa.
                               Me spiego: da li conti che se fanno
                                seconno le statistiche d'adesso
                             risurta che te tocca un pollo all'anno:
                                 e, se nun entra nelle spese tue,
                                t'entra ne la statistica lo stesso
                           perch'è c'è un antro che ne magna due. »

Di fatto il componimento di Trilussa non fa altro che affermare che se qualcuno mangia due polli, e
qualcun altro no, in media hanno mangiato un pollo a testa, anche se di fatto sappiamo che uno non l'ha
mangiato. La scelta del pollo va inserita nel contesto storico, in quanto ai tempi di Trilussa mangiare
pollo era considerata "una cosa da ricchi", ma anche se oggi in Italia la situazione è diversa il
significato del ragionamento umoristico non cambia. Quindi sebbene facendo la media sulla popolazione
potesse risultare che ogni persona mangia un pollo (quindi abbia un certo benessere) nella realtà
potrebbero essere in molti a non poterselo permettere e il dato sarebbe ingrossato dal consumo della
fascia di popolazione più ricca.

Con questa poesia Trilussa anticipa un tema che è diventato assai attuale con la diffusione
dell'informazione statistica per fini di promozione politica, economica e non solo. Come infatti
sosteneva Darrell Huff nel suo Mentire con le statistiche (How to Lie with Statistics) spesso il
numero statistico, magari privo di informazioni dettagliate, può essere interpretato in modi diversi a
seconda dei dati correlati. Così la media è un dato spesso poco significativo o addirittura fuorviante se
non si sa esattamente su quale base è calcolata e con quale criteri è definita: e questa imprecisione, a
volte, può essere voluta, con lo scopo intenzionale di ingannare. Casi del genere hanno portato con il
tempo a modifiche sull'uso di dati statistici, ad esempio per misurare il reddito medio di una certa
nazione, che può risultare elevato grazie alla presenza di pochi individui multimiliardari a fronte di una
massa di persone sotto la soglia di povertà. La scienza statistica, peraltro, dispone di strumenti che
permettono di tenere conto di questa variabilità, come il Coefficiente di Gini.

Il coefficiente di Gini, introdotto dallo statistico italiano (di Motta di Livenza) Corrado Gini, è una misura
della diseguaglianza di una distribuzione. È spesso usato come indice di concentrazione per misurare la
diseguaglianza nella distribuzione del reddito o anche della ricchezza. È un numero compreso tra 0 ed
1. Valori bassi del coefficiente indicano una distribuzione abbastanza omogenea, con il valore 0 che
corrisponde alla pura equidistribuzione, ad esempio la situazione in cui tutti percepiscano esattamente
lo stesso reddito; valori alti del coefficiente indicano una distribuzione più diseguale, con il valore 1
che corrisponde alla massima concentrazione, ovvero la situazione dove una persona percepisca tutto il
reddito del paese mentre tutti gli altri hanno un reddito nullo.
Cap. 2 _ La curva di Gauss

La gaussiana (curva di Gauss) è un concetto matematico abbastanza avanzato, ma che ha
notevoli implicazioni con il mondo reale. Molte persone ritengono la matematica arida e
finiscono per odiarla ("non sono portato per i numeri"). Questa posizione può essere
senz'altro giustificata da un insegnamento troppo nozionistico della materia, insegnamento
che fa danni notevoli perché si riscontra che chi ha scarso spirito matematico ben
difficilmente comprende a fondo la realtà. Per spirito matematico non s'intende la conoscenza
delle scienze matematiche, ma la comprensione (a volte intuitiva) di ciò che della matematica
ha un'applicazione concreta, anzi concretissima.
È vero che molte nozioni sono assolutamente inutili per chi non le userà poi nella sua
professione. Pensiamo alla trigonometria, utilissima a un ingegnere, ma inutile a una commessa,
a un giornalista ecc. Che importanza "pratica" (cioè per la comprensione del mondo) ha sapere
che sen2a+cos2a=1? Nessuna. La stessa cosa invece non può dirsi per altri concetti: la curva di
Gauss (da Karl Friedrich Gauss, grande matematico tedesco) ne è un esempio.

                                        La distribuzione
Quando dobbiamo giudicare un evento possiamo descriverlo con la distribuzione dei suoi
possibili valori. Se lancio una moneta il valore testa ha probabilità 0,5 e idem ne ha il valore
croce. Avremo una distribuzione a due soli valori, ognuno dei quali ha probabilità 0,5. La
somma dei valori possibili dà l'unità (cioè la certezza, o esce testa o esce croce: non si
considera la possibilità che la moneta resti in piedi!).
Se analizziamo la distribuzione di un campione di persone che seguono un certo programma
televisivo per decadi di età, magari otteniamo un grafico di questo tipo:

Le cose si complicano quando ho molti valori possibili, addirittura infiniti.
Supponiamo per esempio di effettuare tante misurazioni di una stessa grandezza con uno
strumento; avremo risultati differenti, dovuti all'inevitabile imprecisione del nostro
strumento e del nostro operato, che sono detti errori accidentali. Se rappresentiamo le
misure ottenute su un grafico, se il numero di misurazioni è molto grande, al limite infinito, la
curva che otterremo è proprio la curva di Gauss.
Si tratta di una curva dalla classica forma a campana che ha un massimo attorno alla media
dei valori misurati e può essere più o meno stretta a seconda della dispersione dei valori
attorno alla media; la dispersione si misura con la deviazione standard: praticamente una delle
proprietà della gaussiana è che il 68% delle misurazioni differisce dalla media meno della
deviazione standard e che il 95% meno di due deviazioni standard: quindi maggiore è la
deviazione standard, più la gaussiana è "aperta" e più c'è la possibilità che la media (il punto
più alto) non sia rappresentativo di tanti casi.
Anche nel caso della curva di Gauss l'area sottesa dalla curva vale 1 perché la somma delle
probabilità di tutti i valori dà 1, cioè la certezza.

                                        Un esempio reale
La distribuzione di Gauss è spesso detta normale. L'aggettivo è significativo perché indica
che moltissimi fenomeni possono essere descritti da una curva gaussiana o Gauss-like (cioè
simile).
Se è vero che la gaussiana vale per una popolazione infinita di misurazioni e per eventi del
tutto casuali, è altresì vero che curve a campana (Gauss-like) possono descrivere facilmente
molti fenomeni; per detti fenomeni anche i concetti di media e di deviazione standard
continuano a essere validi, anche se spesso solo il primo può essere definito con una notevole
precisione.
Supponiamo di considerare l'altezza degli italiani maschi. Analizziamo un campione di 1.000
soggetti. Probabilmente otterremmo una curva a campana, centrata attorno a una media, del
tipo 174 cm di media con una "deviazione standard" di circa 10 cm, cioè il 95% dei soggetti
analizzati sarebbe compreso fra 154 cm e 194 cm.

                                L'importanza di questi concetti
Siamo sommersi da mail di persone che, dopo aver fatto le analisi del sangue, si preoccupano
che un dato valore sia fuori range. Qual è l'errore logico che commettono? Di solito uno dei
due:

                 credere che il range di normalità sia assoluto: al di fuori di esso c'è
                  patologia;
                 non conoscere la distribuzione del parametro.

Il primo punto è quello che genera maggiori preoccupazioni; in realtà i parametri clinici si
distribuiscono secondo curve a campana centrate attorno a una media; i range di riferimento
cercano di indicare con buona probabilità quando si è di fronte a un individuo normalmente
sano. Un po' come se io dicessi che gli italiani maschi sono alti da 165 a 185 cm: un soggetto
alto 163 cm è comunque normale, mentre un soggetto adulto alto 140 cm è sicuramente
affetto da nanismo.
Per capire fino in fondo l'esame occorrerebbe quindi avere non solo il range di riferimento,
ma anche la distribuzione completa dei valori nella popolazione, cioè capire la "gaussiana" dei
valori normali e conoscere la sua deviazione standard.
Per esempio, per la glicemia la deviazione standard potrebbe essere 10 mg/dl con una media di
95 mg/dl, per cui, nonostante i valori "consigliati" da un laboratorio siano 80-110, anche un
valore di 75 (sportivo) o 115 potrebbe essere attribuito a un soggetto sano. Consideriamo poi
che ci sarebbe sempre e comunque un 5% di soggetti sani con valori al di fuori del range 75-
115.
Per altri parametri la deviazione standard potrebbe essere ancora maggiore. Quindi se avete
capito il concetto di gaussiana, non è tanto importante capire se un parametro è vicino alla
media della popolazione, quanto se ne è talmente lontano da avere pochissime probabilità di
essere sani

VEDI ALLEGATO: CURVA GAUSSIANA _ PER SAPERNE DI PIU’
Cap. 3 _ INTERVALLI DI CONFIDENZA

Vedi Testo Ed. Zanichelli Autori Bergamin, Trifone, Barozzi -Matematica.azzurro Vol. 1
da pag 18α a pag. 19α
CAP.4 _ LEGGE DEI GRANDI NUMERI (O LEGGE EMPIRICA DEL CASO)

Partiamo da un semplice esempio: lanciamo una moneta 10 volte, 100 volte, 1000
volte e controlliamo l'evento "uscita di testa". Io ho ottenuto questi risultati

                   Numero lanci Uscita di testa Frequenza di uscita di testa

                          10                   6                       0,60 = 60%

                         100                   56                      0,56 = 56%

                        1000                  532                     ~0,53 = 53%

Osserviamo che mentre aumentano in numero gli scarti dal valore teorico il valore della
frequenza si avvicina a quello della probabilita'(0,5=50%)
infatti gli scarti dal valore teorico (meta' dei lanci) sono
per 10 lanci abbiamo 6 teste quindi scarto = 1
per 100 lanci abbiamo 56 teste quindi scarto = 6
per 1000 lanci abbiamo 532 teste quindi scarto = 32
La frequenza invece e'
per 10 lanci e' 0,60
per 100 lanci e' 0,56
per 1000 lanci e' 0,53
Se aumentiamo il numero di lanci avremo che il valore della frequenza si avvicina sempre piu' a
quello della probabilita' (0,50)

Un esperimento di questo genere ci porta ad enunciare una legge che collega
strettamente la frequenza alla probabilita' classica:
Legge dei grandi numeri
All'aumentare del numero delle prove fatte il valore della frequenza tende al
valore teorico della probabilita'

Attenzione a considerare in modo corretto la legge dei grandi numeri: se ad esempio ho, lanciando una moneta ,
l'uscita di testa per 6 volte di seguito non e' che nel lancio successivo e' piu' probabile che esca croce invece di
testa: le probabilita' di uscita di testa o di croce sono esattamente le stesse
Puoi anche leggere