ELEMENTI DI STATISTICA DESCRITTIVA PER L'ANALISI DEL RISCHIO

ELEMENTI DI STATISTICA DESCRITTIVA PER L'ANALISI DEL RISCHIO

ELEMENTI DI STATISTICA DESCRITTIVA PER L'ANALISI DEL RISCHIO

1 1 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Corso di Laurea in Sicurezza igienico-sanitaria degli alimenti Metodologie statistiche per l’analisi del rischio ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Facoltà di Medicina Veterinaria, Università di Padova Docente: Dott. L. Corain 2 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO SOMMARIO ¾ Definizione di statistica descrittiva ¾ Statistica descrittiva vs. Statistica inferenziale ¾ Gli aspetti della statistica descrittiva ƒ descrizione e forma della distribuzione ƒ posizione o tendenza centrale ƒ variabilità o dispersione ¾ Gli strumenti della statistica descrittiva ƒ tabelle e grafici ƒ indici di sintesi ¾ Statistica descrittiva per i dati multivariati

2 3 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO LA STATISTICA DESCRITTIVA: DEFINIZIONE Con il termine statistica descrittiva si intende un insieme di tecniche e strumenti finalizzati ad assolvere uno dei principali compiti assegnati della Statistica: descrivere, rappresentare e sintetizzare in maniera opportuna un campione di dati relativo ad un problema (popolazione) di interesse. Per popolazione si intende la totalità dei casi, ovvero delle unità statistiche, sulle quali e possibile rilevare il fenomeno di interesse, ad esempio la prevalenza di colonie batteriche in un certo alimento.

In questo caso, la popolazione è la totalità dei campioni (vetrini, piastre, ecc.) che sono riferibili alle condizioni produttive (o di conservazione, trasporto, ecc.) dell’alimento.

4 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Mentre la statistica descrittiva si occupa di rappresentare l’informazione contenuta in un dato insieme o campione di dati, la statistica inferenziale utilizza tale informazione per fare delle affermazioni più generali riguardanti i parametri (solitamente µ e σ) della popolazione, da cui il campione è stato estratto. Le affermazioni della statistica inferenziale sono di due tipi: 9 STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme: 1.

un valore ben definito (STIMA PUNTUALE) 2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE) 9 VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare

3 5 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE Si noti la netta distinzione concettuale tra ƒ parametri (solitamente µ e σ) della popolazione: si tratta di quantità non osservabili, ma stimabili attraverso i dati campionari. ƒ stime dei parametri (media e deviazione standard campionaria): si tratta di valori plausibili di un parametro della popolazione che possiamo calcolare attraverso i dati campionari. Assunto un modello di probabilità di rappresentazione della popolazione, attraverso le stime dei parametri possiamo stimare anche la distribuzione della popolazione stessa.

Si noti che l’assunzione di un modello di probabilità non assicura affatto che tale modello sia il vero della distribuzione della popolazione.

6 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI Per descrivere e sintetizzare l’informazione campionaria di un fenomeno numerico di interesse, la statistica descrittiva si focalizza su 3 principali aspetti: 1. la descrizione e la forma della distribuzione 2. la posizione o tendenza centrale 3. la variabilità o dispersione Gli strumenti messi a disposizione dalla statistica descrittiva possono essere sia di tipo grafico che numerico. In questo ultimo caso si tratta di opportuni indici di sintesi, che in unico valore esprimono una specifica caratteristica della distribuzione dei dati: la tendenza centrale, la variabilità e la forma della distribuzione.

4 7 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI Grafici: 9 Dotplot 9 (tabella ed) istogramma di frequenza ¾ frequenza assoluta, frequenza relativa ¾ frequenza, frequenza cumulata 9 boxplot 9 probability plot Indici di sintesi: 9 indici di posizione o tendenza centrale ¾ media, mediana, moda 9 indici di variabilità o dispersione ¾ varianza, deviazione standard (scarto quadr. medio) range, range interquartile 9 indice di asimmetria 8 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Una pipetta è stato usata per trasferire 1 cm3 di acqua distillata in una provetta tarata per la pesatura.

L'esperimento è stato replicato 50 volte. . .

UN ESEMPIO: L’ACQUA EROGATA DA UNA PIPETTA

5 9 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Una prima sintetica rappresentazione grafica dei dati è fornita dal dotplot, dove ogni distinto valore osservato corrisponde ad un pallino: Possiamo inoltre notare che i dati cadono in un range (intervallo) di 0.14 gr, calcolato come differenza tra il valore massimo (1.10) e minimo (0.94) osservato. UNA PRIMA RAPPRESENTAZIONE GRAFICA 0.94 0.96 0.98 1.00 1.02 1.04 1.06 1.08 1.10 Peso Dotplot del Peso dell'acqua erogata dalla pipetta Osserviamo che la maggior parte dei dati tende a “addensarsi” attorno ad un valore centrale (che però è inferiore a 1 gr).

10 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Per approfondire la descrizione della distribuzione dei dati, partendo dal valore minimo di 0.94, dividiamo l’intervallo di osservazione dei dati (di ampiezza 0.14 gr) in 15 intervalli di uguale ampiezza pari a 0.01: [0.94, 0.95[, [0.95, 0.96 . , [1.08, 1.09[. Se contiamo il numero di unità che cadano all’interno di ciascun intervallo, otteniamo la tabella ed il corrispondente istogramma di frequenza. LA TABELLA E L’ISTOGRAMMA DI FREQUENZA Peso Frequency 1.10 1.09 1.08 1.07 1.06 1.05 1.04 1.03 1.02 1.01 1.00 0.99 0.98 0.97 0.96 0.95 0.94 12 10 8 6 4 2 Histogram of Peso Conteggio di Peso Intervallo Assoluta Relativa 0.94-0.95 3 6% 0.95-0.96 4 8% 0.96-0.97 12 24% 0.97-0.98 8 16% 0.98-0.99 9 18% 0.99-1.00 4 8% 1.00-1.01 2 4% 1.01-1.02 3 6% 1.02-1.03 2 4% 1.03-1.04 0 0% 1.04-1.05 0 0% 1.05-1.06 1 2% 1.06-1.07 1 2% 1.07-1.08 0 0% 1.08-1.09 1 2% Totale 50 100% Frequenza

6 11 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Se sommiamo via via le frequenze in maniera cumulata rispetto agli intervalli, si ottiene la cosiddetta frequenza cumulata, che ci dice quante osservazioni cadono fino ad una certa soglia. Per costruzione, il valore della frequenza cumulata rispetto all’ultima soglia sarà il numero totale di osservazioni o il valore 100% rispettivamente per la frequenza cumulata assoluta o relativa. LA FREQUENZA CUMULATA Conteggio di Peso Intervallo Assoluta Relativa < 0.95 3 6% < 0.96 7 14% < 0.97 19 38% < 0.98 27 54% < 0.99 36 72% < 1.00 40 80% < 1.01 42 84% < 1.02 45 90% < 1.03 47 94% < 1.04 47 94% < 1.05 47 94% < 1.06 48 96% < 1.07 49 98% < 1.08 49 98% < 1.09 50 100% Frequ.

comulata Peso Cumulative Percent 1.09 1.08 1.07 1.06 1.05 1.04 1.03 1.02 1.01 1.00 0.99 0.98 0.97 0.96 0.95 100 80 60 40 20 Distribuzione relativa cumulata del Peso 12 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO ƒ porre il limite inferiore della prima classe leggermente al di sotto del valore minimo osservato, preferibilmente individuando un valore di riferimento che faciliti l’interpretazione dei dati ƒ scegliere un numero di intervalli da un minimo di 4-5 ad un massimo di 14-15; in base al numero di intervalli calcolare la corrispondente ampiezza ƒ in alternativa, scegliere una ampiezza opportuna dell’intervallo, preferibilmente in modo che il numero di classi sia coerente con il punto precedente LA DEFINIZIONE DEGLI INTERVALLI Nella definizione degli intervalli è utile seguire alcune semplici regole empiriche:

7 13 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO ƒ la media dei due valori nella posizione centrale ((50+1)/2=25.5, cioè 25° e 26°) definisce la MEDIANA ƒ il valore più vicino alla posizione ¼ ((50+1)/4=12.75 quindi il 13° dato) definisce Q1 (primo QUARTILE) ƒ il valore più vicino alla posizione ( 50+1)*3/4=38.25 quindi il 38° dato) definisce Q3 (terzo QUARTILE) MEDIANA E QUARTILI: DEFINIZIONE Oltre ai valori massimo e minimo, altri indici statistici di posizione possono fornirci informazioni importanti di sintesi sulla distribuzione dei dati. Se ordiniamo i dati, dal più piccolo al più grande Posizione ordinata 1 2 ...

12 ... 25 26 ... 38 ... 49 50 Peso 0.945 0.946 ... 0.962 ... 0.977 0.977 ... 0.994 ... 1.063 1.085 Indice 0.945 0.962 0.994 1.085 MIN Q1 Q3 MAX MEDIANA (Q2) 0.977 14 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO ƒ MEDIANA: se n è dispari, la mediana è il valore della serie ordinata nella posizione (n+1)/2, mentre se n è pari, la mediana è la media aritmetica dei due valori della serie ordinata nelle posizioni n/2 e n/2+1 ƒ Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4, mentre se n+1 non è divisibile per 4, se (n+1)/4 e (n+1)*3/4 cadano esattamente tra 2 posizioni (es.

32.5 e 94.5) allora Q1 e Q3 sono definiti dalla media aritmetica dei due valori adiacenti della serie ordinata (es. 31-32 e 94-95), altrimenti sono definiti come i valore che sta nella posizione corrispondente al valore (n+1)/4 e (n+1)*3/4 una volta arrotondato all’intero più vicino MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI Sia n il numero di osservazioni del campione di dati. In base al fatto che n sia pari o dispari e che sia divisibile per 4, la mediana ed i quartili vengono così definiti:

8 15 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO IL BOXPLOT La rappresentazione grafica dei 5 numeri di sintesi: MIN, Q1, MEDIANA, Q3 e MAX, forniscono il cosiddetto BOXPLOT. Per costruzione, all’interno della “scatola” è contenuto il 50% dei dati osservati. La forma della scatola (rispetto alla mediana) ed il modo in cui si allungano i tratti laterali (“baffi”) danno un’indicazione sia della tendenza centrale, che sulla variabilità (“intensità” della dispersione) che sulla simmetria della distribuzione.

MIN MAX MEDIANA Q3 Q1 16 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Peso 1.100 1.075 1.050 1.025 1.000 0.975 0.950 Boxplot of Peso IL BOXPLOT MODIFICATO Se nella costruzione del boxplot, MIN e MAX sono sostituiti o MIN*=max{MIN,Q1-1.5*(Q3-Q1)} o MAX*= min{MAX,Q3+1.5*(Q3-Q1)} otteniamo il cosiddetto boxplot modificato.

In questo caso, se sono presenti alcuni valori che oltrepassano le soglie MIN* e MAX*, essi sono indicati con un asterisco, ad indicare che si potrebbe considerare come dati anomali (outlier) nel campione di dati. MIN MAX* outliers

9 17 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI Boxplot e dotplot sono particolarmente efficaci nella confronto tra più serie di dati, per la comparazione tra tendenza centrale, variabilità e forma della distribuzione. Ad esempio, considerati 3 impianti A,B,C, possiamo confrontare un campione di valori di produzione per ciascuno dei tre impianti. C B A 115 110 105 100 95 90 85 80 Impianto Produzione Dotplots of Produzione by Impianto C B A 115 110 105 100 95 90 85 80 Impianto Produzione Boxplots of Produzione by Impianto 18 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI Anche la frequenza può essere utilizzata a scopi comparativi, per evidenziare differenze ad analogie in diverse serie di dati.

Una curva più a destra o sotto/a destra rispetto ad un’altra, rispettivamente per la frequenza o frequenza cumulata, indica che la corrispondente serie di dati è distribuita su valori tendenzialmente più elevati. A B C 120 115 110 105 100 95 90 85 80 25 20 15 10 5 Produzione Cumulative Frequency Frequenza assoluta cumulata, per impianto A B C 120 115 110 105 100 95 90 85 80 10 Produzione Frequency Frequenza assoluta, per impianto

10 19 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO IL PROBABILITY PLOT Un probability plot è un grafico a due dimensioni in cui le osservazioni sono riportate sull’asse verticale e a ciascuna di esse viene fatto corrispondere sull’asse orizzontale il relativo quantile di una distribuzione di probabilità (normale, log-normale,ecc.).

Se i punti del grafico si trovano approssimativamente su una linea retta immaginaria inclinata positivamente, allora possiamo affermare che i dati osservati si distribuiscono approssimativamente secondo la legge della distribuzione di probabilità in questione.

20 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO IL PROBABILITY PLOT Peso Percent 1.10 1.05 1.00 0.95 0.90 99 95 90 80 70 60 50 40 30 20 10 5 1 Loc

11 21 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO La posizione o tendenza centrale di una serie di dati può essere utilmente rappresentata da un unico valore di sintesi come la mediana. Si noti che la mediana non è influenzata dalla presenza di dati anomali e per questo è detta essere un indicatore robusto. Una alternativa è data dalla media campionaria dei valori osservati ovvero La media campionaria è una sorta di “baricentro” dei dati e, a differenza della mediana, tende ad essere “trascinata” verso i dati anomali.

Un’ulteriore alternativa (poco usata) è la moda, definita come il valore più frequente in una serie di dati. INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE 1 2 1 ... 22 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO La variabilità o dispersione dei dati indica il grado di “oscillazione” o variazione dei valori rispetto alla loro tendenza centrale, misurata ad esempio con la media campionaria. L’indice statistico s2, definito come è detto varianza campionaria.

Dato che s2 è definito nel quadrato della unità di misura di X, per facilità di interpretazione si preferisce usare la deviazione standard o scarto quadratico medio .

Per comparare la variabilità di X e Y, se misurati su unità di misura diverse si utilizza il coefficiente di variazione: INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE CV s x =

12 23 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Se in luogo della media campionaria, consideriamo come indice di posizione la mediana, la variabilità dei dati può essere misura dal Range Interquartile definito come IQR = Q3-Q1 si noti che, per costruzione, tale indice di dispersione è sempre ≥ 0, risultando tanto più grande quanto più i dati sono variabili rispetto alla mediana. Una ulteriore alternativa è fornita dal Range, ovvero Range = MAX – MIN Tale indice tuttavia è di scarso rilievo data la sua evidente dipendenza dalla presenza di eventuali dati anomali. INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE 24 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Confrontando i due indici di tendenza centrale media campionaria e mediana è possibile trarre delle indicazioni in merito alla simmetria della distribuzione dei dati: Una indicazione più precisa è data dall’indice di asimmetria (skewness), che in base al valore assunto, positivo o negativo, ci indica l’intensità ed il tipo dell’eventuale asimmetria.

INDICI STATISTICI DI SIMMETRIA z media < mediana: asimmetria negativa o distribuzione obliqua a sinistra z media = mediana: simmetria z media > mediana: asimmetria positiva o distribuzione obliqua a destra

13 25 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO INDICI STATISTICI DI SINTESI 1.08 1.06 1.04 1.02 1.00 0.98 0.96 Median Mean 0.990 0.985 0.980 0.975 0.970 A nderson-Darling Normality Test V ariance 0.00082 Skewness 1.61433 Kurtosis 3.20499 N 50 Minimum 0.94500 A -Squared 1st Q uartile 0.96275 Median 0.97700 3rd Q uartile 0.99425 Maximum 1.08500 95% C onfidence Interv al for Mean 0.97487 1.77 0.99117 95% C onfidence Interv al for Median 0.96867 0.98500 95% C onfidence Interv al for StDev 0.02396 0.03574 P-V alue < 0.005 Mean 0.98302 StDev 0.02868 95% Confidence Intervals Summary for Peso 26 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO L’informazione che si può desumere dagli indici statistici di sintesi può essere particolarmente apprezzata in caso di comparazione tra più serie di dati, come risulta chiaramente dall’esempio della produzione dei tre impianti.

CONFRONTO TRA INDICI STATISTICI Media Mediana Skewness A 100.1 100.0 -0.150 B 96.1 95.7 0.103 C 91.5 89.8 1.109 Varianza DevStd IQR A 29.0 5.4 5.7 B 78.8 8.9 18.2 C 62.6 7.9 11.8 Impianto Indice di posizione Indice di dispersione

14 27 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Quando sulla stessa unità od oggetto vengono rilevati contemporaneamente due o più variabili numeriche, si parla di dati bio multi-variati. In questo caso è di interesse studiare il modo in cui queste variabili sono eventualmente associate tra loro. Ad esempio possiamo considerare il volume di produzione, il ciclo temporale e la temperatura media, di un certo processo industriale. Il diagramma di dispersione per una coppia di variabili numeriche X e Y, può fornire una prima chiave lettura del legame esistente tra le variabili.

Infatti, a seconda di come si dispone la “nuvola” di punti, possiamo ritenere plausibile un eventuale legame tra le due variabili.

STATISTICA DESCRITTIVA PER DATI BIo MULTI-VARIATI 28 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Se consideriamo una serie di diagrammi di dispersione per ogni possibile coppia di variabili, otteniamo il cosiddetto matrix-plot, che può fornire una prima chiave lettura del legame esistente tra le variabili. Possiamo dedurre una chiara indicazione che MATRIX PLOT 24.925 22.375 3.46 2.68 24.925 22.375 3.66 3.42 3.46 2.68 3.66 3.42 VOL_PROD TEMPO VOL_PROD TEMPER TEMPO TEMPER 1. tempo e volume di produzione sono correlati positivamente, 2. temperatura - tempo e temperatura - volume di produzione sono invece correlati negativamente.

15 29 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO Un modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra coppie di variabili consiste nel calcolare l’indice di correlazione (lineare) campionaria: La correlazione, varia tra -1 e +1, indicando IL COEFFICIENTE DI CORRELAZIONE (+1): perfetta correlazione negativa (positiva) 0.7 (+ 0.7): forte correlazione negativa (positiva) ¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3): debole correlazione negativa (positiva) ¾ − 0.3 < r < + 0.3: assenza di correlazione Correlations: VOL_PROD; TEMPO; TEMPER VOL_PROD TEMPO TEMPO 0.908 TEMPER -0.915 -0.990 Cell Contents: Pearson correlation