ELEMENTI DI STATISTICA DESCRITTIVA PER L'ANALISI DEL RISCHIO

 
 
ELEMENTI DI STATISTICA DESCRITTIVA PER L'ANALISI DEL RISCHIO
Corso di Laurea in
           Sicurezza igienico-sanitaria degli alimenti




Metodologie statistiche per l’analisi del rischio


ELEMENTI DI STATISTICA DESCRITTIVA
    PER L’ANALISI DEL RISCHIO


 Facoltà di Medicina Veterinaria, Università di Padova
               Docente: Dott. L. Corain

           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   1




 SOMMARIO

 ¾ Definizione di statistica descrittiva
 ¾ Statistica descrittiva vs. Statistica inferenziale
 ¾ Gli aspetti della statistica descrittiva
    ƒ   descrizione e forma della distribuzione
    ƒ   posizione o tendenza centrale
    ƒ   variabilità o dispersione

 ¾ Gli strumenti della statistica descrittiva
    ƒ   tabelle e grafici
    ƒ   indici di sintesi

 ¾ Statistica descrittiva per i dati multivariati
           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   2




                                                                              1
LA STATISTICA DESCRITTIVA: DEFINIZIONE
Con il termine statistica descrittiva si intende un insieme di
tecniche e strumenti finalizzati ad assolvere uno dei
principali compiti assegnati della Statistica:
descrivere, rappresentare e sintetizzare in maniera
opportuna un campione di dati relativo ad un problema
(popolazione) di interesse.
Per popolazione si intende la totalità dei casi, ovvero delle
unità statistiche, sulle quali e possibile rilevare il fenomeno
di interesse, ad esempio la prevalenza di colonie batteriche
in un certo alimento. In questo caso, la popolazione è la
totalità dei campioni (vetrini, piastre, ecc.) che sono riferibili
alle condizioni produttive (o di conservazione, trasporto,
ecc.) dell’alimento.
            ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   3




STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Mentre la statistica descrittiva si occupa di rappresentare
l’informazione contenuta in un dato insieme o campione di
dati, la statistica inferenziale utilizza tale informazione per
fare delle affermazioni più generali riguardanti i parametri
(solitamente µ e σ) della popolazione, da cui il campione è
stato estratto.
Le affermazioni della statistica inferenziale sono di due tipi:
9 STIMA: si vuole indicare un valore plausibile per il
     parametro della popolazione, sotto una delle 2 forme:
     1. un valore ben definito (STIMA PUNTUALE)
     2. un intervallo in cui molto verosimilmente il parametro
         sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche
     ipotesi sul parametro (nulla o alternativa) sia da accettare
            ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   4




                                                                               2
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Si noti la netta distinzione concettuale tra
ƒ    parametri (solitamente µ e σ) della popolazione: si tratta
     di quantità non osservabili, ma stimabili attraverso i dati
     campionari.
ƒ   stime dei parametri (media e deviazione standard
    campionaria): si tratta di valori plausibili di un parametro
    della popolazione che possiamo calcolare attraverso i
    dati campionari.
Assunto un modello di probabilità di rappresentazione della
popolazione, attraverso le stime dei parametri possiamo
stimare anche la distribuzione della popolazione stessa.
Si noti che l’assunzione di un modello di probabilità non
assicura affatto che tale modello sia il vero della
distribuzione della popolazione.
             ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   5




    LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI
Per descrivere e sintetizzare l’informazione campionaria di
un fenomeno numerico di interesse, la statistica descrittiva
si focalizza su 3 principali aspetti:
1. la descrizione e la forma della distribuzione
2. la posizione o tendenza centrale
3. la variabilità o dispersione
Gli strumenti messi a disposizione dalla statistica descrittiva
possono essere sia di tipo grafico che numerico. In questo
ultimo caso si tratta di opportuni indici di sintesi, che in
unico valore esprimono una specifica caratteristica della
distribuzione dei dati: la tendenza centrale, la variabilità e la
forma della distribuzione.
             ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   6




                                                                                3
LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI
Grafici:
9 Dotplot
9 (tabella ed) istogramma di frequenza
   ¾ frequenza assoluta, frequenza relativa
   ¾ frequenza, frequenza cumulata
9 boxplot
9 probability plot
Indici di sintesi:
9 indici di posizione o tendenza centrale
   ¾ media, mediana, moda
9 indici di variabilità o dispersione
   ¾ varianza, deviazione standard (scarto quadr. medio)
       range, range interquartile
9 indice di asimmetria
            ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   7




UN ESEMPIO: L’ACQUA EROGATA DA UNA PIPETTA
Una pipetta è stato usata per trasferire 1 cm3 di acqua
distillata in una provetta tarata per la pesatura.
L'esperimento è stato replicato 50 volte.




      ...   ...




            ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   8




                                                                               4
UNA PRIMA RAPPRESENTAZIONE GRAFICA
Una prima sintetica rappresentazione grafica dei dati è
fornita dal dotplot, dove ogni distinto valore osservato
corrisponde ad un pallino:
  Dotplot del Peso dell'acqua erogata dalla pipetta Osserviamo che la
                                                                                                     maggior parte dei
                                                                                                     dati tende a
                                                                                                     “addensarsi” attorno
                                                                                                     ad un valore
                                                                                                     centrale (che però è
        0.94   0.96    0.98   1.00   1.02    1.04   1.06      1.08             1.10

                                     Peso
                                                                                                     inferiore a 1 gr).
Possiamo inoltre notare che i dati cadono in un range
(intervallo) di 0.14 gr, calcolato come differenza tra il valore
massimo (1.10) e minimo (0.94) osservato.
                      ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                                                 9




LA TABELLA E L’ISTOGRAMMA DI FREQUENZA
Per approfondire la descrizione della distribuzione dei dati,
partendo dal valore minimo di 0.94, dividiamo l’intervallo di
osservazione dei dati (di ampiezza 0.14 gr) in 15 intervalli di
uguale ampiezza pari a 0.01: [0.94, 0.95[, [0.95, 0.96[, ...,
[1.08, 1.09[. Se contiamo il numero di unità che cadano
all’interno di ciascun intervallo, otteniamo la tabella ed il
corrispondente istogramma di frequenza.
   Conteggio di Peso         Frequenza
   Intervallo            Assoluta Relativa                                                             Histogram of Peso
   0.94-0.95                3        6%
                                                                       12
   0.95-0.96                4        8%
   0.96-0.97               12       24%
                                                                       10
   0.97-0.98                8       16%
   0.98-0.99                9       18%
                                                                       8
   0.99-1.00                4        8%
                                                           Frequency




   1.00-1.01                2        4%
   1.01-1.02                3        6%                                6

   1.02-1.03                2        4%
   1.03-1.04                0        0%                                4
   1.04-1.05                0        0%
   1.05-1.06                1        2%                                2
   1.06-1.07                1        2%
   1.07-1.08                0        0%                                0
                                                                            0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10
   1.08-1.09                1        2%                                                                            Peso
   Totale                  50       100%

                      ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                                                 10




                                                                                                                                                                        5
LA FREQUENZA CUMULATA
Se sommiamo via via le frequenze in maniera cumulata
rispetto agli intervalli, si ottiene la cosiddetta frequenza
cumulata, che ci dice quante osservazioni cadono fino ad
una certa soglia. Per costruzione, il valore della frequenza
cumulata rispetto all’ultima soglia sarà il numero totale di
osservazioni o il valore 100% rispettivamente per la
frequenza cumulata assoluta o relativa.
    Conteggio di Peso    Frequ. comulata
                                                                               Distribuzione relativa cumulata del Peso
    Intervallo          Assoluta Relativa
    < 0.95                 3        6%                           100
    < 0.96                 7       14%
    < 0.97                19       38%
                                                                 80
    < 0.98                27       54%
                                            Cumulative Percent
    < 0.99                36       72%
    < 1.00                40       80%                           60
    < 1.01                42       84%
    < 1.02                45       90%                           40
    < 1.03                47       94%
    < 1.04                47       94%
    < 1.05                47       94%                           20

    < 1.06                48       96%
    < 1.07                49       98%                            0
                                                                       0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09
    < 1.08                49       98%
                                                                                                         Peso
    < 1.09                50       100%


                    ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                                    11




LA DEFINIZIONE DEGLI INTERVALLI

Nella definizione degli intervalli è utile seguire alcune
semplici regole empiriche:
ƒ   porre il limite inferiore della prima classe leggermente al
    di sotto del valore minimo osservato, preferibilmente
    individuando un valore di riferimento che faciliti
    l’interpretazione dei dati
ƒ   scegliere un numero di intervalli da un minimo di 4-5 ad
    un massimo di 14-15; in base al numero di intervalli
    calcolare la corrispondente ampiezza
ƒ   in alternativa, scegliere una ampiezza opportuna
    dell’intervallo, preferibilmente in modo che il numero di
    classi sia coerente con il punto precedente

                    ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                                    12




                                                                                                                                                         6
MEDIANA E QUARTILI: DEFINIZIONE
    Oltre ai valori massimo e minimo, altri indici statistici di
    posizione possono fornirci informazioni importanti di sintesi
    sulla distribuzione dei dati. Se ordiniamo i dati, dal più
    piccolo al più grande
Posizione ordinata     1       2     ...     12    ...    25       26   ...     38     ...     49      50
Peso                 0.945   0.946   ...   0.962   ...   0.977 0.977    ...   0.994    ...   1.063   1.085
Indice               0.945                 0.962             0.977            0.994                  1.085
                      MIN                   Q1           MEDIANA (Q2)          Q3                    MAX


    ƒ      la media dei due valori nella posizione centrale
           ((50+1)/2=25.5, cioè 25° e 26°) definisce la MEDIANA
    ƒ      il valore più vicino alla posizione ¼ ((50+1)/4=12.75
           quindi il 13° dato) definisce Q1 (primo QUARTILE)
    ƒ      il valore più vicino alla posizione ¾ ( (50+1)*3/4=38.25
           quindi il 38° dato) definisce Q3 (terzo QUARTILE)
                        ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                 13




      MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI
    Sia n il numero di osservazioni del campione di dati. In base
    al fatto che n sia pari o dispari e che sia divisibile per 4, la
    mediana ed i quartili vengono così definiti:
    ƒ MEDIANA: se n è dispari, la mediana è il valore della
        serie ordinata nella posizione (n+1)/2, mentre se n è
        pari, la mediana è la media aritmetica dei due valori
        della serie ordinata nelle posizioni n/2 e n/2+1
    ƒ Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori
        della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4,
        mentre se n+1 non è divisibile per 4, se (n+1)/4 e
        (n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e
        94.5) allora Q1 e Q3 sono definiti dalla media aritmetica
        dei due valori adiacenti della serie ordinata (es. 31-32 e
        94-95), altrimenti sono definiti come i valore che sta
        nella posizione corrispondente al valore (n+1)/4 e
        (n+1)*3/4 una volta arrotondato all’intero più vicino
                        ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                 14




                                                                                                             7
IL BOXPLOT
La rappresentazione
grafica dei 5 numeri di
sintesi: MIN, Q1,                            Q1         Q3
MEDIANA, Q3 e MAX,           MIN                                                                    MAX
forniscono il cosiddetto
BOXPLOT.
                                             MEDIANA
Per costruzione, all’interno
della “scatola” è contenuto
il 50% dei dati osservati.

La forma della scatola (rispetto alla mediana) ed il modo in
cui si allungano i tratti laterali (“baffi”) danno un’indicazione
sia della tendenza centrale, che sulla variabilità (“intensità”
della dispersione) che sulla simmetria della distribuzione.

           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                              15




IL BOXPLOT MODIFICATO

Se nella costruzione del boxplot, MIN e MAX sono sostituiti
o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}
o MAX*= min{MAX,Q3+1.5*(Q3-Q1)}
otteniamo il cosiddetto boxplot modificato.
In questo caso, se sono                                           Boxplot of Peso


presenti alcuni valori che
oltrepassano le soglie MIN*
                                             MIN                        MAX*
e MAX*, essi sono indicati
con un asterisco, ad indicare                                                          outliers

che si potrebbe considerare
                                               0.950   0.975   1.000     1.025      1.050   1.075    1.100
come dati anomali (outlier)                                            Peso



nel campione di dati.

           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                              16




                                                                                                             8
IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI
Boxplot e dotplot sono particolarmente efficaci nella
confronto tra più serie di dati, per la comparazione tra
tendenza centrale, variabilità e forma della distribuzione.
Ad esempio, considerati 3 impianti A,B,C, possiamo
confrontare un campione di valori di produzione per
ciascuno dei tre impianti.

                                      Dotplots of Produzione by Impianto                                                                      Boxplots of Produzione by Impianto

                   115                                                                                     115

                   110                                                                                     110

                   105                                                                                     105
  Produzione




                                                                                              Produzione
                   100                                                                                     100

                       95                                                                                  95

                       90                                                                                  90

                       85                                                                                  85

                       80                                                                                  80
 Impianto                                                                                    Impianto
                                                                                   C




                                                                                                                                                                                     C
                                      A




                                                             B




                                                                                                                                              A




                                                                                                                                                                 B
                                                ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                                                       17




LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI
Anche la frequenza può essere utilizzata a scopi
comparativi, per evidenziare differenze ad analogie in
diverse serie di dati.
Una curva più a destra o sotto/a destra rispetto ad un’altra,
rispettivamente per la frequenza o frequenza cumulata,
indica che la corrispondente serie di dati è distribuita su
valori tendenzialmente più elevati.
                                      Frequenza assoluta, per impianto                                                                  Frequenza assoluta cumulata, per impianto
                            10                                                           A                                         25                                                          A
                            9                                                            B                                                                                                     B
                                                                                                            Cumulative Frequency




                            8                                                            C                                         20                                                          C

                            7
               Frequency




                            6                                                                                                      15
                            5
                            4                                                                                                      10
                            3
                            2                                                                                                      5
                            1
                            0                                                                                                      0
                                 80   85   90     95   100       105   110   115   120                                                   80       85   90   95   100   105   110   115   120
                                                   Produzione                                                                                                Produzione




                                                ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                                                       18




                                                                                                                                                                                                        9
IL PROBABILITY PLOT
          Un probability plot è un grafico a due dimensioni in cui le
          osservazioni sono riportate sull’asse verticale e a ciascuna
          di esse viene fatto corrispondere sull’asse orizzontale il
          relativo quantile di una distribuzione di probabilità (normale,
          log-normale,ecc.).
          Se i punti del grafico si trovano approssimativamente su
          una linea retta immaginaria inclinata positivamente, allora
          possiamo affermare che i dati osservati si distribuiscono
          approssimativamente secondo la legge della distribuzione
          di probabilità in questione.




                                ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                                          19




               IL PROBABILITY PLOT
                             Probability Plot of Peso
                                 Lognormal - 95% CI
          99
                                                                Loc       -0.01753
                                                                Scale      0.02857
          95                                                    N               50
                                                                AD           1.592
          90
                                                                P-Value
INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE
La posizione o tendenza centrale di una serie di dati può
essere utilmente rappresentata da un unico valore di sintesi
come la mediana. Si noti che la mediana non è influenzata
dalla presenza di dati anomali e per questo è detta essere
un indicatore robusto.
Una alternativa è data dalla media campionaria dei valori
                                       n
osservati ovvero                         x
                             x + x + ... + xn              ∑       i
                          x= 1 2              =             i =1
                                   n                          n
La media campionaria è una sorta di “baricentro” dei dati e,
a differenza della mediana, tende ad essere “trascinata”
verso i dati anomali.
Un’ulteriore alternativa (poco usata) è la moda, definita
come il valore più frequente in una serie di dati.
           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   21




INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
La variabilità o dispersione dei dati indica il grado di
“oscillazione” o variazione dei valori rispetto alla loro
tendenza centrale, misurata ad esempio con la media
campionaria. L’indice statistico s2, definito come
                                      n

                                    ∑ (x − x )
                                             i
                                                    2


                             s2 =    i =1
                                            n −1
è detto varianza campionaria.
Dato che s2 è definito nel quadrato della unità di misura di
X, per facilità di interpretazione si preferisce usare la
deviazione standard o scarto quadratico medio s = s 2 .
Per comparare la variabilità di X e Y, se misurati su unità di
misura diverse si utilizza il coefficiente di variazione:
                            CV = s / x
           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   22




                                                                               11
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE

Se in luogo della media campionaria, consideriamo come
indice di posizione la mediana, la variabilità dei dati può
essere misura dal Range Interquartile definito come
                              IQR = Q3-Q1
si noti che, per costruzione, tale indice di dispersione è
sempre ≥ 0, risultando tanto più grande quanto più i dati
sono variabili rispetto alla mediana.
Una ulteriore alternativa è fornita dal Range, ovvero
                        Range = MAX – MIN
Tale indice tuttavia è di scarso rilievo data la sua evidente
dipendenza dalla presenza di eventuali dati anomali.
           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   23




INDICI STATISTICI DI SIMMETRIA
Confrontando i due indici di tendenza centrale media
campionaria e mediana è possibile trarre delle indicazioni in
merito alla simmetria della distribuzione dei dati:
z   media < mediana:
    asimmetria negativa o distribuzione obliqua a sinistra
z   media = mediana: simmetria
z   media > mediana:
    asimmetria positiva o distribuzione obliqua a destra




Una indicazione più precisa è data dall’indice di
asimmetria (skewness), che in base al valore assunto,
positivo o negativo, ci indica l’intensità ed il tipo
dell’eventuale asimmetria.
           ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO   24




                                                                               12
INDICI STATISTICI DI SINTESI

                                               Summary for Peso
                                                                                   A nderson-D arling N ormality Test
                                                                                        A -S quared        1.77
                                                                                        P -V alue <       0.005

                                                                                        M ean           0.98302
                                                                                        S tDev          0.02868
                                                                                        V ariance       0.00082
                                                                                        S kew ness      1.61433
                                                                                        Kurtosis        3.20499
                                                                                        N                    50

                                                                                        M inimum        0.94500
                                                                                        1st Q uartile   0.96275
                                                                                        M edian         0.97700
                                                                                        3rd Q uartile   0.99425
             0.96      0.98        1.00        1.02   1.04      1.06       1.08         M aximum        1.08500
                                                                                  95% C onfidence Interv al for M ean
                                                                                        0.97487         0.99117
                                                                                  95% C onfidence Interv al for M edian
                                                                                        0.96867         0.98500
                                                                                  95% C onfidence Interv al for S tD ev
                              9 5 % C onfidence Inter vals
                                                                                        0.02396         0.03574
   Mean


  Median

           0.970          0.975             0.980       0.985          0.990




                    ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                          25




CONFRONTO TRA INDICI STATISTICI

L’informazione che si può desumere dagli indici statistici di
sintesi può essere particolarmente apprezzata in caso di
comparazione tra più serie di dati, come risulta chiaramente
dall’esempio della produzione dei tre impianti.

                                          Indice di posizione
                     Impianto
                                           Media     Mediana                       Skewness
                         A                 100.1       100.0                        -0.150
                         B                  96.1       95.7                          0.103
                         C                  91.5       89.8                          1.109

                                               Indice di dispersione
                                          Varianza    DevStd       IQR
                         A                  29.0         5.4        5.7
                         B                  78.8         8.9       18.2
                         C                  62.6         7.9       11.8


                    ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO                                          26




                                                                                                                               13
STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI
Quando sulla stessa unità od oggetto vengono rilevati
contemporaneamente due o più variabili numeriche, si parla
di dati bi- o multi-variati. In questo caso è di interesse
studiare il modo in cui queste variabili sono eventualmente
associate tra loro.
Ad esempio possiamo considerare il volume di produzione,
il ciclo temporale e la temperatura media, di un certo
processo industriale.
Il diagramma di dispersione per una coppia di variabili
numeriche X e Y, può fornire una prima chiave lettura del
legame esistente tra le variabili. Infatti, a seconda di come
si dispone la “nuvola” di punti, possiamo ritenere plausibile
un eventuale legame tra le due variabili.
                                      ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO    27




MATRIX PLOT
Se consideriamo una serie di diagrammi di dispersione per
ogni possibile coppia di variabili, otteniamo il cosiddetto
matrix-plot, che può fornire una prima chiave lettura del
legame esistente tra le variabili.
Possiamo dedurre una chiara indicazione che
                                                                               1. tempo e volume di
                                                                                  produzione sono
                                                                                  correlati
  VOL_PROD




                 24.925

                 22.375
                                                                                  positivamente,
                      3.46
             TEMPO




                      2.68                                                     2. temperatura - tempo e
                                                                                  temperatura - volume
             TEMPER




                      3.66

                      3.42
                                                                                  di produzione sono
                             22
                               .37
                                  5
                                     24
                                       .92
                                 VOL_PROD
                                          5
                                              2.6
                                                 8
                                                        3.4
                                                     TEMPO
                                                           6
                                                               3.4
                                                                  2
                                                                      3.6
                                                                  TEMPER
                                                                         6
                                                                                  invece correlati
                                                                                  negativamente.
                                      ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO    28




                                                                                                           14
IL COEFFICIENTE DI CORRELAZIONE
Un modalità più rigorosa che consente di studiare il grado di
intensità del legame lineare tra coppie di variabili consiste
nel calcolare l’indice di correlazione (lineare) campionaria:
             n

            ∑ ( x − x )( y − y )
                     i           i
                                                    Correlations: VOL_PROD; TEMPO; TEMPER

r=          i =1                                             VOL_PROD       TEMPO

      n                         n                   TEMPO        0.908

     ∑ ( xi − x )2 ⋅
     i =1
                              ∑ ( y − y)
                               i =1
                                      i
                                              2     TEMPER     -0.915      -0.990
                                                    Cell Contents: Pearson correlation

La correlazione, varia tra -1 e +1, indicando
¾ r = − 1 (+1): perfetta correlazione negativa (positiva)
¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):
    forte correlazione negativa (positiva)
¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):
    debole correlazione negativa (positiva)
¾ − 0.3 < r < + 0.3: assenza di correlazione
                 ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO         29




                                                                                            15
Puoi anche leggere
Parte successiva ... Annulla