Teorema Limite Centrale - Monica Musio

Pagina creata da Caterina Palermo
 
CONTINUA A LEGGERE
Teorema Limite Centrale - Monica Musio
Teorema Limite Centrale

      Monica Musio

                          1 / 26
Teorema Limite Centrale - Monica Musio
Esempio - Normale

  L’Italia è il paese in Europa con la maggiore percentuale di anziani.
  Supponiamo di modellizzare l’età delle donne italiane con una
  variabile aleatoria normale di media 49 e deviazione standard 25.
  Secondo tale modello:

   1. Qual è la percentuale di italiane con più di 60 anni ?

   2. Qual è la percentuale di italiane con età compresa tra i 20 e i
      40 anni ?
   3. Qual è l’ età al di sopra della quale si trovano il 5% delle
      italiane?

                                                                          2 / 26
Teorema Limite Centrale - Monica Musio
Esempio - Normale
   1.
                             X − 49 60 − 49
         P(X > 60) = P(            >        ) = P(Z > 0, 44) = 0, 33
                               25     25
        Il 33% delle donne italiane ha più di 60 anni
   2.
                 P(20 ≤ X ≤ 40) = P(−1, 16 ≤ Z ≤ −0, 36) =
             = P(0, 36 ≤ Z ≤ 1, 16) = F (1, 16) − F (0, 36) = 0, 27
        La percentuale cercata è il 27%
   3.
                                      x − 49                   x − 49
        P(X > x) = 0, 05 → P(Z >             ) = 0, 05 → P(Z ≤        ) = 0, 95
                                        25                       25
                      x−49
           Pertanto    25    = 1, 645 → x = 1, 645 · 25 + 49 = 90, 125
  il 5% di italiane secondo questo modello ha un’età superiore a 90
  anni
                                                                           3 / 26
Esercizi - Normale
    I   Si sa che il voto di maturità degli studenti segue una legge
        normale di media 75 e varianza 104.
         1. Qual è la percentuale di voti più alti di 81?
         2. Se i candidati con voto inferiore a 60 vengono bocciati, qual è
            la percentuale di bocciati?

    I   Supponiamo di modellizzare la lunghezza delle trote di lago
        secondo una v.a. X con distribuzione Normale di media
        µ = 28 cm e varianza σ 2 = 4 cm2 .
         1. Quante trote misurano più di 30 cm ?
         2. Quante hanno una lunghezza compresa tra 28 e 32 cm ?
         3. Per condurre un esperimento si selezionano il 15% delle trote
            più lunghe. Quale sarà la lunghezza minima rispetto alla quale
            i pesci sono selezionati?

                                                                              4 / 26
Esercizio - Normale
  La distribuzione del peso corporeo è normale. Un allevatore vuole
  selezionare gli animali più pesanti per la riproduzione in una
  popolazione in cui il peso medio è di 10Kg e la varianza è di 5Kg 2 .
  Questo è comunemente fatto dalla selezione del troncamento: tutti
  gli animali al di sopra di una soglia T di peso vengono allevati,
  mentre quelli al di sotto di T non sono autorizzati a riprodursi.
  L’allevatore, tuttavia, deve riprodurre una certa frazione della
  popolazione per mantenere il numero di animali. Questa frazione
  dipende dalla fecondità (se un animale ha un sacco di discendenti,
  allora pochi genitori sono sufficienti per produrre la prossima
  generazione, altrimenti saranno necessari più genitori per produrre
  altrettanti prole quanti più animali l’allevatore aveva nella
  popolazione iniziale). Calcola T se l’allevatore deve selezionare per
  la riproduzione
    1. 5% degli animali
    2. 60% degli animali
                                                                          5 / 26
Esercizio - Normale

  Il numero di casi di malaria in un anno riscontrati tra i turisti
  nell’Africa sub-sahariana segue una legge normale di media 1350 e
  varianza 1600.

    1. Qual è la probabilità che in un anno il numero di casi sia
       inferiore a 1480 ?

    2. Qual è il numero di casi ammissibile affinchè la proporzione
       totale dei casi non superi il 0,20 ?

    3. Sapendo che in un dato anno il numero dei casi è superiore a
       1300, qual è la probabilità che tale numero sia compreso tra
       1360 e 1460 ?

                                                                      6 / 26
Approssimazione Binomiale − Normale
    I   La forma della distribuzione binomiale è approssimativamente
        Normale se n è grande
    I   La normale è una buona approssimazione della binomiale se
        risulta
                          np > 5 np(1 − p) > 5
    I   In questo caso allora posto
                               X −µ    X − np
                          Z=        =p
                                 σ     np(1 − p)

        possiamo assumere che Z abbia approssimativamente
        distribuzione normale standard
                                                                !
                                   a − np           b − np
           P(a < X < b) ≈ P      p
Approssimazione Binomiale − Normale: esercizio

  Supponiamo che un seme di abete piantato in una certa area abbia
  una probabilità dello 0.7 di sopravvivere oltre il primo anno.
  Calcolare la probabilità che su 200 semi piantati:

   a) più di 150 siano sopravvissuti;
   b) siano sopravvissuti tra i 150 e i 155 semi.

  La distribuzione di probabilità è di tipo binomiale in quanto
  l’evento di interesse è binario, sopravvivenza o meno, e si hanno un
  numero di 200 prove indipendenti tra loro. Sia indicato il successo
  con la sopravvivenza, allora la variabile casuale X che misura il
  numero di semi sopravvissuti ha distribuzione:

                         X ∼ Binom(200, 0.7)

                                                                         8 / 26
Approssimazione Binomiale − Normale: esercizio

                                X ∼ Binom(200, 0.7)
  applicare la formula della binomiale sarebbe lungo, ma osserviamo
  che

   np = .200 · 0.7 = 140 >> 5 np(1 − p) = 200 · 0.7 · 0.3 = 42 >> 5

  possiamo quindi applicare l’approssimazione con la distribuzione
  Normale. Calcoliamo le probabilità che:
   a) più di 150 semi siano sopravvissuti;
                                                                                     !
                                       X − 200 · 0.7            150 − 200 · 0.7
             P(X > 150) = P        p                        >   p                        =
                                       200 · 0.7(1 − 0.7)       200 · 0.7(1 − 0.7)

               150 − 140
                          
       P Z>                    = P (Z > 1.54) = 1 − P (Z < 1.54) = 1 − 0.9382 ≈ 0.0618
                 6.48

                                                                                             9 / 26
Approssimazione Binomiale − Normale: esercizio

                           X ∼ Binom(200, 0.7)

   b) siano sopravvissuti tra i 150 e i 155 semi

                                                                                      !
                                    150 − 200 · 0.7              155 − 200 · 0.7
      P(150 < X < 155) = P      p
Esercizio

   Un docente ha riscontrato che la probabilità che uno studente di
   biologia superi l’esame di matematica con un voto superiore a 26 è
   pari a 0,5.

    1. Qual è la probabilità che su 10 studenti presenti a un appello
       il numero di studenti che supera l’esame con un voto superiore
       al di 26 sia compreso tra 5 e 7 (estremi inclusi)?

    2. Calcola la stessa probabilità se il numero di studenti ora è pari
       a 30.

    3. Nell’ultimo caso usi un calcolo esatto o approssimato ?

                                                                           11 / 26
Statistica Descrittiva vs Inferenza Statistica

    I   Statistica descrittiva: analisi esplorativa dei dati

    I   Statistica inferenziale: vogliamo utilizzare le informazioni del
        campione per fare delle affermazioni sulle caratteristiche di
        tutta la popolazione
    I   Tra Statistica Descrittiva ed Inferenza Statistica esiste una
        ovvia fratellanza e, nelle applicazioni, i problemi di inferenza
        vengono normalmente affrontati in accordo allo schema:

          descrizione caratteristiche campione =⇒ affermazioni
                     caratteristiche della popolazione

                                                                           12 / 26
Inferenza Statistica e Probabilità

    I   Il trucco alla base dell’inferenza statistica consiste nel
        descrivere la relazione tra popolazione e campione utilizzando
        il Calcolo delle Probabilità

    I   Interpreteremo i risultati sperimentali (i dati) come uno dei
        tanti risultati che un meccanismo probabilistico (esperimento
        casuale) poteva fornirci

    I   Si può considerare un modello matematico per il processo
        generatore dei dati: i dati sono visti come risultato di un
        esperimento casuale

                                                                         13 / 26
Inferenza Statistica e Probabilità

    I   Calcolo delle Probabilità: nota la distribuzione di probabilità
        che regola un fenomeno prevedere il risultato di un
        esperimento; Il calcolo delle probabilità è una disciplina
        matematica
    I   Statistica inferenziale: partendo da un campione osservato,
        supposto generato da una certa distribuzione di probabilità
        non totalmente nota, trarre informazioni su tale distribuzione
    I   Inferenza Statistica, il punto di vista è rovesciato: si dispone
        dei dati, e da questi, assunta la loro generazione da una
        distribuzione di probabilità, si cerca di risalire alla legge di
        probabilità (in parte ignota) corrispondente

                   Inferenza statistica = Probabilità−1

                                                                           14 / 26
Esempio

  Consideriamo un bosco di pioppi coltivato su un terreno che abbia
  inquinamento da cadmio. Siamo interessati a misurare la quantità
  di cadmio assorbita dai pioppi (che sono bio-accumulatori di
  cadmio)

  Preleviamo ora le corteccie di 15 pioppi lontani tra di loro che
  possono quindi essere considerati indipendenti) i dati (in gr/cm3
  sono i seguenti)

      9.1, 8.3, 7.5, 7.4, 6.7, 7.3, 8.1, 9.2, 7.4, 6.5, 7.2, 8.7, 9.3, 7.6, 6.8

  a partire da questi dati si vuole stabilire quanto i pioppi sono stati
  inquinati

                                                                                  15 / 26
Esempio
   I   I dati x1 , x2 , · · · , x15 possono essere visti come realizzazioni di
       un campione casuale X1 , X2 , · · · , X15 dalla popolazione
       (virtuale) delle infinite misurazioni ottenibili con lo stesso
       procedimento
   I   Possiamo pensare di modellizzare la variabile quantità di
       cadmio assorbita con una v.a. continua con distribuzione
       normale X ∼ N (µ, σ 2 ) con µ e σ 2 entrambi incogniti sono i
       parametri del modello

                                                                                 16 / 26
Parametri e Statistiche
        I   Nell’inferenza statistica siamo interessati a ottenere
            informazioni sui parametri del modello sulla base dei dati
        I   Si utilizzano statistiche calcolate sui dati del campione, per
            fare inferenza sui parametri del modello, e quindi sulla
            popolazione di riferimento
        I   In generale una statistica è una funzione della variabili di
            campione X1 , · · · , Xn , se la usiamo per stimare un parametro
            lo chiamiamo stimatore del parametro. Il valore che lo
            stimatore assume in corrispondenza di una realizzazione
            campionaria si chiama stima del parametro
        I   La statistica è una v.a. e quindi ha una sua distribuzione di
            probabilità. Usiamo questa distribuzione per determinare
            quanto è probabile che una statistica cada vicino al parametro
            della popolazione
                                                                               P
                                                                                   xi
   Nell esempio
         P      precedente µ e σ 2 sono
                                      P i parametriP
                                                   mentre x̄ =                 n        e
              (xi −x̄)2                      Xi                (Xi −X̄)2
   s2 =       n−1 sono le stime, X̄ =       n     e   S2   =    n−1        i
   corrispondenti stimatori                                                                 17 / 26
La media campionaria
  Sia (X1 , X2 , . . . , Xn ) un campione casuale estratto da una
  popolazione. Allora la media campionaria è definita come:
                                       n
                                       X Xi
                                X̄ =
                                       i=1
                                             n

  La media campionaria X̄ è una variabile casuale in quanto il suo
  valore può cambiare per ogni campione selezionato, campioni
  diversi della stessa dimensione estratti dalla stessa popolazione
  produrranno in genere medie campionarie diverse.
  Possiamo calcolare la variabilità di questa variabile casuale come:
                                       σ
                                σX̄ = √
                                        n
  La deviazione standard della media campionaria diminuisce quando
  il campione cresce.
                                                                        18 / 26
Media campionaria: popolazione normale
  Se la popolazione è normale con media µ e deviazione standard σ,
  ossia se
                           X ∼ N (µ, σ 2 )
  allora anche la distribuzione campionaria di X̄ è normale con

                                           σ
                          µX̄ = µ   σX̄ = √
                                            n
  ossia
                                          σ2
                             X̄ ∼ N (µ,      )
                                          n
  e quindi per la standardizzazione si ha:

                        X̄ − µX̄  X̄ − µ
                   Z=            = σ ∼ N (0, 1)
                           σX̄      √
                                      n

                                                                     19 / 26
Media campionaria: popolazione normale

                                         20 / 26
Media campionaria: popolazione NON normale

   Se la popolazione non è normale si può applicare il seguente
   risultato.

         TEOREMA DEL LIMITE CENTRALE (TLC)

   Per un campione casuale di dimensione n estratto da una
   popolazione con media µ e deviazione standard σ, al crescere della
   dimensione campionaria n, la distribuzione campionaria della
   media campionaria X̄ si avvicina sempre di più a una distribuzione
   approssimativamente normale coi seguenti parametri:
                                           σ
                          µX̄ = µ   σX̄ = √ .
                                            n

   Si considera n sufficientemente grande a partire da n ≥ 30.

                                                                        21 / 26
Teorema del limite centrale

    I   Qualunque sia la distribuzione delle variabili Xi , si può quindi
        affermare che la distribuzione di X̄ è approssimativamente
        normale con media µ e varianza σ 2 /n, per n sufficientemente
        grande

                                                                            22 / 26
La proporzione campionaria

  Molto spesso si è interessati a studiare la proporzione di oggetti con delle
  specifiche caratteristiche in una popolazione:
    I   la proporzione di semi che sopravvivono un anno dopo essere stati
        piantati;
    I   la proporzione di una specie animale in un’area protetta;
    I   la proporzione di alberi infettati da un parassita in un’area.
  La proporzione è associata ad una variabile casuale discreta binaria di
  tipo successo o insuccesso, in quanto la caratteristica studiata può
  presentarsi o meno.
  Stiamo quindi descrivendo una variabile casuale binomiale e la
  popolazione segue una distribuzione binomiale con probabilità
  determinata dalla proporzione di successi osservati in n prove.

                                                                                 23 / 26
La proporzione campionaria

                p = proporzione della popolazione che possiede
                   una certa caratteristica
  Se selezioniamo un campione di n osservazioni da una popolazione
  binomiale con parametro p,e indichiamo con xi = 1 il successo e
  con xi = 0 l’insuccesso, allora la media campionaria sarà la
  proporzione di successi:
                                 n
                                 X xi          numero di successi
                     x̄ = p̂ =             =
                                 i=1
                                       n              n

  la proporzione campionaria fornisce una stima della proporzione
  reale.
    I   0 ≤ p̂ ≤ 1

                                                                     24 / 26
La proporzione campionaria
  Indichiamo con
                                                                     n
                         Y   numero di successi                      X
                  P̂ =     =                    ,            Y=            Xi
                         n          n                                i=1

  la variabile casuale che considera le proporzioni di successo in n prove

  Si ha che
                                                              
                              Y             2                Y           p(1 − p)
              E(P̂) = E               =p   σP̂   = var               =
                              n                              n              n
  Se n è sufficientemente grande (n ≥ 30), allora per il TLC la distribuzione
  della proporzione campionaria è approssimativamente normale

                                                                                    25 / 26
Proporzione campionaria: esercizio
  La proporzione, p, di carciofi infettati da un certo parassita in una
  piantagione è 0.04. Qual è la probabilità che, in un campione di 45
  carciofi, la proporzione di carciofi infettati sia maggiore di 0.07?
  n ≥ 30 e di conseguenza possiamo usare l’approssimazione normale con
                                r            r
                                          p(1 − p)     0.04(0.96)
          E(P̂) = p = 0.04      σP̂ =              =              ≈ 0.02921
                                             n             45

  Costruiamo la variabile Z standardizzata sottraendo il valor medio e
  dividendo per la deviazione standard:
                         0.07 − 0.04
                               
  P(P̂ > 0.07) = P Z >                  ≈ P(Z > 1.03) ≈ 1−P(Z < 1.03) ≈ 1−0.8485 ≈ 0.1515
                           0.02921

                                                                                    26 / 26
Puoi anche leggere