STATISTICA DESCRITTIVA - PRIMA PARTE

Pagina creata da Claudio Guerra
 
CONTINUA A LEGGERE
STATISTICA DESCRITTIVA - PRIMA PARTE
PRIMA PARTE

STATISTICA DESCRITTIVA

                         1
PRIMA UNITA’

                             Primi concetti elementari
1. Che cos’è la statistica

   La statistica si occupa della raccolta, presentazione ed elaborazione delle informazioni, in
   genere rappresentate in forma numerica (i dati), per agevolarne l’analisi e
   l’interpretazione e prendere le decisioni conseguenti.

Le informazioni si raccolgono esaminando un insieme chiaramente definito di persone, cose,
fenomeni, che assume il nome generico di “popolazione” o “collettivo”. Occorre sottolineare il fatto
che l’uso della parola “popolazione” non implica la considerazione solo di persone, bensì si
possono prendere in esame anche oggetti e fenomeni. A esempio, si può studiare in un sistema di
produzione di lampadine elettriche quale percentuale di esse si presenta difettosa e di conseguenza
prendere le decisioni opportune per migliorare il sistema produttivo o per cambiarlo. In questo caso
la “popolazione” o “collettivo” è l’insieme delle lampadine prodotto.

In statistica una popolazione (o collettivo) è un insieme di elementi ben definito, che costituisce
il campo di indagine. Ciascuno degli elementi dell’insieme considerato viene chiamato “unità
statistica”. Occorre però subito precisare alcune cose. Spesso non costituisce una popolazione o
collettivo l’insieme delle persone o degli oggetti che sono presi in considerazione, bensì una loro
particolare proprietà, a esempio per le persone l’altezza, per gli oggetti il loro peso, ecc.; oppure una
pluralità di proprietà. In genere si tratta di proprietà o grandezze misurabili, per le quali cioè è
possibile stabilire una unità di misura e un procedimento di misurazione. La proprietà oggetto di
analisi è genericamente chiamata carattere della popolazione. Normalmente un carattere può
assumere più valori, individuabili preventivamente, esso cioè è mutabile (il carattere può mutare)
La maniera o forma con cui un carattere si presenta è denominato modalità (modalità con cui si
presenta un carattere).

La terminologia matematica permette di denominare: a) variabile qualsiasi carattere mutabile; b)
valori della variabile, le modalità con cui esso si presenta. Notiamo a questo punto come
tradizionalmente in statistica si preferisse riservare i termini di variabile e valori della variabile al
caso di caratteri di natura quantitativa (come preciseremo in seguito). Noi useremo in maniera
abbastanza costante questa ultima terminologia (salvo ricordare le altre forme linguistiche che sono
ancora abbastanza diffuse).

2. La raccolta dei dati

Consideriamo l’insieme degli studenti della Facoltà di Scienze dell’Educazione,: esso costituisce in
questo esempio la popolazione da esaminare. Uno dei caratteri di tale popolazione è il genere
(maschile e femminile). Una variabile o carattere di questo tipo è duale, cioè si manifesta secondo
due specifiche modalità, essa può assumere solo due valori. In generale, quando un carattere o
variabile può assumere solo un numero finito e discreto (non continuo) di valori esso viene
denominato carattere discreto o variabile discreta. A esempio, il numero dei fratelli di uno
studente è una variabile discreta. Ci sono casi, invece, nei quali la variabile può assumere valori
infiniti e continui, almeno in un intervallo come è il caso dell’altezza di una persona. In questi casi
si parla di variabile continua. L’età di una popolazione è un carattere continuo (o variabile
continua), perché può assumere valori (modalità) che vanno da un minimo a un massimo con
continuità.

                                                                                                       2
Gli studenti della Facoltà di Scienze dell’Educazione sono distribuiti secondo i vari curricoli
frequentati. Ciascuno studente (elemento della popolazione) possiede una proprietà particolare che
lo caratterizza: quella di appartenere a un curricolo di studi. Quante modalità può assumere questo
carattere? Nella Facoltà ci sono sei curricoli, quindi le modalità secondo cui si può presentare
questo carattere sono sei: è una variabile discreta che può assumere sei valori. A titolo di esempio
leggiamo una ipotetica frequenza dei vari curricoli nell’anno accademico 2000-2001, includendo
studenti ordinari, straordinari e ospiti.

Curricolo       PedComMed       Ped Sc e Fp      Ped Sociale   Ped Vocaz   Psic Educ      Catechetica
Studenti             52              97               87           112         357            98

Quanti studenti appartengono ai vari curricoli della Facoltà nell’anno accademico 2005-2006?
Quanti sono tutti insieme? Ecco una prima forma di indagine statistica applicata alla popolazione in
esame. Naturalmente sarebbe difficile andare a intervistare ciascuno studente per sapere a quale
curricolo appartiene. Questa informazione è assai più facile prenderla direttamente da una fonte
affidabile. In questo caso è la Segreteria generale.

Si chiama frequenza il numero di volte secondo cui si presenta una certa modalità del
carattere (o valore della variabile). Nel nostro caso si tratta del numero degli studenti appartenenti
a ogni singolo curricolo.

La statistica insegna a riassumere in tabelle appropriate le frequenze raccolte circa la modalità del
carattere prescelto (o valori della variabile considerata). In tali tabelle si possono individuare varie
colonne nelle quali si indicano: la modalità del carattere (valore della variabile), la sua frequenza
assoluta (numero di casi riscontrati), la sua frequenza relativa (rapporto tra frequenza assoluta e
numero della popolazione considerata), la sua frequenza percentuale (prodotto della frequenza
relativa per cento); la frequenza percentuale cumulata (accumulo progressivo delle frequenze
percentuali), frequenza percentuale retrocumulata (reciproco della frequenza relativa). Rifletteremo
ulteriormente su questa maniera di rappresentare i dati in tabelle riassuntive.

Statistica generale dell’Università Pontificia Salesiana.

                                                                                                        3
3. Tipologia dei caratteri

La scelta della proprietà, o delle proprietà, che identificano il carattere preso in esame può
riguardare variabili di natura differente. In statistica si distinguono i seguenti caratteri (o variabili).

Caratteri qualitativi: si tratta di proprietà di natura non numerica come l’appartenenza a un
curricolo, la nazionalità o la lingua materna parlata. Come già ricordato, tradizionalmente questi
caratteri vengono anche detti mutabili (che cioè possono mutare, cambiare). Un carattere qualitativo
mutabile si articola in genere secondo alcune modalità. La quantificazione avviene mediante il
conteggio delle unità statistiche che appartengono alle singole modalità con sui si presenta il
carattere mutabile. Si vengono a costituire in questo modo alcuni insiemi, o classi, che raccolgono
tutte le unità statistiche che partecipano della stessa modalità del carattere. Tali insiemi o classi
sono disgiunti, cioè non esistono elementi cha appartengano a due insiemi diversi.

Caratteri quantitativi (in generale denominati variabili): si tratta di proprietà che possono essere
misurate e la cui misura si esprime mediante numeri. Spesso questi caratteri sono variabili continue,
in quanto le unità statistiche possono assumere tutti i valori numerici contenuti nell’intervallo
considerato, come a esempio l’altezza degli studenti in cm.

4. Tipologia delle scale

Osservazione.
Talora si dice che sia i caratteri (o variabili) qualitativi, sia quelli quantitativi vengono misurati. Ciò
sta a significare che viene espressa in valori numerici la frequenza con cui essi sono presenti nella
popolazione, dando luogo a quelle che sono chiamate, in alcuni casi un po’ impropriamente, scale.

Scale (o misure) nominali o scale di natura classificatoria. Si tratta più che di scale (che
sembrano evocare impropriamente un ordine) di raccolta delle frequenze con cui compaiono le
diverse modalità di un carattere qualitativo. Si vengono a formare così alcuni insiemi o classi
caratterizzate da una modalità e dalle frequenza con cui questa compare. Queste classi non possono
essere ordinate tra loro. Si tratta, infatti, di classificazioni realizzate in base alle modalità con cui si
può presentare un carattere qualitativo, come l’appartenenza a una Facoltà o a un curricolo di studi.
I membri di ciascuna classe sono raggruppati in base al principio di equivalenza, cioè sono
equivalenti rispetto alla proprietà considerata, ma ha senso ordinare tra loro né le classi né gli
elementi statistici. Se c’è un ordine di presentazione delle differenti classi, questo è del tutto
arbitrario.

Scale (o misure) ordinali o scale per ranghi. In questo caso si ha una graduazione che permette di
ordinare le modalità con cui compaiono i caratteri qualitativi. I dati raccolti sono distribuiti secondo
le differenti modalità del carattere qualitativo in classi separate tra loro, ma le classi rispettano un
ordine. Si dice che le unità statistiche sono ordinate per ranghi, cioè per classi ordinate. Questo tipo
di scale è spesso utilizzato nei questionari, soprattutto quando si vuole rilevare, a esempio, il grado
di soddisfazione nei riguardi di un prodotto o di un corso. “E’ soddisfatto del corso seguito? per
niente, poco, abbastanza, molto, del tutto”. “Come valuta la prestazione dello studente? Mediocre,
sufficiente, buona, ottima”. La classificazione degli alberghi è di questa natura (da una stella a
cinque stelle). Oltre al principio di equivalenza, qui viene considerato quello di ordine. Le varie
classi, o le singole unità statistiche, sono ordinate sulla base di un principio o criterio di riferimento.
Gli alberghi sono considerati equivalenti come qualità in base al numero di stelle che li
caratterizzano, ma ordinati, sulla base della quantità progressiva di stelle loro assegnate.

                                                                                                          4
Scale (o misure) per intervallo. Si tratta di caratteri quantitativi (o variabili) i cui valori possono
essere confrontati tra loro, misurando le loro differenze, ma tra di essi non si possono eseguire
rapporti. Un caso classico è dato dalla temperatura in gradi Celsius o Farenheit. Dal momento che si
assume come zero un valore convenzionale, e arbitrario, è impossibile dire che la temperatura di 30
gradi è il doppio di quella di 15 gradi, ma si può dire che la differenza tra le due temperatura è di 15
gradi. C’è una scala di temperature che consente non solo di eseguire differenze, ma anche rapporti:
è la scala delle temperature detta assoluta o di Kelvin, Essa ha infatti uno zero assoluto, il minimo
che può assumere una temperatura. Essa è un esempio della scale seguenti.

Scale (o misure) per rapporto. Si tratta di caratteri quantitativi (o variabili) i cui valori possono
essere confrontati tra loro sia calcolando le loro differenze, sia i loro rapporti, cioè è possibile
eseguire su di essi tutte le operazioni aritmetiche. Si tratta in genere delle grandezze misurabili che
hanno uno zero assoluto come l’altezza, la massa, il reddito personale, ecc.
La scelta della proprietà, o delle proprietà, può concentrarsi su variabili di natura differente. In
statistica si distinguono le seguenti variabili (o caratteri).

5. I dati molte volte vanno raggruppati in classi o intervalli

In una indagine psicologica si è voluto rilevare di una popolazione scolastica il cosiddetto quoziente
intellettuale (QI) degli studenti. Si trattava di misurare mediante un apposito strumento di
rilevazione il livello di intelligenza di ciascuno studente sulla base della definizione di intelligenza
operazionale adottata. In questo caso si è utilizzato un tradizionale reattivo: il test di intelligenza
denominato Standford-Binet. La popolazione scolastica a cui è stato somministrato il test era
composto da varie centinaia di soggetti compresi tra 15 e 18 anni. Dalla documentazione ricavata
sono stati estratti a caso i risultati ottenuti da 110 studenti. Si tratta di quello che può essere definito
un campione della popolazione scolastica. In generale per campione di una popolazione si intende
un suo sottoinsieme sufficientemente rappresentativo della totalità. Vedremo in seguito non solo
l’importanza di questo modo di operare, ma anche le condizioni perché esso sia valido e affidabile.

I dati raccolti sul QI degli elementi statistici del campione sono quelli riportati nella tabella.

              154      131      122      100     113      119      121      128      112      93
              133      119      115      117     110      104      125       85      120     135
              116      103      103      121     109      147      103      113      107      98
              128       93       90      105     118      134       89      143      108     142
               85      108      108      136     115      117      110       80      111     127
              100      100      114      123     126      119      122      102      100     106
              105      111      127      108     106       91      123      132       97     110
              150      130       87       89     108      137      124       96      111     101
              118      104      127       94     115      101      125      129      131     110
               97      135      108      139     133      107      115       83      109     116
              110      113      112       82     114      112      113      142      145     123

Tab. 1.1 - Punteggi ottenuti da un campione di popolazione scolastica in un test di intelligenza.

Osservando i numeri della tabella, ci si rende conto che non è possibile farsene un’idea chiara a
meno che non li si organizzino in modo sistematico. Il primo passaggio è quello di ordinarli dal più
alto al più basso (o dal più basso al più alto) e successivamente tracciare una lineetta verticale ogni
qual volta ricorre lo stesso punteggio. Il numero di lineette per ogni punteggio rappresenta la
frequenza dei punteggi stessi.

                                                                                                          5
In questo modo si costruisce una distribuzione di frequenza ( f ) su dati non raggruppati in classi. Si
può notare che i punteggi sono molto sparsi. Vengono anche a mancare anche alcuni punteggi
intermedi. Non c’è una chiara indicazione “visiva” della tendenza generale. In casi come questi
molti ricercatori sono soliti raggruppare i punteggi in classi o intervalli, per poi costruire la
distribuzione di frequenza sui dati così raggruppati ( fi , dove il piccolo i si riferisce ai vari intervalli
considerati).

Raggruppare per intervalli implica una sorta di restringimento della scala. mediante la quale
assegniamo punteggi a classi che si escludono a vicenda. Le classi stesse sono definite in base alla
procedura di raggruppamento impiegata.

                X           ƒ    X            ƒ       X                ƒ     X        ƒ
               154      |       135         ||       116         ||         97       ||
               153              134         |        115         ||||       96       |
               152              133         ||       114         ||         95
               151              132         |        113         ||||       94       |
               150      |       131         ||       112         |||        93       ||
               149              130         |        111         |||        92
               148              129         |        110         |||||      91       |
               147      |       128         ||       109         ||         90       |
               146              127         |||      108         ||||||     89       ||
               145      |       126         |        107         ||         88
               144              125         ||       106         ||         87       |
               143      |       124         |        105         ||         86
               142      ||      123         |||      104         ||         85       ||
               141              122         ||       103         |||        84
               140              121         ||       102         |          83       |
               139      |       120         ||       101         ||         82       |
               138              119         |||      100         ||||       81
               137      |       118         ||        99                    80           |
               136      |       117         ||        98         |

Tab. 1.2 - Forma di registrazione delle frequenze dei dati raccolti.

Due sono principalmente i motivi per cui si effettua il raggruppamento:
1) è scomodo e dispersivo lavorare con un gran numero di casi sparsi, a meno che non si disponga
di un calcolatore;
2) alcuni punteggi hanno una frequenza talmente bassa (in alcuni casi mancano anche quelli
intermedi) ed è difficile mantenerli come entità separate e distinte.

D’altra parte, è naturale che raggruppare significhi inevitabilmente perdere informazioni. Per
esempio, i punteggi individuali perdono la loro identità quando li raggruppiamo per intervalli, ed
alcuni piccoli errori sono inevitabili nella determinazione di statistiche su punteggi raggruppati.

A questo punto il problema diventa il seguente: “Su quale base decidiamo di raggruppare negli
intervalli di cui faremo uso in seguito?” Ovviamente, l’intervallo scelto non deve essere così
grossolano da farci perdere la capacità di discriminazione, dataci dalla nostra misurazione originale.
Per esempio, se dividessimo i punteggi dei quozienti QI in due classi, cioè quelli al di sopra di 100 e
quelli al di sotto, andrebbero perdute praticamente tutte le informazioni inerenti ai punteggi
originali.

                                                                                                           6
D’altra parte, la divisione per intervalli (o in classi) non deve essere così numerosa da non
usufruire dei vantaggi derivanti dal raggruppamento stesso. Non ci sono regole generali. Il più delle
volte la scelta del numero degli intervalli è un giudizio basato sulla considerazione degli effetti del
raggruppamento sull’utilità e funzionalità della presentazione complessiva dei dati. In genere si
nota che nel caso di indagini psico-pedagogiche ci si orienta verso un numero ri raggruppamenti
minore di 20.

Avendo deciso il numero di classi più appropriato in cui ripartire un insieme di dati, le procedure
per assegnare i punteggi agli intervalli sono molto semplici.

PASSO 1 - Trovare la differenza fra il più alto ed il più basso punteggio nei dati originari.
Addizionare 1 per ottenere il numero totale di punteggi effettivi o potenziali. In questo esempio il
risultato è (154 — 80) + 1 = 75.

PASSO 2 - Dividere questo numero per 15 a1 fine di valutare il numero dei punteggi effettivi o
potenziali appartenenti a ciascun intervallo. Se il valore risultante non è un numero intero, e di
solito non lo è, si preferisce arrotondarlo. Nell’esempio il numero di punteggi per ogni intervallo è
75/15 = 5. L’intervallo viene indicato con il simbolo i. In questo caso abbiamo i = 5.

PASSO 3 - Prendere il punteggio più piccolo come estremo inferiore del primo intervallo.
Sommare (i - 1) a questo punteggio, per ottenere il punteggio più elevato dell’intervallo inferiore.
Così la classe inferiore per i nostri dati è 80-84.

PASSO 4 - Il successivo intervallo, nell’ordine, comincia con il numero intero successivo al valore
massimo dell’intervallo precedente. In questo esempio il numero intero successivo è 85. Per
ottenere il massimo punteggio del secondo intervallo si segue la stessa procedura di cui al Passo 3.
Si segue infine la stessa procedura per ogni classe successiva, finché ogni punteggio viene incluso
nella propria classe (intervallo).

PASSO 5 - Assegnare ciascun punteggio all’intervallo cui appartiene. La distribuzione di frequenza
della tabella seguente è stata ottenuta con la procedura fin qui spiegata.

             INTERVALLO            ƒ                       ƒ                        ƒ
               150-154             2        125-129        9       100-104         12
               145-149             2        120-124        9         95-99          4
               140-144             3        115-119       13         90-94          5
               135-139             5        110-114       17         85-89          5
               130-134             7        105-109       14         80-84          3
                                                                              N = 110

Tab.1.3 - Dati raggruppati per classi o per intervalli.

Si può notare che con il raggruppamento si è ottenuto un quadro immediato della distribuzione dei
punteggi del QI fra gli studenti del campione della scuola. Per esempio, si può notare
l’addensamento delle frequenze nelle classi comprese fra i punteggi 100 e 119. È evidente che il
numero di punteggi nelle estremità tende ad assottigliarsi. Si è così raggiunto uno degli obiettivi da
conseguire mediante il raggruppamento, un inquadramento economico e pratico dei punteggi.

                                                                                                     7
Osservazioni sul modo di registrare e utilizzare i dati

Occorre però avanzare anche una parola di cautela. La maggior parte dei punteggi usati dagli
studiosi delle scienze psico-pedagogiche sono rappresentati da numeri interi piuttosto che
frazionari. E’ per questa ragione che vengono utilizzati numeri interi. Tuttavia, si dà il caso che in
certe occasioni i punteggi siano espressi in cifre decimali, come ad esempio nel caso del tempo di
reazione a uno stimolo. In alcuni testi viene indicato un modo semplice di risolvere il problema:
comportarsi come se i decimali non esistessero affatto. In altri termini, si può trattare ogni
punteggio come se fosse un numero intero. I decimali possono essere inseriti all’ultimo momento.
Così se nel nostro esempio il più alto punteggio fosse 1,54 ed il più basso 0,80 i calcoli sarebbero
stati esattamente gli stessi. Alla fine, comunque, l’intervallo più elevato sarebbe stato trasformato
in 1,50—1,54, mentre il più basso in 0,80—0,84, con tutti i mutamenti del caso. L’ampiezza della
classe sarebbe stata mutata in 0,05.

Occorre ricordare anche che in ogni misurazione di variabile continua c’è sempre un margine di
errore, cioè la misura non è mai perfetta e il reale valore può essere solo inquadrato. In genere ciò
si fa considerando il suo valore osservato più o meno la metà dell’unità di misura. La stessa
considerazione vale anche per i valori raggruppati in intervalli. Così, sebbene definiamo gli
estremi della classe inferiore come 80-84, i veri estremi dell’intervallo sono in effetti 79,5—84,5
(rispettivamente il più basso estremo effettivo di 80 e il più alto estremo effettivo di 84). E’ utile
ricordare questo aspetto della misurazione, anche se spesso esso viene sottinteso, soprattutto nella
pratica statistica elementare.

La costruzione di tabelle riassuntive dei dati raccolti

Una volta raccolto un insieme di dati risultato di misure quantitative occorre in primo luogo
ordinarli (in maniera crescente o decrescente, secondo quella che si chiama una distribuzione
ordinata di valori o serie statistica). Il valore minimo e il valore massimo della serie permettono di
individuare subito il campo, o intervallo, di variazione dei dati (in inglese range). Ciascuno di
questi dati, genericamente indicato con una X maiuscola, è denominato dato grezzo.

Successivamente, la serie può essere raggruppata in classi, che contengono ciascuna un certo
numero di valori o unità statistiche. Si ottiene così una distribuzione di frequenza o di intensità (f).
Se la generica classe è identificata con una i, la relativa frequenza viene indicata con fi.

Frequenza assoluta di una classe è il numero di volte con cui compare un valore compreso nella
classe. Frequenza relativa della classe è la sua frequenza assoluta divisa per il numero
complessivo dei dati raccolti, normalmente indicato con N.

Spesso, inoltre, è utile o necessario riorganizzare i dati di una distribuzione di frequenza in una
distribuzione di frequenze cumulate. Oltre che essere di aiuto nell’interpretazione della
distribuzione di frequenze, la distribuzione delle frequenze cumulate serve per determinare sia la
posizione mediana che varie posizioni percentili di dati punteggi, come vedremo in seguito.

La distribuzione di frequenze cumulate si ottiene in un modo semplice e lineare. Osserviamo i dati
della tabella 1.4.

Le righe nella distribuzione di frequenza indicano il numero di studenti appartenente a ciascuna
classe. Ciascuna riga entro la distribuzione delle frequenze cumulate indica il numero di casi, o

                                                                                                      8
frequenza, che sono al di sotto del più alto estremo affettivo di quell’intervallo. Così, nella terza
classe partendo dal basso della Tabella, la cifra 13 nella distribuzione della frequenze cumulate
indica che un totale di 13 studenti si trova al di sotto del più alto estremo effettivo dell’intervallo,
che è 94,5. Le cifre della distribuzione delle frequenze cumulate si ottengono da un processo
semplice di addizioni successive delle cifre nella colonna delle frequenze. La frequenza cumulata
corrispondente all’estremo superiore effettivo dell’intervallo 105—109 è ottenuta da successive
addizioni di 3 + 5 + 5 + 4 + 12 + 14 = 43. Si può notare che il valore finale nella colonna della
frequenze cumulate è sempre uguale a N. Se non si ottiene questo risultato, si è sbagliato nella
determinazione delle frequenze cumulate e si deve ricontrollare il lavoro fatto.

                                                         FREQUENZA          PERCENTUALE
                    INTERVALLO                ƒ
                                                         CUMULATA ƒ         CUMULATA %
                       150-154               2                 110                100
                       145-149               2                 108                 98
                       140-144               3                 106                 96
                       135-139               5                 103                 94
                       130-134               7                  98                 89
                       125-129               9                  91                 83
                       120-124               9                  82                 75
                       115-119              13                  73                 66
                       110-114              17                  60                 55
                       105-109              14                  43                 39
                       100-104              12                  29                 26
                        95-99                4                  17                 15
                        90-94                5                  13                 12
                        85-89                5                   8                  7
                        80-84                3                   3                  3

Tab. 1.4 - Frequenze cumulate nel caso di dati raggruppati in classi.

La distribuzione percentuale delle frequenze si ottiene dalle frequenze relative moltiplicate per
100. Di conseguenza la distribuzione delle frequenze cumulate relative espresse in percentuale è
ottenuta dividendo ciascun numero nella colonna delle frequenze cumulate per N e moltiplicandolo
poi per 100. Il numero più alto deve essere 100% perché tutti i casi si trovano al di sotto del più alto
estremo effettivo dell’intervallo superiore.

Se introduciamo il simbolo Σ per indicare “fai la somma”, si può scrivere in maniera sintetica:

Σ f per indicare la somma della frequenze assolute; tale somma deve essere uguale a N (numero
totale delle unità statistiche). Σ f = N.

Σ fi per indicare la somma delle frequenze assolute per ciascuna classe (o intervallo) i. Anche in
questo caso la somma deve essere uguale a N (numero totale delle unità statistiche). Σ fi = N.

Sintesi dell’unità
In questa unità sono stati introdotti, dopo una definizione generica di statistica, alcuni concetti
elementari della statistica. In particolare i concetti di popolazione e di unità statistica, di carattere o
variabile, di carattere qualitativo e quantitativo, di scala nominale, ordinale, per intervallo e per
rapporto.

                                                                                                         9
Successivamente è stato spiegato come si possono raccogliere e rappresentare i dati grezzi sotto
forma di tabelle, come si possono contare le frequenze di ciascun punteggio e rappresentare i dati
raggruppati secondo classi o intervalli.

Le tabelle complessive riassuntive possono contenere varie colonne che comprendono in genere: la
colonna dei dati grezzi (a es. i punteggi raccolti), eventualmente raggruppati secondo classi o
intervalli; la colonna delle frequenze assolute dei dati; la colonna delle frequenze relative espresse
sotto forma di percentuale; la colonna delle frequenze assolute cumulate; la colonna delle frequenze
percentuali cumulate.

Termini da ricordare
Popolazione o Universo - Un insieme completo di individui, oggetti, o misure aventi una
caratteristica comune, oggetto dell’osservazione.

Campione di una popolazione - Un sottoinsieme di una popolazione o di un universo.

Carattere mutabile - Una caratteristica o fenomeno che può assumere un insieme di valori diversi,
detti anche modalità del carattere.

Parametro - Qualunque caratteristica misurabile di una popolazione.

Statistiche - Raccolta di fatti quantitativi espressi in termini sintetici.

Scale Nominali - Variabili con modalità qualitative non ordinabili.

Scale Ordinali - Sono scale in cui le modalità, o classi, sono tra loro in relazione algebrica del tipo
minore o maggiore. (cioè a < b oppure a > b).

Scale per intervallo - Scale quantitative che consentono l’uso di operazioni aritmetiche. Lo zero in
queste scale è arbitrario.

Scale per rapporto - Sono simili alle scale per intervallo, a parte il fatto che lo zero è effettivo.

Dati grezzi - Numeri o misure ottenute in base a delle osservazioni.

Classi o intervalli di dati - Insiemi di dati raggruppati per sottoinsiemi o intervalli.

Frequenze assolute - Le occorrenze di una variabile spesso raggruppate in classi

Frequenze percentuali - Le occorrenze di una variabile espresse sotto forma di percentuale.

Frequenze cumulate - Numero di casi (frequenze) che non superano un dato livello.

Scale continue - Scale in cui una variabile può assumere un qualsivoglia numero di valori
intermedi.

Scale discontinue (scale discrete) - Scale in cui la variabile può assumere solo un numero finito di
determinazioni.

                                                                                                        10
Statistica descrittiva - Procedure utilizzate per organizzare e presentare i dati in maniera
conveniente, pratica e comunicabile.

Inferenza statistica (Induzione statistica) - Procedure utilizzate per raggiungere conclusioni più
ampie o per effettuare inferenze dai dati del campione alla popolazione.

Richiami di matematica

1. Rapporto tra due numeri

Può essere espresso sotto forma di frazione 3/4, sotto forma di divisione 3 : 4, sotto forma di
numero decimale 0,75 o sotto forma di percentuale 75 %. Il valore percentuale di un rapporto
espresso sotto forma decimale si può ottenere moltiplicandolo per 100.

2. Il concetto di proporzione

Una proporzione è data dall’uguaglianza di due rapporti. A esempio 3 : 4 = 6 : 8. Si legge “3 sta a 4
come 6 sta a 8”. I valori e 8 sono detti estremi della proporzione, mentre 4 e 6 sono denominati
medi della proporzione.

Spesso si deve trovare un valore incognito che renda vera una proporzione. A esempio:
 5 : 10 = 4 : x.
Il valore di x si trova risolvendo la proporzione. La regola che permette di calcolare il valore di x
deriva dalla proprietà fondamentale delle proporzioni: “il prodotto dei medi è uguale al prodotto
degli estremi”. Nel nostro caso:
5x = 40
da cui si ottiene x = 40/5 = 8.

3. Calcolo di una percentuale

Per calcolare una percentuale si può ricorrere a una proporzione. Infatti il concetto di percentuale è
legato alla considerazione di una proporzione del tipo: “3 : 4 = x : 100”, cioè 3 sta a 4 come x sta a
100”. Risolvendo la proporzione si ha:
4x = 300
da cui x = 300 : 4 = 75

4. Applicazione al caso di tabelle di numeri

Considera la seguente tabella.

           4         10          14
           6         12          18
          10         22          32

I numeri scritti nelle prime due caselle della prima e della seconda riga sono numeri dati. Quelli
della terza colonna e della terza riga si ottengono nel modo sotto indicato.

      a. Si sommano i valori della prima e della seconda casella della prima riga e si scrive il
         risultato nella terza casella della riga.

                                                                                                   11
b. Si sommano i valori della prima e della seconda casella della seconda riga e si scrive il
         risultato nella terza casella della riga.
      c. Si sommano i valori della prima e della seconda casella della prima colonna e si scrive il
         risultato nella terza casella della colonna.
      d. Si sommano i valori della prima e della seconda casella della seconda colonna e si scrive
         il risultato nella terza casella della colonna.
      e. Si sommano i valori della prima e seconda casella della terza riga e si scrive il risultato
         nella terza casella della terza riga.
      f. Si sommano i valori della la prima e della seconda casella della terza colonna e si scrive il
         risultato nella terza casella della terza colonna.

Se consideriamo 32 corrispondente a 100, quale valore assumono i numeri della tabella? Occorre
ricorrere alle proporzioni e si può utilizzare il concetto di percentuale.

4 : 32 = x : 100         32x = 400    da cui x = 400/32 = 12,5
10 : 32 = x : 100        32x = 1000   da cui x = 1000/32 = 31,25
6 : 32 = x : 100         32x = 600    da cui x = 600/32 = 18,75
12 : 32 = x : 100        32x = 1200   da cui x = 1200/ 32 = 37,5

         12,5%       31,25%     42,75%
         18,75%      37,5%      56,25%
         31,25%      68,25%     100 %

Esercizi da sviluppare

1. Data la tabella seguente, calcolare i valori della terza casella delle righe e delle colonne seguendo
il procedimento indicato al precedente punto 4. Poi trasformare i valori della tabella in percentuali e
verificare che la terza casella della terza riga assume di valori dei 100%.

            9         12
           18         24

2. Data la tabella seguente, calcolare i valori della terza casella delle righe e delle colonne seguendo
il procedimento indicato. Poi trasformare i valori della tabella in percentuali e verificare che la terza
casella della terza riga assume di valori dei 100%.

           5          10
           10         25

3. Data la tabella seguente, calcolare i valori della terza casella delle righe e delle colonne seguendo
il procedimento indicato al precedente punto 4. Poi trasformare i valori della tabella in percentuali e
verificare che la terza casella della terza riga assume di valori dei 100%.

           32         43
           56         79

                                                                                                      12
5. Arrotondamenti

Un numero decimale con molte cifre dopo la virgola può essere arrotondato seguendo la seguente
regola:
a) alle unità, se la prima cifra decimale è inferiore a 5 (0 ,1 ,2 ,3 ,4) si scrive il numero delle unità e
   si trascura la parte decimale; se essa è uguale o superiore a 5 (5, 6, 7, 8, 9) si aggiunge uno alle
   unità e si trascura la restante parte decimale;
b) ai decimi (prima cifra decimale), se la seconda cifra decimale è inferiore a 5 (0 ,1 ,2 ,3 ,4) si
   scrive la prima cifra decimale e si trascura la restante parte decimale; se essa è uguale o
   superiore a 5 (5, 6, 7, 8, 9) si aggiunge uno ai decimi e si trascura la restante parte decimale;
c) ai centesimi (seconda cifra decimale), se la terza cifra decimale è inferiore a 5 (0 ,1 ,2 ,3 ,4) si
   scrive la seconda cifra decimale e si trascura la restante parte decimale; se essa è uguale o
   superiore a 5 (5, 6, 7, 8, 9) si aggiunge uno ai centesimi e si trascura la restante parte decimale.

Esercizi relativi alla prima unità

1. Dati i seguenti numeri -2; 3; -4; 5; 6 rappresenta il calcolo completo e indica il risultato accanto
ad ognuno dei seguenti esercizi.

   a.   ΣX =……..
   b.   ΣX2 = …….
   c.   (ΣX)2 = …….
   d.   Σ(X-2) = ……

   e. Verifica che ΣX2 ≠ (ΣX)2 (Per fare questa verifica occorre calcolare separatamente i due
termini dell'uguaglianza e verificare la relazione)

2. Dati i seguenti raggruppamenti o insiemi di numeri
X: 1; -2; 3; 4; 5   e Y: 6; 5; -4; 3; 2

calcola:
   a. ΣX =………
   b. ΣY =………
   c. Σ(X+Y) =……..
   d. Σ(X-Y) =…..…
   e. ΣX * ΣY =……..
   f. Σ(X*Y) =…..…

Verifica poi, che:
  g. Σ(X+Y) = ΣX + ΣY
  h. Σ(X+Y) = ΣX + ΣY
  i. Σ(X*Y) ≠ ΣX * Σ

3. Ricostruisci e completa la tabella indicando per ciascuna raccolta di dati quale tipo di carattere
(qualitativi, quantitativi; continui, discreti) e scala (nominale, ordinale, per intervallo, per rapporto)
richiede.

                                                                                                          13
Tipo di carattere        Tipo di scala
                 A        Altezze in cm
                 B        Tipo di occupazione
                 C        Titolo di studio
                 D        Numero di fratelli e sorelle
                 E        Nazionalità
                 F        Anno di corso

4. Arrotonda i seguenti numeri:

                                        Alla prima cifra decimale         Alla seconda cifra decimale
                A        43,406
                B        88,2816
                C        10,006
                D         2,9654
                E         1,0549
                F         5,0051

5. Nella seguente tabella è rappresentata una parziale e incompleta distribuzione delle frequenze
degli studenti iscritti ai vari curricoli universitari (studenti ordinari, straordinari, ospiti)
dell'Università Pontificia Salesiana.

Curricolo   Ped Com Med         Ped Sc e Fp        Ped Sociale      Ped Vocaz       Psic Educ        Past e Catec
Studenti            86                  102           125             98                364             147

Dopo aver ricostruito la tabella, indica per ciascun curricolo la frequenza assoluta; poi calcola N, la
frequenza relativa e la frequenza percentuale di ogni curricolo, completando ciò che manca.

6. I risultati dei voti in centesimi conseguiti da 40 individui che hanno partecipato ad un concorso di
statistica sono stati i seguenti

40     48      52        60        61         63    66      67       68       70      70      70
75     75      76        76        77         77    77      77       78       78      79      79
81     81      81        81        82         82    83      84       86       87      87      88
92     92      94        98

Dopo aver ordinato opportunamente questi valori e utilizzando un'ampiezza di intervallo i = 5,
esegui la rappresentazione in tabelle delle seguenti richieste:
   a) costruisci un distribuzione di frequenza;
   b) elenca i valori estremi e centrali di ogni intervallo;
   c) calcola la distribuzione di frequenza cumulata e retrocumulata;
   d) calcola la distribuzione di frequenza percentuale;
   e) calcola la distribuzione di frequenza percentuale cumulata e retrocumulata.

                                                                                                                14
Puoi anche leggere