STATISTICA DESCRITTIVA - PRIMA PARTE
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
PRIMA UNITA’ Primi concetti elementari 1. Che cos’è la statistica La statistica si occupa della raccolta, presentazione ed elaborazione delle informazioni, in genere rappresentate in forma numerica (i dati), per agevolarne l’analisi e l’interpretazione e prendere le decisioni conseguenti. Le informazioni si raccolgono esaminando un insieme chiaramente definito di persone, cose, fenomeni, che assume il nome generico di “popolazione” o “collettivo”. Occorre sottolineare il fatto che l’uso della parola “popolazione” non implica la considerazione solo di persone, bensì si possono prendere in esame anche oggetti e fenomeni. A esempio, si può studiare in un sistema di produzione di lampadine elettriche quale percentuale di esse si presenta difettosa e di conseguenza prendere le decisioni opportune per migliorare il sistema produttivo o per cambiarlo. In questo caso la “popolazione” o “collettivo” è l’insieme delle lampadine prodotto. In statistica una popolazione (o collettivo) è un insieme di elementi ben definito, che costituisce il campo di indagine. Ciascuno degli elementi dell’insieme considerato viene chiamato “unità statistica”. Occorre però subito precisare alcune cose. Spesso non costituisce una popolazione o collettivo l’insieme delle persone o degli oggetti che sono presi in considerazione, bensì una loro particolare proprietà, a esempio per le persone l’altezza, per gli oggetti il loro peso, ecc.; oppure una pluralità di proprietà. In genere si tratta di proprietà o grandezze misurabili, per le quali cioè è possibile stabilire una unità di misura e un procedimento di misurazione. La proprietà oggetto di analisi è genericamente chiamata carattere della popolazione. Normalmente un carattere può assumere più valori, individuabili preventivamente, esso cioè è mutabile (il carattere può mutare) La maniera o forma con cui un carattere si presenta è denominato modalità (modalità con cui si presenta un carattere). La terminologia matematica permette di denominare: a) variabile qualsiasi carattere mutabile; b) valori della variabile, le modalità con cui esso si presenta. Notiamo a questo punto come tradizionalmente in statistica si preferisse riservare i termini di variabile e valori della variabile al caso di caratteri di natura quantitativa (come preciseremo in seguito). Noi useremo in maniera abbastanza costante questa ultima terminologia (salvo ricordare le altre forme linguistiche che sono ancora abbastanza diffuse). 2. La raccolta dei dati Consideriamo l’insieme degli studenti della Facoltà di Scienze dell’Educazione,: esso costituisce in questo esempio la popolazione da esaminare. Uno dei caratteri di tale popolazione è il genere (maschile e femminile). Una variabile o carattere di questo tipo è duale, cioè si manifesta secondo due specifiche modalità, essa può assumere solo due valori. In generale, quando un carattere o variabile può assumere solo un numero finito e discreto (non continuo) di valori esso viene denominato carattere discreto o variabile discreta. A esempio, il numero dei fratelli di uno studente è una variabile discreta. Ci sono casi, invece, nei quali la variabile può assumere valori infiniti e continui, almeno in un intervallo come è il caso dell’altezza di una persona. In questi casi si parla di variabile continua. L’età di una popolazione è un carattere continuo (o variabile continua), perché può assumere valori (modalità) che vanno da un minimo a un massimo con continuità. 2
Gli studenti della Facoltà di Scienze dell’Educazione sono distribuiti secondo i vari curricoli frequentati. Ciascuno studente (elemento della popolazione) possiede una proprietà particolare che lo caratterizza: quella di appartenere a un curricolo di studi. Quante modalità può assumere questo carattere? Nella Facoltà ci sono sei curricoli, quindi le modalità secondo cui si può presentare questo carattere sono sei: è una variabile discreta che può assumere sei valori. A titolo di esempio leggiamo una ipotetica frequenza dei vari curricoli nell’anno accademico 2000-2001, includendo studenti ordinari, straordinari e ospiti. Curricolo PedComMed Ped Sc e Fp Ped Sociale Ped Vocaz Psic Educ Catechetica Studenti 52 97 87 112 357 98 Quanti studenti appartengono ai vari curricoli della Facoltà nell’anno accademico 2005-2006? Quanti sono tutti insieme? Ecco una prima forma di indagine statistica applicata alla popolazione in esame. Naturalmente sarebbe difficile andare a intervistare ciascuno studente per sapere a quale curricolo appartiene. Questa informazione è assai più facile prenderla direttamente da una fonte affidabile. In questo caso è la Segreteria generale. Si chiama frequenza il numero di volte secondo cui si presenta una certa modalità del carattere (o valore della variabile). Nel nostro caso si tratta del numero degli studenti appartenenti a ogni singolo curricolo. La statistica insegna a riassumere in tabelle appropriate le frequenze raccolte circa la modalità del carattere prescelto (o valori della variabile considerata). In tali tabelle si possono individuare varie colonne nelle quali si indicano: la modalità del carattere (valore della variabile), la sua frequenza assoluta (numero di casi riscontrati), la sua frequenza relativa (rapporto tra frequenza assoluta e numero della popolazione considerata), la sua frequenza percentuale (prodotto della frequenza relativa per cento); la frequenza percentuale cumulata (accumulo progressivo delle frequenze percentuali), frequenza percentuale retrocumulata (reciproco della frequenza relativa). Rifletteremo ulteriormente su questa maniera di rappresentare i dati in tabelle riassuntive. Statistica generale dell’Università Pontificia Salesiana. 3
3. Tipologia dei caratteri La scelta della proprietà, o delle proprietà, che identificano il carattere preso in esame può riguardare variabili di natura differente. In statistica si distinguono i seguenti caratteri (o variabili). Caratteri qualitativi: si tratta di proprietà di natura non numerica come l’appartenenza a un curricolo, la nazionalità o la lingua materna parlata. Come già ricordato, tradizionalmente questi caratteri vengono anche detti mutabili (che cioè possono mutare, cambiare). Un carattere qualitativo mutabile si articola in genere secondo alcune modalità. La quantificazione avviene mediante il conteggio delle unità statistiche che appartengono alle singole modalità con sui si presenta il carattere mutabile. Si vengono a costituire in questo modo alcuni insiemi, o classi, che raccolgono tutte le unità statistiche che partecipano della stessa modalità del carattere. Tali insiemi o classi sono disgiunti, cioè non esistono elementi cha appartengano a due insiemi diversi. Caratteri quantitativi (in generale denominati variabili): si tratta di proprietà che possono essere misurate e la cui misura si esprime mediante numeri. Spesso questi caratteri sono variabili continue, in quanto le unità statistiche possono assumere tutti i valori numerici contenuti nell’intervallo considerato, come a esempio l’altezza degli studenti in cm. 4. Tipologia delle scale Osservazione. Talora si dice che sia i caratteri (o variabili) qualitativi, sia quelli quantitativi vengono misurati. Ciò sta a significare che viene espressa in valori numerici la frequenza con cui essi sono presenti nella popolazione, dando luogo a quelle che sono chiamate, in alcuni casi un po’ impropriamente, scale. Scale (o misure) nominali o scale di natura classificatoria. Si tratta più che di scale (che sembrano evocare impropriamente un ordine) di raccolta delle frequenze con cui compaiono le diverse modalità di un carattere qualitativo. Si vengono a formare così alcuni insiemi o classi caratterizzate da una modalità e dalle frequenza con cui questa compare. Queste classi non possono essere ordinate tra loro. Si tratta, infatti, di classificazioni realizzate in base alle modalità con cui si può presentare un carattere qualitativo, come l’appartenenza a una Facoltà o a un curricolo di studi. I membri di ciascuna classe sono raggruppati in base al principio di equivalenza, cioè sono equivalenti rispetto alla proprietà considerata, ma ha senso ordinare tra loro né le classi né gli elementi statistici. Se c’è un ordine di presentazione delle differenti classi, questo è del tutto arbitrario. Scale (o misure) ordinali o scale per ranghi. In questo caso si ha una graduazione che permette di ordinare le modalità con cui compaiono i caratteri qualitativi. I dati raccolti sono distribuiti secondo le differenti modalità del carattere qualitativo in classi separate tra loro, ma le classi rispettano un ordine. Si dice che le unità statistiche sono ordinate per ranghi, cioè per classi ordinate. Questo tipo di scale è spesso utilizzato nei questionari, soprattutto quando si vuole rilevare, a esempio, il grado di soddisfazione nei riguardi di un prodotto o di un corso. “E’ soddisfatto del corso seguito? per niente, poco, abbastanza, molto, del tutto”. “Come valuta la prestazione dello studente? Mediocre, sufficiente, buona, ottima”. La classificazione degli alberghi è di questa natura (da una stella a cinque stelle). Oltre al principio di equivalenza, qui viene considerato quello di ordine. Le varie classi, o le singole unità statistiche, sono ordinate sulla base di un principio o criterio di riferimento. Gli alberghi sono considerati equivalenti come qualità in base al numero di stelle che li caratterizzano, ma ordinati, sulla base della quantità progressiva di stelle loro assegnate. 4
Scale (o misure) per intervallo. Si tratta di caratteri quantitativi (o variabili) i cui valori possono essere confrontati tra loro, misurando le loro differenze, ma tra di essi non si possono eseguire rapporti. Un caso classico è dato dalla temperatura in gradi Celsius o Farenheit. Dal momento che si assume come zero un valore convenzionale, e arbitrario, è impossibile dire che la temperatura di 30 gradi è il doppio di quella di 15 gradi, ma si può dire che la differenza tra le due temperatura è di 15 gradi. C’è una scala di temperature che consente non solo di eseguire differenze, ma anche rapporti: è la scala delle temperature detta assoluta o di Kelvin, Essa ha infatti uno zero assoluto, il minimo che può assumere una temperatura. Essa è un esempio della scale seguenti. Scale (o misure) per rapporto. Si tratta di caratteri quantitativi (o variabili) i cui valori possono essere confrontati tra loro sia calcolando le loro differenze, sia i loro rapporti, cioè è possibile eseguire su di essi tutte le operazioni aritmetiche. Si tratta in genere delle grandezze misurabili che hanno uno zero assoluto come l’altezza, la massa, il reddito personale, ecc. La scelta della proprietà, o delle proprietà, può concentrarsi su variabili di natura differente. In statistica si distinguono le seguenti variabili (o caratteri). 5. I dati molte volte vanno raggruppati in classi o intervalli In una indagine psicologica si è voluto rilevare di una popolazione scolastica il cosiddetto quoziente intellettuale (QI) degli studenti. Si trattava di misurare mediante un apposito strumento di rilevazione il livello di intelligenza di ciascuno studente sulla base della definizione di intelligenza operazionale adottata. In questo caso si è utilizzato un tradizionale reattivo: il test di intelligenza denominato Standford-Binet. La popolazione scolastica a cui è stato somministrato il test era composto da varie centinaia di soggetti compresi tra 15 e 18 anni. Dalla documentazione ricavata sono stati estratti a caso i risultati ottenuti da 110 studenti. Si tratta di quello che può essere definito un campione della popolazione scolastica. In generale per campione di una popolazione si intende un suo sottoinsieme sufficientemente rappresentativo della totalità. Vedremo in seguito non solo l’importanza di questo modo di operare, ma anche le condizioni perché esso sia valido e affidabile. I dati raccolti sul QI degli elementi statistici del campione sono quelli riportati nella tabella. 154 131 122 100 113 119 121 128 112 93 133 119 115 117 110 104 125 85 120 135 116 103 103 121 109 147 103 113 107 98 128 93 90 105 118 134 89 143 108 142 85 108 108 136 115 117 110 80 111 127 100 100 114 123 126 119 122 102 100 106 105 111 127 108 106 91 123 132 97 110 150 130 87 89 108 137 124 96 111 101 118 104 127 94 115 101 125 129 131 110 97 135 108 139 133 107 115 83 109 116 110 113 112 82 114 112 113 142 145 123 Tab. 1.1 - Punteggi ottenuti da un campione di popolazione scolastica in un test di intelligenza. Osservando i numeri della tabella, ci si rende conto che non è possibile farsene un’idea chiara a meno che non li si organizzino in modo sistematico. Il primo passaggio è quello di ordinarli dal più alto al più basso (o dal più basso al più alto) e successivamente tracciare una lineetta verticale ogni qual volta ricorre lo stesso punteggio. Il numero di lineette per ogni punteggio rappresenta la frequenza dei punteggi stessi. 5
In questo modo si costruisce una distribuzione di frequenza ( f ) su dati non raggruppati in classi. Si può notare che i punteggi sono molto sparsi. Vengono anche a mancare anche alcuni punteggi intermedi. Non c’è una chiara indicazione “visiva” della tendenza generale. In casi come questi molti ricercatori sono soliti raggruppare i punteggi in classi o intervalli, per poi costruire la distribuzione di frequenza sui dati così raggruppati ( fi , dove il piccolo i si riferisce ai vari intervalli considerati). Raggruppare per intervalli implica una sorta di restringimento della scala. mediante la quale assegniamo punteggi a classi che si escludono a vicenda. Le classi stesse sono definite in base alla procedura di raggruppamento impiegata. X ƒ X ƒ X ƒ X ƒ 154 | 135 || 116 || 97 || 153 134 | 115 |||| 96 | 152 133 || 114 || 95 151 132 | 113 |||| 94 | 150 | 131 || 112 ||| 93 || 149 130 | 111 ||| 92 148 129 | 110 ||||| 91 | 147 | 128 || 109 || 90 | 146 127 ||| 108 |||||| 89 || 145 | 126 | 107 || 88 144 125 || 106 || 87 | 143 | 124 | 105 || 86 142 || 123 ||| 104 || 85 || 141 122 || 103 ||| 84 140 121 || 102 | 83 | 139 | 120 || 101 || 82 | 138 119 ||| 100 |||| 81 137 | 118 || 99 80 | 136 | 117 || 98 | Tab. 1.2 - Forma di registrazione delle frequenze dei dati raccolti. Due sono principalmente i motivi per cui si effettua il raggruppamento: 1) è scomodo e dispersivo lavorare con un gran numero di casi sparsi, a meno che non si disponga di un calcolatore; 2) alcuni punteggi hanno una frequenza talmente bassa (in alcuni casi mancano anche quelli intermedi) ed è difficile mantenerli come entità separate e distinte. D’altra parte, è naturale che raggruppare significhi inevitabilmente perdere informazioni. Per esempio, i punteggi individuali perdono la loro identità quando li raggruppiamo per intervalli, ed alcuni piccoli errori sono inevitabili nella determinazione di statistiche su punteggi raggruppati. A questo punto il problema diventa il seguente: “Su quale base decidiamo di raggruppare negli intervalli di cui faremo uso in seguito?” Ovviamente, l’intervallo scelto non deve essere così grossolano da farci perdere la capacità di discriminazione, dataci dalla nostra misurazione originale. Per esempio, se dividessimo i punteggi dei quozienti QI in due classi, cioè quelli al di sopra di 100 e quelli al di sotto, andrebbero perdute praticamente tutte le informazioni inerenti ai punteggi originali. 6
D’altra parte, la divisione per intervalli (o in classi) non deve essere così numerosa da non usufruire dei vantaggi derivanti dal raggruppamento stesso. Non ci sono regole generali. Il più delle volte la scelta del numero degli intervalli è un giudizio basato sulla considerazione degli effetti del raggruppamento sull’utilità e funzionalità della presentazione complessiva dei dati. In genere si nota che nel caso di indagini psico-pedagogiche ci si orienta verso un numero ri raggruppamenti minore di 20. Avendo deciso il numero di classi più appropriato in cui ripartire un insieme di dati, le procedure per assegnare i punteggi agli intervalli sono molto semplici. PASSO 1 - Trovare la differenza fra il più alto ed il più basso punteggio nei dati originari. Addizionare 1 per ottenere il numero totale di punteggi effettivi o potenziali. In questo esempio il risultato è (154 — 80) + 1 = 75. PASSO 2 - Dividere questo numero per 15 a1 fine di valutare il numero dei punteggi effettivi o potenziali appartenenti a ciascun intervallo. Se il valore risultante non è un numero intero, e di solito non lo è, si preferisce arrotondarlo. Nell’esempio il numero di punteggi per ogni intervallo è 75/15 = 5. L’intervallo viene indicato con il simbolo i. In questo caso abbiamo i = 5. PASSO 3 - Prendere il punteggio più piccolo come estremo inferiore del primo intervallo. Sommare (i - 1) a questo punteggio, per ottenere il punteggio più elevato dell’intervallo inferiore. Così la classe inferiore per i nostri dati è 80-84. PASSO 4 - Il successivo intervallo, nell’ordine, comincia con il numero intero successivo al valore massimo dell’intervallo precedente. In questo esempio il numero intero successivo è 85. Per ottenere il massimo punteggio del secondo intervallo si segue la stessa procedura di cui al Passo 3. Si segue infine la stessa procedura per ogni classe successiva, finché ogni punteggio viene incluso nella propria classe (intervallo). PASSO 5 - Assegnare ciascun punteggio all’intervallo cui appartiene. La distribuzione di frequenza della tabella seguente è stata ottenuta con la procedura fin qui spiegata. INTERVALLO ƒ ƒ ƒ 150-154 2 125-129 9 100-104 12 145-149 2 120-124 9 95-99 4 140-144 3 115-119 13 90-94 5 135-139 5 110-114 17 85-89 5 130-134 7 105-109 14 80-84 3 N = 110 Tab.1.3 - Dati raggruppati per classi o per intervalli. Si può notare che con il raggruppamento si è ottenuto un quadro immediato della distribuzione dei punteggi del QI fra gli studenti del campione della scuola. Per esempio, si può notare l’addensamento delle frequenze nelle classi comprese fra i punteggi 100 e 119. È evidente che il numero di punteggi nelle estremità tende ad assottigliarsi. Si è così raggiunto uno degli obiettivi da conseguire mediante il raggruppamento, un inquadramento economico e pratico dei punteggi. 7
Osservazioni sul modo di registrare e utilizzare i dati Occorre però avanzare anche una parola di cautela. La maggior parte dei punteggi usati dagli studiosi delle scienze psico-pedagogiche sono rappresentati da numeri interi piuttosto che frazionari. E’ per questa ragione che vengono utilizzati numeri interi. Tuttavia, si dà il caso che in certe occasioni i punteggi siano espressi in cifre decimali, come ad esempio nel caso del tempo di reazione a uno stimolo. In alcuni testi viene indicato un modo semplice di risolvere il problema: comportarsi come se i decimali non esistessero affatto. In altri termini, si può trattare ogni punteggio come se fosse un numero intero. I decimali possono essere inseriti all’ultimo momento. Così se nel nostro esempio il più alto punteggio fosse 1,54 ed il più basso 0,80 i calcoli sarebbero stati esattamente gli stessi. Alla fine, comunque, l’intervallo più elevato sarebbe stato trasformato in 1,50—1,54, mentre il più basso in 0,80—0,84, con tutti i mutamenti del caso. L’ampiezza della classe sarebbe stata mutata in 0,05. Occorre ricordare anche che in ogni misurazione di variabile continua c’è sempre un margine di errore, cioè la misura non è mai perfetta e il reale valore può essere solo inquadrato. In genere ciò si fa considerando il suo valore osservato più o meno la metà dell’unità di misura. La stessa considerazione vale anche per i valori raggruppati in intervalli. Così, sebbene definiamo gli estremi della classe inferiore come 80-84, i veri estremi dell’intervallo sono in effetti 79,5—84,5 (rispettivamente il più basso estremo effettivo di 80 e il più alto estremo effettivo di 84). E’ utile ricordare questo aspetto della misurazione, anche se spesso esso viene sottinteso, soprattutto nella pratica statistica elementare. La costruzione di tabelle riassuntive dei dati raccolti Una volta raccolto un insieme di dati risultato di misure quantitative occorre in primo luogo ordinarli (in maniera crescente o decrescente, secondo quella che si chiama una distribuzione ordinata di valori o serie statistica). Il valore minimo e il valore massimo della serie permettono di individuare subito il campo, o intervallo, di variazione dei dati (in inglese range). Ciascuno di questi dati, genericamente indicato con una X maiuscola, è denominato dato grezzo. Successivamente, la serie può essere raggruppata in classi, che contengono ciascuna un certo numero di valori o unità statistiche. Si ottiene così una distribuzione di frequenza o di intensità (f). Se la generica classe è identificata con una i, la relativa frequenza viene indicata con fi. Frequenza assoluta di una classe è il numero di volte con cui compare un valore compreso nella classe. Frequenza relativa della classe è la sua frequenza assoluta divisa per il numero complessivo dei dati raccolti, normalmente indicato con N. Spesso, inoltre, è utile o necessario riorganizzare i dati di una distribuzione di frequenza in una distribuzione di frequenze cumulate. Oltre che essere di aiuto nell’interpretazione della distribuzione di frequenze, la distribuzione delle frequenze cumulate serve per determinare sia la posizione mediana che varie posizioni percentili di dati punteggi, come vedremo in seguito. La distribuzione di frequenze cumulate si ottiene in un modo semplice e lineare. Osserviamo i dati della tabella 1.4. Le righe nella distribuzione di frequenza indicano il numero di studenti appartenente a ciascuna classe. Ciascuna riga entro la distribuzione delle frequenze cumulate indica il numero di casi, o 8
frequenza, che sono al di sotto del più alto estremo affettivo di quell’intervallo. Così, nella terza classe partendo dal basso della Tabella, la cifra 13 nella distribuzione della frequenze cumulate indica che un totale di 13 studenti si trova al di sotto del più alto estremo effettivo dell’intervallo, che è 94,5. Le cifre della distribuzione delle frequenze cumulate si ottengono da un processo semplice di addizioni successive delle cifre nella colonna delle frequenze. La frequenza cumulata corrispondente all’estremo superiore effettivo dell’intervallo 105—109 è ottenuta da successive addizioni di 3 + 5 + 5 + 4 + 12 + 14 = 43. Si può notare che il valore finale nella colonna della frequenze cumulate è sempre uguale a N. Se non si ottiene questo risultato, si è sbagliato nella determinazione delle frequenze cumulate e si deve ricontrollare il lavoro fatto. FREQUENZA PERCENTUALE INTERVALLO ƒ CUMULATA ƒ CUMULATA % 150-154 2 110 100 145-149 2 108 98 140-144 3 106 96 135-139 5 103 94 130-134 7 98 89 125-129 9 91 83 120-124 9 82 75 115-119 13 73 66 110-114 17 60 55 105-109 14 43 39 100-104 12 29 26 95-99 4 17 15 90-94 5 13 12 85-89 5 8 7 80-84 3 3 3 Tab. 1.4 - Frequenze cumulate nel caso di dati raggruppati in classi. La distribuzione percentuale delle frequenze si ottiene dalle frequenze relative moltiplicate per 100. Di conseguenza la distribuzione delle frequenze cumulate relative espresse in percentuale è ottenuta dividendo ciascun numero nella colonna delle frequenze cumulate per N e moltiplicandolo poi per 100. Il numero più alto deve essere 100% perché tutti i casi si trovano al di sotto del più alto estremo effettivo dell’intervallo superiore. Se introduciamo il simbolo Σ per indicare “fai la somma”, si può scrivere in maniera sintetica: Σ f per indicare la somma della frequenze assolute; tale somma deve essere uguale a N (numero totale delle unità statistiche). Σ f = N. Σ fi per indicare la somma delle frequenze assolute per ciascuna classe (o intervallo) i. Anche in questo caso la somma deve essere uguale a N (numero totale delle unità statistiche). Σ fi = N. Sintesi dell’unità In questa unità sono stati introdotti, dopo una definizione generica di statistica, alcuni concetti elementari della statistica. In particolare i concetti di popolazione e di unità statistica, di carattere o variabile, di carattere qualitativo e quantitativo, di scala nominale, ordinale, per intervallo e per rapporto. 9
Successivamente è stato spiegato come si possono raccogliere e rappresentare i dati grezzi sotto forma di tabelle, come si possono contare le frequenze di ciascun punteggio e rappresentare i dati raggruppati secondo classi o intervalli. Le tabelle complessive riassuntive possono contenere varie colonne che comprendono in genere: la colonna dei dati grezzi (a es. i punteggi raccolti), eventualmente raggruppati secondo classi o intervalli; la colonna delle frequenze assolute dei dati; la colonna delle frequenze relative espresse sotto forma di percentuale; la colonna delle frequenze assolute cumulate; la colonna delle frequenze percentuali cumulate. Termini da ricordare Popolazione o Universo - Un insieme completo di individui, oggetti, o misure aventi una caratteristica comune, oggetto dell’osservazione. Campione di una popolazione - Un sottoinsieme di una popolazione o di un universo. Carattere mutabile - Una caratteristica o fenomeno che può assumere un insieme di valori diversi, detti anche modalità del carattere. Parametro - Qualunque caratteristica misurabile di una popolazione. Statistiche - Raccolta di fatti quantitativi espressi in termini sintetici. Scale Nominali - Variabili con modalità qualitative non ordinabili. Scale Ordinali - Sono scale in cui le modalità, o classi, sono tra loro in relazione algebrica del tipo minore o maggiore. (cioè a < b oppure a > b). Scale per intervallo - Scale quantitative che consentono l’uso di operazioni aritmetiche. Lo zero in queste scale è arbitrario. Scale per rapporto - Sono simili alle scale per intervallo, a parte il fatto che lo zero è effettivo. Dati grezzi - Numeri o misure ottenute in base a delle osservazioni. Classi o intervalli di dati - Insiemi di dati raggruppati per sottoinsiemi o intervalli. Frequenze assolute - Le occorrenze di una variabile spesso raggruppate in classi Frequenze percentuali - Le occorrenze di una variabile espresse sotto forma di percentuale. Frequenze cumulate - Numero di casi (frequenze) che non superano un dato livello. Scale continue - Scale in cui una variabile può assumere un qualsivoglia numero di valori intermedi. Scale discontinue (scale discrete) - Scale in cui la variabile può assumere solo un numero finito di determinazioni. 10
Statistica descrittiva - Procedure utilizzate per organizzare e presentare i dati in maniera conveniente, pratica e comunicabile. Inferenza statistica (Induzione statistica) - Procedure utilizzate per raggiungere conclusioni più ampie o per effettuare inferenze dai dati del campione alla popolazione. Richiami di matematica 1. Rapporto tra due numeri Può essere espresso sotto forma di frazione 3/4, sotto forma di divisione 3 : 4, sotto forma di numero decimale 0,75 o sotto forma di percentuale 75 %. Il valore percentuale di un rapporto espresso sotto forma decimale si può ottenere moltiplicandolo per 100. 2. Il concetto di proporzione Una proporzione è data dall’uguaglianza di due rapporti. A esempio 3 : 4 = 6 : 8. Si legge “3 sta a 4 come 6 sta a 8”. I valori e 8 sono detti estremi della proporzione, mentre 4 e 6 sono denominati medi della proporzione. Spesso si deve trovare un valore incognito che renda vera una proporzione. A esempio: 5 : 10 = 4 : x. Il valore di x si trova risolvendo la proporzione. La regola che permette di calcolare il valore di x deriva dalla proprietà fondamentale delle proporzioni: “il prodotto dei medi è uguale al prodotto degli estremi”. Nel nostro caso: 5x = 40 da cui si ottiene x = 40/5 = 8. 3. Calcolo di una percentuale Per calcolare una percentuale si può ricorrere a una proporzione. Infatti il concetto di percentuale è legato alla considerazione di una proporzione del tipo: “3 : 4 = x : 100”, cioè 3 sta a 4 come x sta a 100”. Risolvendo la proporzione si ha: 4x = 300 da cui x = 300 : 4 = 75 4. Applicazione al caso di tabelle di numeri Considera la seguente tabella. 4 10 14 6 12 18 10 22 32 I numeri scritti nelle prime due caselle della prima e della seconda riga sono numeri dati. Quelli della terza colonna e della terza riga si ottengono nel modo sotto indicato. a. Si sommano i valori della prima e della seconda casella della prima riga e si scrive il risultato nella terza casella della riga. 11
b. Si sommano i valori della prima e della seconda casella della seconda riga e si scrive il risultato nella terza casella della riga. c. Si sommano i valori della prima e della seconda casella della prima colonna e si scrive il risultato nella terza casella della colonna. d. Si sommano i valori della prima e della seconda casella della seconda colonna e si scrive il risultato nella terza casella della colonna. e. Si sommano i valori della prima e seconda casella della terza riga e si scrive il risultato nella terza casella della terza riga. f. Si sommano i valori della la prima e della seconda casella della terza colonna e si scrive il risultato nella terza casella della terza colonna. Se consideriamo 32 corrispondente a 100, quale valore assumono i numeri della tabella? Occorre ricorrere alle proporzioni e si può utilizzare il concetto di percentuale. 4 : 32 = x : 100 32x = 400 da cui x = 400/32 = 12,5 10 : 32 = x : 100 32x = 1000 da cui x = 1000/32 = 31,25 6 : 32 = x : 100 32x = 600 da cui x = 600/32 = 18,75 12 : 32 = x : 100 32x = 1200 da cui x = 1200/ 32 = 37,5 12,5% 31,25% 42,75% 18,75% 37,5% 56,25% 31,25% 68,25% 100 % Esercizi da sviluppare 1. Data la tabella seguente, calcolare i valori della terza casella delle righe e delle colonne seguendo il procedimento indicato al precedente punto 4. Poi trasformare i valori della tabella in percentuali e verificare che la terza casella della terza riga assume di valori dei 100%. 9 12 18 24 2. Data la tabella seguente, calcolare i valori della terza casella delle righe e delle colonne seguendo il procedimento indicato. Poi trasformare i valori della tabella in percentuali e verificare che la terza casella della terza riga assume di valori dei 100%. 5 10 10 25 3. Data la tabella seguente, calcolare i valori della terza casella delle righe e delle colonne seguendo il procedimento indicato al precedente punto 4. Poi trasformare i valori della tabella in percentuali e verificare che la terza casella della terza riga assume di valori dei 100%. 32 43 56 79 12
5. Arrotondamenti Un numero decimale con molte cifre dopo la virgola può essere arrotondato seguendo la seguente regola: a) alle unità, se la prima cifra decimale è inferiore a 5 (0 ,1 ,2 ,3 ,4) si scrive il numero delle unità e si trascura la parte decimale; se essa è uguale o superiore a 5 (5, 6, 7, 8, 9) si aggiunge uno alle unità e si trascura la restante parte decimale; b) ai decimi (prima cifra decimale), se la seconda cifra decimale è inferiore a 5 (0 ,1 ,2 ,3 ,4) si scrive la prima cifra decimale e si trascura la restante parte decimale; se essa è uguale o superiore a 5 (5, 6, 7, 8, 9) si aggiunge uno ai decimi e si trascura la restante parte decimale; c) ai centesimi (seconda cifra decimale), se la terza cifra decimale è inferiore a 5 (0 ,1 ,2 ,3 ,4) si scrive la seconda cifra decimale e si trascura la restante parte decimale; se essa è uguale o superiore a 5 (5, 6, 7, 8, 9) si aggiunge uno ai centesimi e si trascura la restante parte decimale. Esercizi relativi alla prima unità 1. Dati i seguenti numeri -2; 3; -4; 5; 6 rappresenta il calcolo completo e indica il risultato accanto ad ognuno dei seguenti esercizi. a. ΣX =…….. b. ΣX2 = ……. c. (ΣX)2 = ……. d. Σ(X-2) = …… e. Verifica che ΣX2 ≠ (ΣX)2 (Per fare questa verifica occorre calcolare separatamente i due termini dell'uguaglianza e verificare la relazione) 2. Dati i seguenti raggruppamenti o insiemi di numeri X: 1; -2; 3; 4; 5 e Y: 6; 5; -4; 3; 2 calcola: a. ΣX =……… b. ΣY =……… c. Σ(X+Y) =…….. d. Σ(X-Y) =…..… e. ΣX * ΣY =…….. f. Σ(X*Y) =…..… Verifica poi, che: g. Σ(X+Y) = ΣX + ΣY h. Σ(X+Y) = ΣX + ΣY i. Σ(X*Y) ≠ ΣX * Σ 3. Ricostruisci e completa la tabella indicando per ciascuna raccolta di dati quale tipo di carattere (qualitativi, quantitativi; continui, discreti) e scala (nominale, ordinale, per intervallo, per rapporto) richiede. 13
Tipo di carattere Tipo di scala A Altezze in cm B Tipo di occupazione C Titolo di studio D Numero di fratelli e sorelle E Nazionalità F Anno di corso 4. Arrotonda i seguenti numeri: Alla prima cifra decimale Alla seconda cifra decimale A 43,406 B 88,2816 C 10,006 D 2,9654 E 1,0549 F 5,0051 5. Nella seguente tabella è rappresentata una parziale e incompleta distribuzione delle frequenze degli studenti iscritti ai vari curricoli universitari (studenti ordinari, straordinari, ospiti) dell'Università Pontificia Salesiana. Curricolo Ped Com Med Ped Sc e Fp Ped Sociale Ped Vocaz Psic Educ Past e Catec Studenti 86 102 125 98 364 147 Dopo aver ricostruito la tabella, indica per ciascun curricolo la frequenza assoluta; poi calcola N, la frequenza relativa e la frequenza percentuale di ogni curricolo, completando ciò che manca. 6. I risultati dei voti in centesimi conseguiti da 40 individui che hanno partecipato ad un concorso di statistica sono stati i seguenti 40 48 52 60 61 63 66 67 68 70 70 70 75 75 76 76 77 77 77 77 78 78 79 79 81 81 81 81 82 82 83 84 86 87 87 88 92 92 94 98 Dopo aver ordinato opportunamente questi valori e utilizzando un'ampiezza di intervallo i = 5, esegui la rappresentazione in tabelle delle seguenti richieste: a) costruisci un distribuzione di frequenza; b) elenca i valori estremi e centrali di ogni intervallo; c) calcola la distribuzione di frequenza cumulata e retrocumulata; d) calcola la distribuzione di frequenza percentuale; e) calcola la distribuzione di frequenza percentuale cumulata e retrocumulata. 14
Puoi anche leggere