Statistica Elaborare informazioni: come e soprattutto perché - Dipartimento di Scienze Sociali ...

Pagina creata da Simone Pasquali
 
CONTINUA A LEGGERE
Statistica
Elaborare informazioni: come e soprattutto perché

 alessandro polli
 facoltà di scienze politiche, sociologia, comunicazione
Statistica e informazione

Iniziamo il corso nel modo più coerente, definendo la disciplina che ci accingiamo a studiare.

La statistica è un insieme di metodi logico-matematici per lo studio quantitativo di un fenomeno di interesse
(vedremo in seguito cosa intendere per «fenomeno»). In particolare, la statistica studia i metodi
attraverso i quali una realtà fenomenica può essere sintetizzata e quindi compresa attraverso:

• la raccolta di informazioni
• la trasformazione delle informazioni in dati
• l’analisi dei dati
• la verifica di ipotesi

La statistica metodologica è suddivisa in due ampie aree tematiche:

• statistica descrittiva
• statistica inferenziale

Riservandoci di approfondire la definizione della statistica come disciplina, dall’esame del primo elenco è
immediato accorgerci della centralità del concetto di informazione. Ma qual è il collegamento esistente tra
realtà, informazione e statistica?

 Elaborare informazioni 29/02/2016 Pagina 2
Statistica e informazione

Per cominciare, estendiamo l’ambito a cui ci riferiamo abitualmente con il concetto di «informazione»:
l'informazione non è una «notizia» o un «insieme di notizie», è la struttura del mondo reale

Chiariamo il senso di questa affermazione: l’informazione è una componente essenziale di tutto ciò che
esiste, poichè è il mezzo attraverso cui entriamo in contatto con la realtà esterna

«L'informazione ha un duplice aspetto. Può essere una componente interna delle cose o può essere una
descrizione generale di una data tipologia di cose» (Floridi, 2010)

Esempio 1. Ipotizziamo un oggetto (una t-shirt) esposto in una vetrina: dà informazioni sul suo colore, sulla
sua consistenza, sulle finiture di quell'oggetto e, se lo compro, avrò proprio quello

La stessa t-shirt in vendita nel Web: sul catalogo troviamo informazioni generali, ma non su qualità come la
consistenza del singolo esemplare. E se la si compra non è proprio quella della foto: solo una con le
caratteristiche descritte in catalogo

 Luciano Floridi (2010), Information. A very short
 introduction, Oxford University Press

 Elaborare informazioni 29/02/2016 Pagina 3
Statistica e informazione

Informazione è un termine che ricorre spesso nel linguaggio di tutti i giorni, ma non si presta a
definizioni univoche

Il principale ostacolo in tal senso nasce dal fatto che il termine «informazione» è utilizzato nei contesti
più vari. Una descrizione precisa dei fenomeni in cui interviene il concetto di informazione deve quindi
essere preceduta da un'analisi dei fenomeni stessi, al fine di individuarne le principali caratteristiche

Il processo di comunicazione, come è noto, è uno schema interattivo tra
• Una sorgente che ha la necessità o la potenzialità di comunicare informazioni
• Un canale (mezzo di trasmissione, media) attraverso cui il messaggio si propaga e si diffonde
• Un destinatario che riceve le informazioni

 Elaborare informazioni 29/02/2016 Pagina 4
Il processo di comunicazione

Lo schema può essere reso più completo:

• La sorgente emette l’informazione utilizzando un trasmettitore

• Prima di inviare un messaggio lungo il canale, il trasmettitore traduce l’informazione in forma
 adatta alla trasmissione. La traduzione dell’informazione da parte del trasmettitore può essere fatta
 in modo tale da:
  proteggere l'informazione trasmessa (problema della codifica)
  adeguare il linguaggio usato dalla sorgente al linguaggio del destinatario
• Il canale provvede al trasporto dell’informazione. In base alle proprie caratteristiche fisiche il canale
 può trasportare una quantità di informazione più o meno grande. Mentre viaggia all'interno del canale,
 l'informazione è sottoposta ad una serie di fenomeni, indicati dal termine rumore, che tendono
 a distorcerla

• Il messaggio giunge al ricevitore, che svolge le operazioni inverse a quelle svolte dal trasmettitore e
 ritraduce il messaggio

• Il messaggio giunge al destinatario. Non sempre il messaggio in arrivo è uguale a quello inviato
 originariamente

 Elaborare informazioni 29/02/2016 Pagina 5
Il processo di comunicazione

Come definire in maniera più appropriata l’informazione all’interno del processo di comunicazione?
• Nel processo di comunicazione, l’informazione è considerata una notizia (cioè un elemento
 cognitivo nuovo per il ricevente e in quanto tale suscettibile di risolvere una condizione di
 incertezza) codificata come testo scritto, discorso, sistema convenzionale di segni, dato numerico,
 codice binario (bit)
• In generale l’informazione è una sequenza di simboli: la sorgente di un processo (trasmettitore) è
 una qualunque entità che può trasmettere informazioni sotto forma di sequenze di simboli
• Il canale è il mezzo attraverso il quale è trasmessa l'informazione: la caratteristica propria del
 canale è il fatto di produrre rumore (o distorsione, o errore), una caratteristica presente in tutti i
 processi di comunicazione

 Elaborare informazioni 29/02/2016 Pagina 6
L’approccio in termini cognitivi

In generale le scienze cognitive studiano le modalità di formazione del pensiero, dell'emozione,
dell'immaginazione, dell'intellezione (intesa come il processo dell’intendere mediante la facoltà
dell’intelletto) e della creatività
L’approccio cognitivo enfatizza le relazioni tra la realtà fenomenica e la sua interpretazione da parte
di un osservatore
Una teoria diffusa nell’ambito delle scienze cognitive è il c.d. modello input/output

 Elaborare informazioni 29/02/2016 Pagina 7
L’approccio in termini cognitivi

 Congettura Informazione

 Realtà
 Teoria
 Osservatore
 Output Input

 Controllo

Elaborare informazioni 29/02/2016 Pagina 8
Fenomeno, fatto, fenomenologia

Fenomeno. L’uso scientifico del termine fenomeno fa riferimento ad avvenimenti ed eventi che
accadono intorno a noi (nel tempo e nello spazio) e che siamo in grado di osservare
I «fenomeni» pertanto sono logicamente distinti dagli «oggetti» che pure si trovano intorno a noi, ma
che mantengono nel tempo e nello spazio una sostanziale identità
La definizione di fenomeno implica quindi un qualche tipo di mutamento di stato nel tempo e/o
nello spazio

Fatto. Una parola spesso utilizzata come sinonimo di fenomeno è fatto. Tuttavia l’uso di quest’ultimo
termine è limitato a un singolo evento, mentre il fenomeno indica un insieme di fatti in qualche modo
collegati tra loro
Esempio: un crollo di borsa è un fatto economico; i corsi azionari, le operazioni di mercato, la
produzione industriale sono fenomeni economici

In alcuni casi il collegamento tra fatti può essere stabilito in maniera agevole e intuitiva attraverso
l’osservazione. In altri casi l’individuazione del legame può richiedere il passaggio dall’osservazione
all’esperimento

 Elaborare informazioni 29/02/2016 Pagina 9
Fenomeno, fatto, fenomenologia

Fenomenologia. Con il termine fenomenologia indichiamo un insieme di fatti e fenomeni posti
convenzionalmente in relazione.

Cerchiamo di chiarire il senso dell’avverbio «convenzionalmente»: il mondo «reale» è caratterizzato
dall’esistenza di oggetti e dal verificarsi di processi, mutamenti, fatti e fenomeni: le caratteristiche di
«realtà» di tali elementi sono definite in base a convenzioni, cioè ad accordi intersoggettivi tra osservatori

L’attribuzione al fenomeno di qualificazioni quali «fisico», «biologico», «economico» implica
sempre il riconoscimento di un contesto, di caratteristiche comuni e, talvolta, l’esistenza di una
descrizione scientifica

 Elaborare informazioni 29/02/2016 Pagina 10
Dall’osservazione alla descrizione,
 dalla descrizione alla teoria

Descrizione verbale. Nella vita di tutti i giorni siamo soliti descrivere i fenomeni limitandoci ad
evidenziarne le caratteristiche più evidenti: tali descrizioni possono assumere il carattere di leggi
anche se sono espresse in forma esclusivamente verbale
Il problema nasce dal fatto che una descrizione verbale potrebbe rivelarsi inadeguata in presenza di
concatenazioni di eventi particolarmente complesse, tanto da rendere impossibili previsioni accurate:
in questi casi è necessario definire meglio il fenomeno indicando le grandezze suscettibili di
misurazione e che ne determinano l’evoluzione

Legge empirica. I fenomeni possono essere descritti in forma parzialmente unificata attraverso leggi
empiriche, cioè relazioni tra le grandezze che ne influenzano manifestazioni e dinamica. Il problema
centrale nella descrizione scientifica di un fenomeno risiede quindi nella definizione e misurazione di
tali grandezze, che prendono il nome di variabili
È importante notare che la descrizione di un fenomeno attraverso leggi empiriche, fornendo indicazioni
sulle sue modalità di manifestazione, potrebbe consentirci di formulare qualche tipo di previsione anche per
fenomeni simili

 Elaborare informazioni 29/02/2016 Pagina 11
Dall’osservazione alla descrizione,
 dalla descrizione alla teoria

Schema teorico. Una più ampia capacità predittiva si ha tuttavia se più fenomeni possono essere
inquadrati in uno stesso schema teorico. Una teoria, a differenza di una legge empirica, definisce un
mondo ideale che rappresenta il modello per descrivere e spiegare i fenomeni osservati. In altri
termini si elabora uno schema teorico per comprendere perché il fenomeno ha luogo e perché si
manifesta nel modo osservato empiricamente

Gli schemi teorici sono generalmente espressi in forma di relazioni funzionali tra variabili, il che rende
necessaria l’adozione di una notazione logico-matematica. Se il nostro obiettivo è verificarne la capacità
esplicativa e l’applicabilità nel mondo reale, tuttavia, prima o poi saremo obbligati a “riportare la vita” nei
nostri (più o meno) sofisticati schemi teorici e sostituire quantità numeriche alle variabili matematiche
Questo passaggio dall’astrazione teorica alla realtà non è immediato come potrebbe sembrare:
• L’analisi di situazioni concrete richiede che queste ultime possano essere individuate, definite e
 misurate
• è possibile svolgere queste operazioni su un fenomeno considerato nella sua globalità o, più spesso,
 su un sottoinsieme ristretto di sue manifestazioni, spesso selezionate tramite procedure di
 campionamento

Va notato che a differenza delle scienze sperimentali, in cui l’esperimento di solito può essere
ripetuto, nelle scienze sociali la possibilità di effettuare esperimenti in condizioni di laboratorio
rappresenta un’eccezione e non la regola

 Elaborare informazioni 29/02/2016 Pagina 12
Il metodo statistico

Come accennavamo in precedenza, la statistica è l’insieme dei metodi logico-matematici per lo
studio quantitativo di un fenomeno (che a sua volta può essere quantitativo o qualitativo). Il principale
campo d’indagine della statistica è quello relativo ai metodi tramite i quali una realtà fenomenica può
essere sintetizzata e compresa attraverso l’analisi delle sue manifestazioni

In sintesi, il metodo statistico mira a individuare procedure per
• la raccolta di informazioni
• la trasformazione delle informazioni in dati
• l’analisi dei dati
• la verifica di ipotesi

La scienza statistica è comunemente suddivisa in due branche principali:

• statistica descrittiva
• statistica inferenziale

 Elaborare informazioni 29/02/2016 Pagina 13
L’approccio descrittivo

La statistica descrittiva è la branca della statistica che studia i criteri di rilevazione, di classificazione
e di sintesi delle informazioni relative ad una popolazione oggetto di studio
In particolare la statistica descrittiva studia gli strumenti e le procedure più idonee per:
• raccogliere informazioni sulla popolazione, o su una parte di essa (campione), sia con riferimento a
 fenomeni univariati (un solo carattere oggetto di studio), sia multivariati (almeno due caratteri);
• organizzare, classificare e presentare le informazioni in modo ordinato;
• Descrivere in termini sintetici l’insieme delle osservazioni attraverso famiglie di indici: indici di
 posizione, indici di variabilità, indici di forma, rapporti statistici, relazioni statistiche

I risultati ottenuti in tal modo si possono definire certi, a meno di errori di misurazione che, se dovuti
al caso, in media si annullano

 Elaborare informazioni 29/02/2016 Pagina 14
L’approccio inferenziale

Inferenza: trarre conclusioni logiche a partire dai dati osservati (induzione)
La statistica inferenziale ha come obiettivo quello di risalire alle caratteristiche di una popolazione
incognita, oggetto di studio, dall’osservazione di un campione finito di sue manifestazioni, con una
possibilità di errore predeterminata dal ricercatore

L’inferenza statistica mira a individuare il meccanismo generatore (la legge probabilistica) del fenomeno
che si osserva. La conoscenza di tale struttura probabilistica consentirà poi di fare previsioni (si
pensi, ad esempio, che quando si afferma che «l'inflazione il prossimo anno avrà una certa entità» ciò
implica l’esistenza di un modello dell'andamento dell'inflazione formulato con tecniche inferenziali)

La statistica inferenziale quindi è intimamente legata alla teoria della probabilità. Sotto questo punto di
vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo (o nello spazio, o tra
unità), caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di
distribuzione di probabilità e dei suoi parametri: media (o valore atteso) e varianza

La statistica inferenziale si articola poi in altri ambiti tematici, di cui i più importanti sono la teoria della
stima (stima puntuale e stima intervallare) e la verifica (test) di ipotesi

 Elaborare informazioni 29/02/2016 Pagina 15
Alcune definizioni

Popolazione statistica: per popolazione si intende l'insieme degli elementi che sono oggetto di
studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle
modalità con le quali il fenomeno studiato si presenta

Tali unità presentano tutte almeno una caratteristica comune (indicata con il termine di carattere), che
viene accuratamente definita al fine di delimitare la popolazione

Esempio. Con il termine di "Italiani" si può intendere sia le persone di nazionalità italiana, anche se
residenti all'estero, sia le persone residenti in Italia, indipendentemente da quale sia la loro
nazionalità

Una popolazione statistica può essere (e a volte deve essere) definita anche rispetto al tempo

Ad esempio si possono considerare gli Italiani che risultano residenti in Italia alle ore 12 di un dato giorno
(popolazione definita secondo una caratteristica riferita ad un dato istante di tempo), oppure quelli nati dal
1º gennaio al 31 dicembre di un dato anno (popolazione definita secondo una caratteristica riferita ad un
intervallo di tempo)

 Elaborare informazioni 29/02/2016 Pagina 16
Alcune definizioni

Ovviamente per popolazione statistica non intendiamo esclusivamente un insieme biologico:
costituisce una popolazione anche l'insieme delle lampadine prodotte da un'azienda in un dato periodo di
tempo, l'insieme delle nazioni del continente europeo in un dato anno, l'insieme delle imprese presenti sul
territorio della provincia di Como, ecc.

Infatti, si distingue anche tra:

• popolazione reale o empirica: un insieme le cui unità possono essere tutte concretamente
 osservate (ad esempio l'insieme delle persone, delle abitazioni o delle aziende oggetto di un
 censimento)
• popolazione virtuale o teorica: un insieme definibile con accuratezza ma non concretamente
 osservabile (ad esempio le possibili sestine estraibili nel gioco del superenalotto o l'insieme di tutti i
 possibili valori di una misura fisica)

 Elaborare informazioni 29/02/2016 Pagina 17
Alcune definizioni

Popolazione e campione. Le informazioni di interesse per l'analisi statistica possono costituire:

• Popolazione: se il collettivo comprende tutte le unità omogenee rispetto ad una caratteristica
 comune;
• Campione: se il collettivo in esame costituisce un sottoinsieme della popolazione di riferimento

Le indagini su popolazione (o censuarie) riguardano l'intera popolazione e pur essendo più affidabili
riguardo al parametro oggetto d'indagine presentano alcuni notevoli svantaggi:
• maggiori costi
• tempi più lunghi
• minore accuratezza e minori risorse concentrate sul controllo della qualità della rilevazione (quello
 che si guadagna in estensione si perde in profondità)

Le rilevazioni campionarie, viceversa, sono utili per fare inferenza (ossia per desumere dal campione
stesso un'informazione relativa all'intera popolazione) e presentano innegabili vantaggi:
• sono meno costose
• sono più rapide nella loro esecuzione
• sono più accurate e con maggiori risorse concentrate nei controlli di qualità della rilevazione

 Elaborare informazioni 29/02/2016 Pagina 18
Alcune definizioni

Popolazione e campione. L'indagine su popolazione o censuaria fornisce il valore «vero» dei parametri di
interesse (proporzioni, percentuali, medie, totali, ... )

L’indagine campionaria restituisce una stima del valore «vero» dei parametri di interesse, ai quali è
associato un certo grado di fiducia (ovvero un'incertezza) quantificabile quando la formazione del campione
risponde a determinati criteri di tipo probabilistico

Il campionamento è adottato quando si vuole conoscere uno o più parametri di una popolazione, senza
doverne analizzare ogni elemento: questo per motivi di costi intesi sia in termini monetari, sia di tempo, di
qualità o di disagio o perché analizzare il fenomeno sulla popolazione la distruggerebbe (si pensi alle
rilevazioni svolte su una colonia di batteri utilizzando luce ultravioletta … ) rendendo inutilizzabile
l'informazione ottenuta

 Elaborare informazioni 29/02/2016 Pagina 19
Organizzare e analizzare le informazioni

Formulare congetture, teorie, previsioni sul mondo circostante è un’attività abituale dell’essere
umano e non è confinata agli operatori della conoscenza

L’essere umano è posto nella necessità di interpretare fatti e fenomeni e di risalire a concatenazioni
casuali che possono essere anche molto complesse: in tale attività conoscitiva assume centralità il
processo di organizzazione e analisi delle informazioni raccolte

L’organizzazione e l’analisi delle informazioni è uno degli obiettivi delle discipline statistiche

La statistica nella sua evoluzione non si discosta dal percorso di altre discipline scientifiche: nasce come
attività pratica, indirizzata alla soluzione di problemi concreti e contingenti, per poi sistematizzarsi in una
successiva fase metologica. In quanto disciplina scientifica, la statistica è relativamente recente: le prime
attività ad essa riconducibili risalgono al XVII secolo e furono favorite dal grande sviluppo delle discipline
matematiche e del c.d. metodo scientifico

 Elaborare informazioni 29/02/2016 Pagina 20
Organizzare e analizzare le informazioni

Per realizzare una analisi statistica non è sufficiente raccogliere dati, bisogna anche organizzarli in modo
appropriato (cioè mantenendo un certo ordine … )

Sia che i dati provengano da fonti secondarie o da rilevazioni ad hoc, essi vanno organizzati in modo da
rendere possibili le analisi statistiche, che spesso coinvolgono una pluralità di variabili

Organizzare i dati in modo appropriato significa strutturarli convenientemente, al fine di consentirne
l’analisi. La struttura adottata per organizzare i dati è la c.d. matrice dati

Definiamo matrice dati una tabella bidimensionale composta da un certo numero di righe e di
colonne: su ogni riga riportiamo le informazioni riferite alle singole unità di osservazione, o unità
statistiche. Nelle colonne vengono invece collocati gli attributi delle unità statistiche, cioè le diverse
variabili misurate su di esse

 Elaborare informazioni 29/02/2016 Pagina 21
Organizzare e analizzare le informazioni

 Grado di accordo con
 l'affermazione: "Le spese per il
 Spesa media Spesa media
 Reddito Tipo di autoveicolo mantenimento dell'auto sono
 #ID Genere Residenza Età mensile per mensile per
 annuo posseduto eccessive" (0 = totalmente in
 consumi trasporti
 disaccordo; 10 = completamente
 d'accordo)

 1 M Centro 56 102,000 4,975 Berlina 450 2
 2 F Periferia 29 28,000 1,450 Utilitaria 350 8
 3 F Comune dell'hinterland 36 26,000 1,370 Utilitaria 150 5
 4 M Periferia 43 37,000 1,650 Berlina 400 6
 5 F Comune dell'hinterland 41 29,000 1,520 Utilitaria 250 6
 6 F Comune dell'hinterland 38 35,000 1,560 Utilitaria 300 7
 7 F Comune dell'hinterland 32 29,000 1,490 Utilitaria 330 8
 8 F Centro 28 56,000 2,000 Altro 100 3
 9 M Periferia 48 24,000 1,250 Utilitaria 140 5
 10 M Centro 43 75,000 2,700 SUV 650 10
 11 F Periferia 62 21,000 1,100 Non possiede auto 35 1
 12 M Periferia 55 32,000 1,450 Utilitaria 120 4
 13 F Comune dell'hinterland 34 17,000 1,100 Non possiede auto 50 0
 14 M Periferia 46 31,000 1,600 Altro 250 5
 15 M Comune dell'hinterland 51 38,000 1,750 Altro 350 7
 16 F Periferia 39 24,000 1,250 Altro 200 6
 17 F Periferia 23 12,000 750 Non possiede auto 35 0
 18 F Semicentrale 45 45,000 1,550 SUV 550 9
 19 M Centro 72 82,000 2,500 Non possiede auto 0 1
 20 F Semicentrale 56 29,000 1,650 Utilitaria 100 3
 21 M Semicentrale 49 46,000 1,750 Altro 150 4
 22 M Periferia 50 25,000 1,300 Utilitaria 150 5
 23 F Periferia 26 22,000 1,100 Utilitaria 100 2
 24 M Periferia 48 37,000 1,600 Berlina 250 6
 25 F Comune dell'hinterland 34 23,000 1,200 Utilitaria 300 7

Elaborare informazioni 29/02/2016 Pagina 22
Organizzare e analizzare le informazioni

Ad esempio, se il nostro obiettivo è analizzare le problematiche relative alla mobilità ricorrendo ad un
campione di lavoratori di una grande area urbana, nelle righe della matrice dei dati saranno collocate le
informazioni riferite i singoli rispondenti, mentre nelle colonne verranno collocate le variabili che sono state
rilevate su ciascuna unità statistica

Le variabili possono essere di tipologie eterogenee rispetto alla scala di misura: alcune quantitative,
come il reddito annuo, il consumo medio mensile o la spesa mensile per trasporti; altre qualitative
ordinali, come il titolo di studio del rispondente; altre ancora qualitative sconnesse, come il genere o la
zona di residenza (ritorneremo in seguito sul problema della misurazione e su quello connesso relativo alle
scala di misura)

Le analisi che potranno essere compiute e gli indici statistici che potranno essere calcolati naturalmente
differiranno a seconda del tipo di variabile considerata

 Elaborare informazioni 29/02/2016 Pagina 23
La matrice dati e le analisi preliminari

Quali sono le principali analisi preliminari che possono essere condotte sulla matrice dati? In sintesi,
possiamo condurre analisi sui c.d. “profili di colonna” e quelle sui c.d. “profili di riga” della matrice. I profili
di colonna si riferiscono alle distribuzioni delle singole variabili tra le unità statistiche, mentre i
profili di riga descrivono le singole unità statistiche sulla base delle molteplici variabili su di esse
rilevate

Per quanto riguarda le analisi sui profili di colonna, possono essere condotte analisi univariate,
concernenti cioè le singole variabili, attraverso indici che saranno oggetto di trattazione nel nostro corso.
Nel caso di variabili quantitative, ciò equivale a calcolare i principali indici di posizione, di variabilità, di
forma, di concentrazione (nel caso di caratteri trasferibili). Quanto alle principali analisi bivariate,
riguardano in particolare il grado di associazione tra coppie di variabili presenti nella matrice dei dati

Con riferimento ai profili riga, le analisi che possono essere svolte mirano principalmente a misurare la
distanza e la similarità tra unità statistiche. Gli indici di associazione o di distanza costituiscono spesso
il punto di partenza per analisi statistiche più complesse, quali la formulazione dei modelli di regressione
multivariata e la realizzazione di diverse analisi multidimensionali (analisi delle corrispondenze, analisi
delle corrispondenze multiple, analisi in componenti principali)

 Elaborare informazioni 29/02/2016 Pagina 24
Cross-section, serie storiche, panel

Definiamo cross-section una particolare organizzazione della matrice di dati. I dati cross-section sono
riferiti a un certo numero di unità osservazionali, o unità statistiche, considerate in un certo punto del tempo
o senza alcun riferimento alla variabile tempo. L’analisi di una cross-section di solito consiste nel confronto
tra unità statistiche

Esempio. Ipotizziamo di voler misurare l’attuale diffusione dell’obesità in una popolazione. A questo scopo
estraiamo un campione casuale di 1000 unità dalla popolazione (definito anche come una cross-section
della popolazione), ne misuriamo il peso e l’altezza e calcoliamo l’incidenza dell’obesità nel campione
osservato

La cross-section ci fornisce un’istantanea della popolazione oggetto di studio, nel momento in cui
lo studio è stato condotto. Notare che sulla base dell’informazione cross-section non possiamo sapere
se il fenomeno è in aumento o in diminuzione: possiamo solo descrivere l’attuale incidenza dell’obesità
nella popolazione

 Elaborare informazioni 29/02/2016 Pagina 25
Cross-section, serie storiche, panel

 Un semplice esempio di cross
 Re gione Nume ro
 section è il numero di stranieri
 residenti nelle regioni italiane al Piemonte 425.448
 primo gennaio 2015: Valle d'Aosta 9.075
 Lombardia 1.152.320
 T rentino-Alto Adige 96.149
 Veneto 511.558
 Friuli-Venezia Giulia 107.559
 Liguria 138.697
 Emilia-Romagna 536.747
 T oscana 395.573
 Umbria 98.618
 Marche 145.130
 Lazio 636.524
 Abruzzo 86.245
 Molise 10.800
 Campania 217.503
 Puglia 117.732
 Basilicata 18.210
 Calabria 91.354
 Sicilia 174.116
 Sardegna 45.079

 Totale 5.014.437

Elaborare informazioni 29/02/2016 Pagina 26
Cross-section, serie storiche, panel

Definiamo serie storica (o cronologica, o longitudinale) un insieme di osservazioni relative ad un
fenomeno d’interesse, descritte e ordinate dal parametro appartenente al tempo. Il fenomeno osservato,
tradotto in una grandezza misurabile (variabile), può essere osservato:

• in un determinato istante del tempo (variabile di stato: numero di dipendenti di un’azienda il primo
 gennaio dell’anno , numero di stranieri residenti il 31 dicembre dell’anno );
• in un intervallo di tempo di durata definita (variabile di flusso: assunzioni annuali di un’azienda,
 flusso migratorio annuo)

L’analisi più interessante su una serie storica è quella relativa alle sue caratteristiche dinamiche,
cioè al «modo» in cui il fenomeno osservato varia nel tempo. Cerchiamo di individuare il processo
generatore del fenomeno osservato soprattutto a fini di previsione; tuttavia, la maggior parte dei fenomeni
osservati è di tipo stocastico e si rivela quindi impossibile elaborare previsioni prive di errore

 Elaborare informazioni 29/02/2016 Pagina 27
Cross-section, serie storiche, panel

 Un esempio di serie storica è il
 prodotto interno lordo a valori Anno Valore

 correnti nell’intervallo 1999-2014,
 espresso in milioni di euro: 1999 1.172.365
 2000 1.239.759
 2001 1.299.412
 2002 1.346.360
 2003 1.391.313
 2004 1.449.016
 2005 1.490.409
 2006 1.549.188
 2007 1.610.305
 2008 1.632.933
 2009 1.573.655
 2010 1.605.694
 2011 1.638.857
 2012 1.614.672
 2013 1.606.895
 2014 1.613.859

Elaborare informazioni 29/02/2016 Pagina 28
Cross-section, serie storiche, panel

Definiamo dati panel (o più semplicemente panel) un set di informazioni statistiche osservate su due
dimensioni (tipicamente una dimensione cross-section e una dimensione temporale). Un panel è
definito multidimensionale quando il fenomeno è osservato su tre o più dimensioni

Un esempio di panel è il numero Regione 2007 2008 2009 2010 2011
medio di occupati rilevato a livello Piemonte 2036,8 2051,0 2021,5 2002,1 2022,1
 Valle d'Aosta 60,3 59,8 59,6 60,6 60,2
regionale nell’intervallo 2007- Lombardia 4664,9 4696,1 4641,0 4600,1 4600,6
2011, espresso in migliaia di unità: T rentino-Alto Adige 494,7 498,8 501,2 504,9 507,0
 Veneto 2327,6 2361,8 2310,0 2305,6 2328,1
 Friuli-Venezia Giulia 590,1 589,3 574,2 572,8 575,0
 Liguria 678,3 677,1 672,9 664,3 670,7
 Emilia Romagna 2173,0 2192,2 2160,7 2137,1 2164,6
 T oscana 1697,4 1711,3 1695,6 1675,5 1675,3
 Umbria 394,6 394,6 384,1 383,0 386,4
 Marche 734,2 738,1 730,9 731,5 726,0
 Lazio 2532,7 2527,0 2517,0 2530,2 2528,8
 Abruzzo 513,3 519,5 497,2 496,8 509,3
 Molise 122,5 123,4 120,3 117,2 116,7
 Campania 1820,2 1790,4 1720,7 1691,9 1677,7
 Puglia 1337,9 1336,5 1286,3 1270,4 1280,2
 Basilicata 213,6 211,8 206,2 198,5 201,2
 Calabria 641,6 633,1 627,2 624,7 624,1
 Sicilia 1523,7 1514,9 1500,6 1478,8 1467,1
 Sardegna 621,3 620,1 603,4 606,3 613,2

 Elaborare informazioni 29/02/2016 Pagina 29
Cross-section, serie storiche, panel

Con riferimento alla tabella precedente, le informazioni si riferiscono a 20 unità statistiche (le regioni
italiane) per un periodo compreso tra il 2007 e il 2011. Leggere la tavola nel senso delle colonne ci
restituisce una cross-section (gli occupati nelle regioni nel 2007, ad esempio), mentre la lettura della tavola
nel senso delle righe ci restituisce una serie storica (ad esempio, gli occupati in Piemonte tra il 2007 e il
2011)

Esistono strutture di organizzazione delle informazioni (spesso indicate come cubi) che consentono la
rappresentazione bidimensionale e un rapido accesso ai dati di panel multidimensionali, in cui con
riferimento ad una cross-section di unità statistiche (prima dimensione) è seguito nel tempo (seconda
dimensione) un insieme di variabili di interesse per un certo fenomeno (ad esempio, nel caso della spesa
media mensile per l’acquisto di una certa marca di cosmetico, potrebbero essere rilevanti il reddito medio
annuale, il genere, l’età, il titolo di studio, … )

 Elaborare informazioni 29/02/2016 Pagina 30
Cross-section, serie storiche, panel

 Un semplice esempio di panel
 multidimensionale organizzato in
 una struttura a cubo basato T IME GEOGRAPHY VARIABLE
 2007 Piemonte 2.036,8
 sull’esempio precedente (occupati 2008 Piemonte 2.051,0
 regionali): 2009 Piemonte 2.021,5
 2010 Piemonte 2.002,1
 2011 Piemonte 2.022,1
 2007 Valle d'Aosta 60,3
 2008 Valle d'Aosta 59,8
 2009 Valle d'Aosta 59,6
 2010 Valle d'Aosta 60,6
 2011 Valle d'Aosta 60,2
 2007 Lombardia 4.664,9
 2008 Lombardia 4.696,1
 2009 Lombardia 4.641,0
 2010 Lombardia 4.600,1
 2011 Lombardia 4.600,6
 … … …

Elaborare informazioni 29/02/2016 Pagina 31
Il trattamento delle informazioni. Perché?

Uno dei principali ambiti di applicazione dei metodi statistici è il confronto tra grandezze. Nell’uso
corrente, il termine grandezza ha un significato intuitivo. Tuttavia, da una rapida consultazione di un
qualsiasi dizionario (il Sabatini Coletti nel nostro caso) appare evidente che il concetto sottostante non
risulta affatto di immediata definizione:

 Infatti il termine grandezza può essere riferito a: 1. Dimensioni, mole di un oggetto considerato in
 lunghezza, larghezza, altezza, volume (misurare la grandezza di qualcosa; anche con riferimento a
 persona: un uomo di media grandezza); 2. Eccedenza ed eccezionalità rispetto alle misure ritenute
 normali, anche in senso figurato (la grandezza di Shakespeare; avere manie di grandezza: ostentare un
 alto tenore di vita non adeguato alle reali possibilità finanziarie; grandezza d'animo: magnanimità); 3.
 (mat., fis.) Classe di enti a ciascuno dei quali può essere assegnata una misura; anche, la misura stessa:
 grandezze omogenee, commensurabili; grandezza scalare, vettoriale

Nell’ultima accezione il termine «grandezza» è indissolubilmente legato alle operazioni di misura

 Elaborare informazioni 29/02/2016 Pagina 32
Il trattamento delle informazioni. Perché?

Definiamo grandezza una classe di equivalenza di proprietà misurabili. Condizione necessaria affinché
una classe di equivalenza di proprietà sia misurabile è che sia possibile stabilire una relazione d’ordine
fra quelle proprietà in sistemi diversi: poter giudicare quale sistema presenta «più» proprietà dell’altro.
Se il confronto si svolge tramite un rapporto fra le proprietà dei due sistemi, allora la classe di
equivalenza di quelle proprietà è una grandezza

In questo caso, è possibile scegliere la proprietà di un particolare sistema ed eleggerla a unità di
misura per quella grandezza. Fissata l’unità di misura, la quantità di tale grandezza per un qualsiasi altro
sistema potrà essere univocamente specificata da un valore numerico ottenuto dal rapporto con la
proprietà scelta come campione di riferimento.

Perché confrontiamo grandezze? In generale, effettuiamo tali confronti per cogliere le diversità
esistenti tra gli stati attraverso i quali un fenomeno si manifesta, operazione indispensabile ai fini della
conoscenza del mondo reale. Il confronto fra grandezze è cruciale, anche quando non riguarda grandezze
omogenee o, comunque, direttamente confrontabili: garantire coerenza e significatività ai risultati di un
confronto, quindi, implica affrontare e risolvere problemi complessi

 Elaborare informazioni 29/02/2016 Pagina 33
Le scale di misura

Prima di introdurre la nozione di scala di misura, familiarizziamo con alcune definizioni:

Misurazione: Assegnazione di valori numerici ad eventi/oggetti, secondo regole definite, che
permette di rappresentare le proprietà di un evento/oggetto con le proprietà del sistema numerico.
Le regole tramite le quali i valori numerici sono assegnati agli eventi determinano le caratteristiche della
misura

Variabile: è la proprietà operativizzata, cioè rilevata sulle unità statistiche attraverso una procedura di
«definizione operativa». Nel caso di caratteri qualitativi (non definiti su spazi numerici) si parlerà di
mutabile

Le variabili si classificano in:
• Qualitative (variano in genere) e quantitative (variano in grandezza)
• Nominali, ordinali e cardinali
• Dicotomiche e politomiche
• Nel caso di variabili quantitative, distinguiamo tra variabili continue e discrete

 Elaborare informazioni 29/02/2016 Pagina 34
Le scale di misura

Diamo di seguito qualche definizione più dettagliata:

Variabile nominale: le modalità assunte dalla variabile nominale identificano «categorie», cioè
caratteristiche o qualità (da cui la nozione di variabile qualitativa) presenti nella popolazione oggetto di
studio, per esempio il genere, lo stato civile, il colore degli occhi. Una variabile è nominale anche
quando alle modalità sono assegnati numeri, in quanto in questo caso si tratta di semplici «etichette» (ad
es. 1=“automobile”; 2=“autobus”; 3=“treno”; 4=“nessun mezzo”)

Variabile ordinale: a differenza del caso precedente, la variabile ordinale si caratterizza per il fatto che le
modalità assunte identificano categorie che sono in una qualche relazione d’ordine, logica o
gerarchica; esiste cioè un ordine intrinseco fra esse (es. titolo di studio, grado di soddisfazione). I numeri
eventualmente assegnati alle modalità di una variabile ordinale hanno un significato numerico, ma solo
“ordinale” (ad es. 1=“elementare”; 2=“media inferiore”; 3=“media superiore”; 4=“laurea o più”).

Variabile cardinale: le modalità assunte dalla variabile (indicata anche come variabile quantitativa) sono
definite su uno spazio numerico, quindi i numeri assegnati alle modalità sono caratterizzati da proprietà
matematiche. Le variabili quantitative, a loro volta, si distinguono in discrete e continue. Vi sono tantissimi
esempi di variabili cardinali, tutte derivanti da vere e proprie operazioni di misura: reddito, spesa media per
consumi, altezza, peso, distanza media della terra dal sole, ecc.

 Elaborare informazioni 29/02/2016 Pagina 35
Le scale di misura

Variabile dicotomica e politomica: parleremo di variabile dicotomica quando essa assume due modalità
distinte; se la variabile assume un numero di modalità maggiore di due parleremo di variabile politomica

Variabile quantitativa discreta: è definita su uno spazio numerico, ma assume un numero limitato (o al
più un’infinità numerabile, ma è più che altro un caso di scuola) di valori. Generalmente, una variabile
quantitativa discreta è originata da operazioni di conteggio riguardanti il numero di volte in cui un
evento (o condizione, o stato) si manifesta (numero di figli, numero di visite mediche specialistiche, numero
di ricoveri in day hospital, numero di incidenti stradali, numero di spettatori)

Variabile quantitativa continua: è definita su uno spazio numerico e può teoricamente assumere
qualsiasi valore compreso in un intervallo di estremi definiti. Di solito è generata da un’operazione di
misurazione strumentale diretta o indiretta. Esempi di variabile continua sono l’età, l’altezza, l’area, il
volume, il reddito. Una variabile continua può essere trasformata in una variabile discreta
suddividendo l’intervallo dei suoi possibili valori (range) in due o più sottointervalli, procedura che
prende il nome di discretizzazione. Ad es. l’età rilevata in un collettivo può essere suddivisa in 3 classi: <
30 , 30-60, > 60. La variabile risultante è di tipo ordinale

 Elaborare informazioni 29/02/2016 Pagina 36
Le scale di misura

Adesso abbiamo tutti gli elementi per definire il concetto di scala di misura

Premesso che i possibili esiti della misurazione di una variabile sono definiti modalità, definiamo scala
di misura di una variabile l’insieme delle modalità che otteniamo o potremmo ottenere come risultato
dell’operazione di misura di un fenomeno d’interesse su un insieme di unità statistiche, componenti una
popolazione o un suo sottoinsieme (campione)

Le modalità devono essere:
• Individuate in maniera esplicita
• In numero non inferiore a due
• Mutuamente esclusive
• Esaustive

Ovviamente, è il tipo di fenomeno analizzato e le caratteristiche della variabile oggetto di
misurazione a determinare le proprietà matematiche della scala di misura e la gamma di indicatori di
sintesi che sarà possibile calcolare a partire dalle osservazioni

 Elaborare informazioni 29/02/2016 Pagina 37
Le scale di misura

Scala nominale (o qualitativa sconnessa)
• Permette di classificare eventi e oggetti in categorie
• I differenti stati assunti dal fenomeno sono indicati da una qualità non numerica (es. colore, genere).
 Gli stati stessi non possono essere ordinati con un criterio del tipo maggiore/minore
• Operazioni di confronto ammesse fra unità: uguale/diverso
• Indicatori di sintesi: moda

Che cos’è la moda: è la modalità del carattere che si presenta con maggiore frequenza all’interno di
un collettivo. La moda è l’unico parametro di sintesi che è possibile individuare nel caso di fenomeni
definiti su scala qualitativa sconnessa

 Elaborare informazioni 29/02/2016 Pagina 38
Le scale di misura

Esempio. Ipotizziamo di domandare a 8 ragazzi di quale colore
sceglieranno il prossimo smartphone e di raccogliere le loro
risposte nel prospetto di rilevazione a fianco.
 Unità di rile vaz ione Colore pre fe rito
Possiamo sintetizzare le loro risposte in una tabella costruita Marco Nero
 Giorgio Bianco
come riportato nel secondo prospetto, detto prospetto di Rebecca Arancione
sintesi. Claudia Bianco
 Alessia Nero
 Matteo Verde
Dall’esame della distribuzione delle frequenze assolute, riportata Vanessa Bianco
nella seconda colonna del prospetto di sintesi, è agevole Nicholas Bianco
accorgersi che 4 ragazzi su 8 (cioè il 50% dei rispondenti) ha
dichiarato l’intenzione di acquistare uno smartphone di colore
bianco. Quindi «bianco» è la moda, cioè la modalità del
carattere che si presenta più frequentemente nel collettivo Colore Fre que nz a Fre que nz a
 pre fe rito assoluta re lativa
osservato ( X) ( NX ) ( fX )
 Nero 2 0,250
 Bianco 4 0,500
 Arancione 1 0,125
 Verde 1 0,125

 Totale 8 1,000

 Elaborare informazioni 29/02/2016 Pagina 39
Le scale di misura

Scala ordinale
• Dispone oggetti ed eventi in sequenza in base a un ordine convenzionale (es. gradi militari)
• Operazioni di confronto ammesse fra unità:
  uguale/diverso
  maggiore/minore
• Indicatori di sintesi: moda, mediana

Che cos’è la mediana: in presenza di variabili ordinali (e quindi di unità statistiche che possono essere
convenzionalmente ordinate), la mediana è quella modalità del carattere che bipartisce il collettivo
ordinato in due sottoinsiemi approssimativamente di uguale numerosità

 Elaborare informazioni 29/02/2016 Pagina 40
Le scale di misura

Esempio. Ipotizziamo di aver rilevato il livello di
scolarità all’interno di un collettivo di N = 100 Fre que nz a
dipendenti di una società multinazionale e di aver Fre que nz a Fre que nz a re lativa
sintetizzato i risultati della rilevazione nel Live llo di scolarità assoluta re lativa cumulata
 ( X) ( NX ) ( fX ) ( cX )
prospetto a fianco.
 Nessun titolo 0 0,00 0,00
 Licenza elementare 1 0,01 0,01
Nel collettivo ordinato, la moda si situa in Scuola media inferiore 4 0,04 0,05
corrispondenza della «scuola media superiore», Scuola media superiore 40 0,40 0,45
 Laurea triennale 35 0,35 0,80
mentre la mediana è dislocata in corrispondenza Laurea specialistica 15 0,15 0,95
della modalità «laurea triennale» Master/Dottorato 5 0,05 1,00

 Totale 100 1,00

 Elaborare informazioni 29/02/2016 Pagina 41
Le scale di misura

Scala intervallare
• Lo zero della scala (l’origine del sistema di riferimento) è arbitrario (es.: scala Celsius, scala
 Fahrenheit)
• Operazioni di confronto ammesse fra unità:
 • uguale/diverso
 • maggiore/minore
 • somma, sottrazione
• Indicatori di sintesi: moda, mediana, media aritmetica, altri parametri di forma

Che cos’è la media aritmetica: è un indicatore di tendenza centrale, che sintetizza due o più misure
numeriche per mezzo di un unico valore numerico di sintesi

Esempio di fenomeno definito su scala intervallare. Pur non essendo particolarmente diffusi, esistono
alcuni fenomeni definiti su scala intervallare, per i quali l’origine del sistema di riferimento, come detto in
precedenza, è fissata arbitrariamente. L’esempio classico è la temperatura, misurata in gradi Celsius e in
gradi Fahrenheit. La relazione tra i due sistemi è definita dalla funzione lineare = 32 + 1,8 ∙ 

Sistema di riferimento Celsius: Roma 10C° Milano 5C°
Sistema di riferimento Fahrenheit: Roma 50F° Milano 41F°

 Elaborare informazioni 29/02/2016 Pagina 42
Le scale di misura

Esempio. Ipotizziamo di aver registrato la
temperatura alle ore 12 del 26 e del 29 febbraio
in alcuni capoluoghi italiani. Le informazioni Te mpe ratura Te mpe ratura
potrebbero essere organizzate nel prospetto a rile vata alle rile vata alle
fianco. Unità di rile vaz ione ore 12 de l ore 12 de l
 (città) 26/02/2016 29/02/2016
 Roma 16 17
Dovremo in primo luogo organizzare i dati relativi Milano 12 14
alla temperatura, per poi analizzare le T orino 11 12
informazioni e verificare se si conformano in base Bologna 13 14
ad un qualche modello interpretativo Napoli 15 16
 Bari 17 18
 Palermo 20 21

 Elaborare informazioni 29/02/2016 Pagina 43
Le scale di misura

Strutturiamo il relativo prospetto di sintesi nel modo seguente:

 Fre que nz a Fre que nz a Fre que nz a Fre que nz a
 assoluta re lativa assoluta re lativa
 Te mpe ratura 26/02/2016 26/02/2016 29/02/2016 29/02/2016
 ( X) ( NX ) ( fX ) ( NX ) ( fX )
 [10, 14) 3 0,429 1 0,143
 [14, 18) 3 0,429 4 0,571
 [18, 21] 1 0,143 2 0,286

 Totale 7 1,000 7 1,000

Dall’esame dei dati riportati nel prospetto, cosa possiamo dedurne?

 Elaborare informazioni 29/02/2016 Pagina 44
Le scale di misura

Scala proporzionale (o di rapporti)
• Lo zero della scala è reale (corrisponde all’assenza della variabile)
• I rapporti fra i valori numerici hanno significato
• Operazioni ammesse:
 • uguale/diverso
 • maggiore/minore
 • addizione, sottrazione, moltiplicazione, divisione
• Indicatori di sintesi: moda, mediana, medie di potenze, altri parametri di forma, altri rapporti
 statistici

 Elaborare informazioni 29/02/2016 Pagina 45
Le scale di misura

Esempio. Ipotizziamo di rilevare la retribuzione
netta mensile all’interno del collettivo di N = 100
dipendenti di una società multinazionale e di aver
sintetizzato i risultati della rilevazione nel Fre que nz a
prospetto a fianco: Re tribuz ione ne tta Fre que nz a Fre que nz a re lativa
 me nsile assoluta re lativa cumulata
 ( X) ( NX ) ( fX ) ( cX )
Come vedremo durante il corso, esiste un’ampia [500, 1000) 8 0,08 0,08
gamma di metodi che ci consentiranno di [1000. 1500) 30 0,30 0,38
analizzare non soltanto le caratteristiche [1500. 2000) 42 0,42 0,80
distributive del fenomeno analizzato, ma anche [2000, 2500) 15 0,15 0,95
 [2500. 3000] 5 0,05 1,00
quelle di fenomeni più complessi e di indagare
sulle relazioni che legano tra loro più fenomeni,
rilevati in un collettivo osservato (ad esempio, la
relazione tra scolarità e retribuzione netta
mensile)
 Totale 100 1,00

 Elaborare informazioni 29/02/2016 Pagina 46
Materiali per la preparazione dell’esame

• Slides
• Altro materiale (testi di esercitazioni, esercizi svolti, complementi) pubblicato su Moodle a cura del
 docente

Per ogni ulteriore chiarimento o esigenza informativa:

 alessandro.polli@uniroma1.it

 Elaborare informazioni 29/02/2016 Pagina 47
Puoi anche leggere