Statistica Elaborare informazioni: come e soprattutto perché - Dipartimento di Scienze Sociali ...
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Statistica Elaborare informazioni: come e soprattutto perché alessandro polli facoltà di scienze politiche, sociologia, comunicazione
Statistica e informazione Iniziamo il corso nel modo più coerente, definendo la disciplina che ci accingiamo a studiare. La statistica è un insieme di metodi logico-matematici per lo studio quantitativo di un fenomeno di interesse (vedremo in seguito cosa intendere per «fenomeno»). In particolare, la statistica studia i metodi attraverso i quali una realtà fenomenica può essere sintetizzata e quindi compresa attraverso: • la raccolta di informazioni • la trasformazione delle informazioni in dati • l’analisi dei dati • la verifica di ipotesi La statistica metodologica è suddivisa in due ampie aree tematiche: • statistica descrittiva • statistica inferenziale Riservandoci di approfondire la definizione della statistica come disciplina, dall’esame del primo elenco è immediato accorgerci della centralità del concetto di informazione. Ma qual è il collegamento esistente tra realtà, informazione e statistica? Elaborare informazioni 29/02/2016 Pagina 2
Statistica e informazione Per cominciare, estendiamo l’ambito a cui ci riferiamo abitualmente con il concetto di «informazione»: l'informazione non è una «notizia» o un «insieme di notizie», è la struttura del mondo reale Chiariamo il senso di questa affermazione: l’informazione è una componente essenziale di tutto ciò che esiste, poichè è il mezzo attraverso cui entriamo in contatto con la realtà esterna «L'informazione ha un duplice aspetto. Può essere una componente interna delle cose o può essere una descrizione generale di una data tipologia di cose» (Floridi, 2010) Esempio 1. Ipotizziamo un oggetto (una t-shirt) esposto in una vetrina: dà informazioni sul suo colore, sulla sua consistenza, sulle finiture di quell'oggetto e, se lo compro, avrò proprio quello La stessa t-shirt in vendita nel Web: sul catalogo troviamo informazioni generali, ma non su qualità come la consistenza del singolo esemplare. E se la si compra non è proprio quella della foto: solo una con le caratteristiche descritte in catalogo Luciano Floridi (2010), Information. A very short introduction, Oxford University Press Elaborare informazioni 29/02/2016 Pagina 3
Statistica e informazione Informazione è un termine che ricorre spesso nel linguaggio di tutti i giorni, ma non si presta a definizioni univoche Il principale ostacolo in tal senso nasce dal fatto che il termine «informazione» è utilizzato nei contesti più vari. Una descrizione precisa dei fenomeni in cui interviene il concetto di informazione deve quindi essere preceduta da un'analisi dei fenomeni stessi, al fine di individuarne le principali caratteristiche Il processo di comunicazione, come è noto, è uno schema interattivo tra • Una sorgente che ha la necessità o la potenzialità di comunicare informazioni • Un canale (mezzo di trasmissione, media) attraverso cui il messaggio si propaga e si diffonde • Un destinatario che riceve le informazioni Elaborare informazioni 29/02/2016 Pagina 4
Il processo di comunicazione Lo schema può essere reso più completo: • La sorgente emette l’informazione utilizzando un trasmettitore • Prima di inviare un messaggio lungo il canale, il trasmettitore traduce l’informazione in forma adatta alla trasmissione. La traduzione dell’informazione da parte del trasmettitore può essere fatta in modo tale da: proteggere l'informazione trasmessa (problema della codifica) adeguare il linguaggio usato dalla sorgente al linguaggio del destinatario • Il canale provvede al trasporto dell’informazione. In base alle proprie caratteristiche fisiche il canale può trasportare una quantità di informazione più o meno grande. Mentre viaggia all'interno del canale, l'informazione è sottoposta ad una serie di fenomeni, indicati dal termine rumore, che tendono a distorcerla • Il messaggio giunge al ricevitore, che svolge le operazioni inverse a quelle svolte dal trasmettitore e ritraduce il messaggio • Il messaggio giunge al destinatario. Non sempre il messaggio in arrivo è uguale a quello inviato originariamente Elaborare informazioni 29/02/2016 Pagina 5
Il processo di comunicazione Come definire in maniera più appropriata l’informazione all’interno del processo di comunicazione? • Nel processo di comunicazione, l’informazione è considerata una notizia (cioè un elemento cognitivo nuovo per il ricevente e in quanto tale suscettibile di risolvere una condizione di incertezza) codificata come testo scritto, discorso, sistema convenzionale di segni, dato numerico, codice binario (bit) • In generale l’informazione è una sequenza di simboli: la sorgente di un processo (trasmettitore) è una qualunque entità che può trasmettere informazioni sotto forma di sequenze di simboli • Il canale è il mezzo attraverso il quale è trasmessa l'informazione: la caratteristica propria del canale è il fatto di produrre rumore (o distorsione, o errore), una caratteristica presente in tutti i processi di comunicazione Elaborare informazioni 29/02/2016 Pagina 6
L’approccio in termini cognitivi In generale le scienze cognitive studiano le modalità di formazione del pensiero, dell'emozione, dell'immaginazione, dell'intellezione (intesa come il processo dell’intendere mediante la facoltà dell’intelletto) e della creatività L’approccio cognitivo enfatizza le relazioni tra la realtà fenomenica e la sua interpretazione da parte di un osservatore Una teoria diffusa nell’ambito delle scienze cognitive è il c.d. modello input/output Elaborare informazioni 29/02/2016 Pagina 7
L’approccio in termini cognitivi Congettura Informazione Realtà Teoria Osservatore Output Input Controllo Elaborare informazioni 29/02/2016 Pagina 8
Fenomeno, fatto, fenomenologia Fenomeno. L’uso scientifico del termine fenomeno fa riferimento ad avvenimenti ed eventi che accadono intorno a noi (nel tempo e nello spazio) e che siamo in grado di osservare I «fenomeni» pertanto sono logicamente distinti dagli «oggetti» che pure si trovano intorno a noi, ma che mantengono nel tempo e nello spazio una sostanziale identità La definizione di fenomeno implica quindi un qualche tipo di mutamento di stato nel tempo e/o nello spazio Fatto. Una parola spesso utilizzata come sinonimo di fenomeno è fatto. Tuttavia l’uso di quest’ultimo termine è limitato a un singolo evento, mentre il fenomeno indica un insieme di fatti in qualche modo collegati tra loro Esempio: un crollo di borsa è un fatto economico; i corsi azionari, le operazioni di mercato, la produzione industriale sono fenomeni economici In alcuni casi il collegamento tra fatti può essere stabilito in maniera agevole e intuitiva attraverso l’osservazione. In altri casi l’individuazione del legame può richiedere il passaggio dall’osservazione all’esperimento Elaborare informazioni 29/02/2016 Pagina 9
Fenomeno, fatto, fenomenologia Fenomenologia. Con il termine fenomenologia indichiamo un insieme di fatti e fenomeni posti convenzionalmente in relazione. Cerchiamo di chiarire il senso dell’avverbio «convenzionalmente»: il mondo «reale» è caratterizzato dall’esistenza di oggetti e dal verificarsi di processi, mutamenti, fatti e fenomeni: le caratteristiche di «realtà» di tali elementi sono definite in base a convenzioni, cioè ad accordi intersoggettivi tra osservatori L’attribuzione al fenomeno di qualificazioni quali «fisico», «biologico», «economico» implica sempre il riconoscimento di un contesto, di caratteristiche comuni e, talvolta, l’esistenza di una descrizione scientifica Elaborare informazioni 29/02/2016 Pagina 10
Dall’osservazione alla descrizione, dalla descrizione alla teoria Descrizione verbale. Nella vita di tutti i giorni siamo soliti descrivere i fenomeni limitandoci ad evidenziarne le caratteristiche più evidenti: tali descrizioni possono assumere il carattere di leggi anche se sono espresse in forma esclusivamente verbale Il problema nasce dal fatto che una descrizione verbale potrebbe rivelarsi inadeguata in presenza di concatenazioni di eventi particolarmente complesse, tanto da rendere impossibili previsioni accurate: in questi casi è necessario definire meglio il fenomeno indicando le grandezze suscettibili di misurazione e che ne determinano l’evoluzione Legge empirica. I fenomeni possono essere descritti in forma parzialmente unificata attraverso leggi empiriche, cioè relazioni tra le grandezze che ne influenzano manifestazioni e dinamica. Il problema centrale nella descrizione scientifica di un fenomeno risiede quindi nella definizione e misurazione di tali grandezze, che prendono il nome di variabili È importante notare che la descrizione di un fenomeno attraverso leggi empiriche, fornendo indicazioni sulle sue modalità di manifestazione, potrebbe consentirci di formulare qualche tipo di previsione anche per fenomeni simili Elaborare informazioni 29/02/2016 Pagina 11
Dall’osservazione alla descrizione, dalla descrizione alla teoria Schema teorico. Una più ampia capacità predittiva si ha tuttavia se più fenomeni possono essere inquadrati in uno stesso schema teorico. Una teoria, a differenza di una legge empirica, definisce un mondo ideale che rappresenta il modello per descrivere e spiegare i fenomeni osservati. In altri termini si elabora uno schema teorico per comprendere perché il fenomeno ha luogo e perché si manifesta nel modo osservato empiricamente Gli schemi teorici sono generalmente espressi in forma di relazioni funzionali tra variabili, il che rende necessaria l’adozione di una notazione logico-matematica. Se il nostro obiettivo è verificarne la capacità esplicativa e l’applicabilità nel mondo reale, tuttavia, prima o poi saremo obbligati a “riportare la vita” nei nostri (più o meno) sofisticati schemi teorici e sostituire quantità numeriche alle variabili matematiche Questo passaggio dall’astrazione teorica alla realtà non è immediato come potrebbe sembrare: • L’analisi di situazioni concrete richiede che queste ultime possano essere individuate, definite e misurate • è possibile svolgere queste operazioni su un fenomeno considerato nella sua globalità o, più spesso, su un sottoinsieme ristretto di sue manifestazioni, spesso selezionate tramite procedure di campionamento Va notato che a differenza delle scienze sperimentali, in cui l’esperimento di solito può essere ripetuto, nelle scienze sociali la possibilità di effettuare esperimenti in condizioni di laboratorio rappresenta un’eccezione e non la regola Elaborare informazioni 29/02/2016 Pagina 12
Il metodo statistico Come accennavamo in precedenza, la statistica è l’insieme dei metodi logico-matematici per lo studio quantitativo di un fenomeno (che a sua volta può essere quantitativo o qualitativo). Il principale campo d’indagine della statistica è quello relativo ai metodi tramite i quali una realtà fenomenica può essere sintetizzata e compresa attraverso l’analisi delle sue manifestazioni In sintesi, il metodo statistico mira a individuare procedure per • la raccolta di informazioni • la trasformazione delle informazioni in dati • l’analisi dei dati • la verifica di ipotesi La scienza statistica è comunemente suddivisa in due branche principali: • statistica descrittiva • statistica inferenziale Elaborare informazioni 29/02/2016 Pagina 13
L’approccio descrittivo La statistica descrittiva è la branca della statistica che studia i criteri di rilevazione, di classificazione e di sintesi delle informazioni relative ad una popolazione oggetto di studio In particolare la statistica descrittiva studia gli strumenti e le procedure più idonee per: • raccogliere informazioni sulla popolazione, o su una parte di essa (campione), sia con riferimento a fenomeni univariati (un solo carattere oggetto di studio), sia multivariati (almeno due caratteri); • organizzare, classificare e presentare le informazioni in modo ordinato; • Descrivere in termini sintetici l’insieme delle osservazioni attraverso famiglie di indici: indici di posizione, indici di variabilità, indici di forma, rapporti statistici, relazioni statistiche I risultati ottenuti in tal modo si possono definire certi, a meno di errori di misurazione che, se dovuti al caso, in media si annullano Elaborare informazioni 29/02/2016 Pagina 14
L’approccio inferenziale Inferenza: trarre conclusioni logiche a partire dai dati osservati (induzione) La statistica inferenziale ha come obiettivo quello di risalire alle caratteristiche di una popolazione incognita, oggetto di studio, dall’osservazione di un campione finito di sue manifestazioni, con una possibilità di errore predeterminata dal ricercatore L’inferenza statistica mira a individuare il meccanismo generatore (la legge probabilistica) del fenomeno che si osserva. La conoscenza di tale struttura probabilistica consentirà poi di fare previsioni (si pensi, ad esempio, che quando si afferma che «l'inflazione il prossimo anno avrà una certa entità» ciò implica l’esistenza di un modello dell'andamento dell'inflazione formulato con tecniche inferenziali) La statistica inferenziale quindi è intimamente legata alla teoria della probabilità. Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo (o nello spazio, o tra unità), caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri: media (o valore atteso) e varianza La statistica inferenziale si articola poi in altri ambiti tematici, di cui i più importanti sono la teoria della stima (stima puntuale e stima intervallare) e la verifica (test) di ipotesi Elaborare informazioni 29/02/2016 Pagina 15
Alcune definizioni Popolazione statistica: per popolazione si intende l'insieme degli elementi che sono oggetto di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle modalità con le quali il fenomeno studiato si presenta Tali unità presentano tutte almeno una caratteristica comune (indicata con il termine di carattere), che viene accuratamente definita al fine di delimitare la popolazione Esempio. Con il termine di "Italiani" si può intendere sia le persone di nazionalità italiana, anche se residenti all'estero, sia le persone residenti in Italia, indipendentemente da quale sia la loro nazionalità Una popolazione statistica può essere (e a volte deve essere) definita anche rispetto al tempo Ad esempio si possono considerare gli Italiani che risultano residenti in Italia alle ore 12 di un dato giorno (popolazione definita secondo una caratteristica riferita ad un dato istante di tempo), oppure quelli nati dal 1º gennaio al 31 dicembre di un dato anno (popolazione definita secondo una caratteristica riferita ad un intervallo di tempo) Elaborare informazioni 29/02/2016 Pagina 16
Alcune definizioni Ovviamente per popolazione statistica non intendiamo esclusivamente un insieme biologico: costituisce una popolazione anche l'insieme delle lampadine prodotte da un'azienda in un dato periodo di tempo, l'insieme delle nazioni del continente europeo in un dato anno, l'insieme delle imprese presenti sul territorio della provincia di Como, ecc. Infatti, si distingue anche tra: • popolazione reale o empirica: un insieme le cui unità possono essere tutte concretamente osservate (ad esempio l'insieme delle persone, delle abitazioni o delle aziende oggetto di un censimento) • popolazione virtuale o teorica: un insieme definibile con accuratezza ma non concretamente osservabile (ad esempio le possibili sestine estraibili nel gioco del superenalotto o l'insieme di tutti i possibili valori di una misura fisica) Elaborare informazioni 29/02/2016 Pagina 17
Alcune definizioni Popolazione e campione. Le informazioni di interesse per l'analisi statistica possono costituire: • Popolazione: se il collettivo comprende tutte le unità omogenee rispetto ad una caratteristica comune; • Campione: se il collettivo in esame costituisce un sottoinsieme della popolazione di riferimento Le indagini su popolazione (o censuarie) riguardano l'intera popolazione e pur essendo più affidabili riguardo al parametro oggetto d'indagine presentano alcuni notevoli svantaggi: • maggiori costi • tempi più lunghi • minore accuratezza e minori risorse concentrate sul controllo della qualità della rilevazione (quello che si guadagna in estensione si perde in profondità) Le rilevazioni campionarie, viceversa, sono utili per fare inferenza (ossia per desumere dal campione stesso un'informazione relativa all'intera popolazione) e presentano innegabili vantaggi: • sono meno costose • sono più rapide nella loro esecuzione • sono più accurate e con maggiori risorse concentrate nei controlli di qualità della rilevazione Elaborare informazioni 29/02/2016 Pagina 18
Alcune definizioni Popolazione e campione. L'indagine su popolazione o censuaria fornisce il valore «vero» dei parametri di interesse (proporzioni, percentuali, medie, totali, ... ) L’indagine campionaria restituisce una stima del valore «vero» dei parametri di interesse, ai quali è associato un certo grado di fiducia (ovvero un'incertezza) quantificabile quando la formazione del campione risponde a determinati criteri di tipo probabilistico Il campionamento è adottato quando si vuole conoscere uno o più parametri di una popolazione, senza doverne analizzare ogni elemento: questo per motivi di costi intesi sia in termini monetari, sia di tempo, di qualità o di disagio o perché analizzare il fenomeno sulla popolazione la distruggerebbe (si pensi alle rilevazioni svolte su una colonia di batteri utilizzando luce ultravioletta … ) rendendo inutilizzabile l'informazione ottenuta Elaborare informazioni 29/02/2016 Pagina 19
Organizzare e analizzare le informazioni Formulare congetture, teorie, previsioni sul mondo circostante è un’attività abituale dell’essere umano e non è confinata agli operatori della conoscenza L’essere umano è posto nella necessità di interpretare fatti e fenomeni e di risalire a concatenazioni casuali che possono essere anche molto complesse: in tale attività conoscitiva assume centralità il processo di organizzazione e analisi delle informazioni raccolte L’organizzazione e l’analisi delle informazioni è uno degli obiettivi delle discipline statistiche La statistica nella sua evoluzione non si discosta dal percorso di altre discipline scientifiche: nasce come attività pratica, indirizzata alla soluzione di problemi concreti e contingenti, per poi sistematizzarsi in una successiva fase metologica. In quanto disciplina scientifica, la statistica è relativamente recente: le prime attività ad essa riconducibili risalgono al XVII secolo e furono favorite dal grande sviluppo delle discipline matematiche e del c.d. metodo scientifico Elaborare informazioni 29/02/2016 Pagina 20
Organizzare e analizzare le informazioni Per realizzare una analisi statistica non è sufficiente raccogliere dati, bisogna anche organizzarli in modo appropriato (cioè mantenendo un certo ordine … ) Sia che i dati provengano da fonti secondarie o da rilevazioni ad hoc, essi vanno organizzati in modo da rendere possibili le analisi statistiche, che spesso coinvolgono una pluralità di variabili Organizzare i dati in modo appropriato significa strutturarli convenientemente, al fine di consentirne l’analisi. La struttura adottata per organizzare i dati è la c.d. matrice dati Definiamo matrice dati una tabella bidimensionale composta da un certo numero di righe e di colonne: su ogni riga riportiamo le informazioni riferite alle singole unità di osservazione, o unità statistiche. Nelle colonne vengono invece collocati gli attributi delle unità statistiche, cioè le diverse variabili misurate su di esse Elaborare informazioni 29/02/2016 Pagina 21
Organizzare e analizzare le informazioni Grado di accordo con l'affermazione: "Le spese per il Spesa media Spesa media Reddito Tipo di autoveicolo mantenimento dell'auto sono #ID Genere Residenza Età mensile per mensile per annuo posseduto eccessive" (0 = totalmente in consumi trasporti disaccordo; 10 = completamente d'accordo) 1 M Centro 56 102,000 4,975 Berlina 450 2 2 F Periferia 29 28,000 1,450 Utilitaria 350 8 3 F Comune dell'hinterland 36 26,000 1,370 Utilitaria 150 5 4 M Periferia 43 37,000 1,650 Berlina 400 6 5 F Comune dell'hinterland 41 29,000 1,520 Utilitaria 250 6 6 F Comune dell'hinterland 38 35,000 1,560 Utilitaria 300 7 7 F Comune dell'hinterland 32 29,000 1,490 Utilitaria 330 8 8 F Centro 28 56,000 2,000 Altro 100 3 9 M Periferia 48 24,000 1,250 Utilitaria 140 5 10 M Centro 43 75,000 2,700 SUV 650 10 11 F Periferia 62 21,000 1,100 Non possiede auto 35 1 12 M Periferia 55 32,000 1,450 Utilitaria 120 4 13 F Comune dell'hinterland 34 17,000 1,100 Non possiede auto 50 0 14 M Periferia 46 31,000 1,600 Altro 250 5 15 M Comune dell'hinterland 51 38,000 1,750 Altro 350 7 16 F Periferia 39 24,000 1,250 Altro 200 6 17 F Periferia 23 12,000 750 Non possiede auto 35 0 18 F Semicentrale 45 45,000 1,550 SUV 550 9 19 M Centro 72 82,000 2,500 Non possiede auto 0 1 20 F Semicentrale 56 29,000 1,650 Utilitaria 100 3 21 M Semicentrale 49 46,000 1,750 Altro 150 4 22 M Periferia 50 25,000 1,300 Utilitaria 150 5 23 F Periferia 26 22,000 1,100 Utilitaria 100 2 24 M Periferia 48 37,000 1,600 Berlina 250 6 25 F Comune dell'hinterland 34 23,000 1,200 Utilitaria 300 7 Elaborare informazioni 29/02/2016 Pagina 22
Organizzare e analizzare le informazioni Ad esempio, se il nostro obiettivo è analizzare le problematiche relative alla mobilità ricorrendo ad un campione di lavoratori di una grande area urbana, nelle righe della matrice dei dati saranno collocate le informazioni riferite i singoli rispondenti, mentre nelle colonne verranno collocate le variabili che sono state rilevate su ciascuna unità statistica Le variabili possono essere di tipologie eterogenee rispetto alla scala di misura: alcune quantitative, come il reddito annuo, il consumo medio mensile o la spesa mensile per trasporti; altre qualitative ordinali, come il titolo di studio del rispondente; altre ancora qualitative sconnesse, come il genere o la zona di residenza (ritorneremo in seguito sul problema della misurazione e su quello connesso relativo alle scala di misura) Le analisi che potranno essere compiute e gli indici statistici che potranno essere calcolati naturalmente differiranno a seconda del tipo di variabile considerata Elaborare informazioni 29/02/2016 Pagina 23
La matrice dati e le analisi preliminari Quali sono le principali analisi preliminari che possono essere condotte sulla matrice dati? In sintesi, possiamo condurre analisi sui c.d. “profili di colonna” e quelle sui c.d. “profili di riga” della matrice. I profili di colonna si riferiscono alle distribuzioni delle singole variabili tra le unità statistiche, mentre i profili di riga descrivono le singole unità statistiche sulla base delle molteplici variabili su di esse rilevate Per quanto riguarda le analisi sui profili di colonna, possono essere condotte analisi univariate, concernenti cioè le singole variabili, attraverso indici che saranno oggetto di trattazione nel nostro corso. Nel caso di variabili quantitative, ciò equivale a calcolare i principali indici di posizione, di variabilità, di forma, di concentrazione (nel caso di caratteri trasferibili). Quanto alle principali analisi bivariate, riguardano in particolare il grado di associazione tra coppie di variabili presenti nella matrice dei dati Con riferimento ai profili riga, le analisi che possono essere svolte mirano principalmente a misurare la distanza e la similarità tra unità statistiche. Gli indici di associazione o di distanza costituiscono spesso il punto di partenza per analisi statistiche più complesse, quali la formulazione dei modelli di regressione multivariata e la realizzazione di diverse analisi multidimensionali (analisi delle corrispondenze, analisi delle corrispondenze multiple, analisi in componenti principali) Elaborare informazioni 29/02/2016 Pagina 24
Cross-section, serie storiche, panel Definiamo cross-section una particolare organizzazione della matrice di dati. I dati cross-section sono riferiti a un certo numero di unità osservazionali, o unità statistiche, considerate in un certo punto del tempo o senza alcun riferimento alla variabile tempo. L’analisi di una cross-section di solito consiste nel confronto tra unità statistiche Esempio. Ipotizziamo di voler misurare l’attuale diffusione dell’obesità in una popolazione. A questo scopo estraiamo un campione casuale di 1000 unità dalla popolazione (definito anche come una cross-section della popolazione), ne misuriamo il peso e l’altezza e calcoliamo l’incidenza dell’obesità nel campione osservato La cross-section ci fornisce un’istantanea della popolazione oggetto di studio, nel momento in cui lo studio è stato condotto. Notare che sulla base dell’informazione cross-section non possiamo sapere se il fenomeno è in aumento o in diminuzione: possiamo solo descrivere l’attuale incidenza dell’obesità nella popolazione Elaborare informazioni 29/02/2016 Pagina 25
Cross-section, serie storiche, panel Un semplice esempio di cross Re gione Nume ro section è il numero di stranieri residenti nelle regioni italiane al Piemonte 425.448 primo gennaio 2015: Valle d'Aosta 9.075 Lombardia 1.152.320 T rentino-Alto Adige 96.149 Veneto 511.558 Friuli-Venezia Giulia 107.559 Liguria 138.697 Emilia-Romagna 536.747 T oscana 395.573 Umbria 98.618 Marche 145.130 Lazio 636.524 Abruzzo 86.245 Molise 10.800 Campania 217.503 Puglia 117.732 Basilicata 18.210 Calabria 91.354 Sicilia 174.116 Sardegna 45.079 Totale 5.014.437 Elaborare informazioni 29/02/2016 Pagina 26
Cross-section, serie storiche, panel Definiamo serie storica (o cronologica, o longitudinale) un insieme di osservazioni relative ad un fenomeno d’interesse, descritte e ordinate dal parametro appartenente al tempo. Il fenomeno osservato, tradotto in una grandezza misurabile (variabile), può essere osservato: • in un determinato istante del tempo (variabile di stato: numero di dipendenti di un’azienda il primo gennaio dell’anno , numero di stranieri residenti il 31 dicembre dell’anno ); • in un intervallo di tempo di durata definita (variabile di flusso: assunzioni annuali di un’azienda, flusso migratorio annuo) L’analisi più interessante su una serie storica è quella relativa alle sue caratteristiche dinamiche, cioè al «modo» in cui il fenomeno osservato varia nel tempo. Cerchiamo di individuare il processo generatore del fenomeno osservato soprattutto a fini di previsione; tuttavia, la maggior parte dei fenomeni osservati è di tipo stocastico e si rivela quindi impossibile elaborare previsioni prive di errore Elaborare informazioni 29/02/2016 Pagina 27
Cross-section, serie storiche, panel Un esempio di serie storica è il prodotto interno lordo a valori Anno Valore correnti nell’intervallo 1999-2014, espresso in milioni di euro: 1999 1.172.365 2000 1.239.759 2001 1.299.412 2002 1.346.360 2003 1.391.313 2004 1.449.016 2005 1.490.409 2006 1.549.188 2007 1.610.305 2008 1.632.933 2009 1.573.655 2010 1.605.694 2011 1.638.857 2012 1.614.672 2013 1.606.895 2014 1.613.859 Elaborare informazioni 29/02/2016 Pagina 28
Cross-section, serie storiche, panel Definiamo dati panel (o più semplicemente panel) un set di informazioni statistiche osservate su due dimensioni (tipicamente una dimensione cross-section e una dimensione temporale). Un panel è definito multidimensionale quando il fenomeno è osservato su tre o più dimensioni Un esempio di panel è il numero Regione 2007 2008 2009 2010 2011 medio di occupati rilevato a livello Piemonte 2036,8 2051,0 2021,5 2002,1 2022,1 Valle d'Aosta 60,3 59,8 59,6 60,6 60,2 regionale nell’intervallo 2007- Lombardia 4664,9 4696,1 4641,0 4600,1 4600,6 2011, espresso in migliaia di unità: T rentino-Alto Adige 494,7 498,8 501,2 504,9 507,0 Veneto 2327,6 2361,8 2310,0 2305,6 2328,1 Friuli-Venezia Giulia 590,1 589,3 574,2 572,8 575,0 Liguria 678,3 677,1 672,9 664,3 670,7 Emilia Romagna 2173,0 2192,2 2160,7 2137,1 2164,6 T oscana 1697,4 1711,3 1695,6 1675,5 1675,3 Umbria 394,6 394,6 384,1 383,0 386,4 Marche 734,2 738,1 730,9 731,5 726,0 Lazio 2532,7 2527,0 2517,0 2530,2 2528,8 Abruzzo 513,3 519,5 497,2 496,8 509,3 Molise 122,5 123,4 120,3 117,2 116,7 Campania 1820,2 1790,4 1720,7 1691,9 1677,7 Puglia 1337,9 1336,5 1286,3 1270,4 1280,2 Basilicata 213,6 211,8 206,2 198,5 201,2 Calabria 641,6 633,1 627,2 624,7 624,1 Sicilia 1523,7 1514,9 1500,6 1478,8 1467,1 Sardegna 621,3 620,1 603,4 606,3 613,2 Elaborare informazioni 29/02/2016 Pagina 29
Cross-section, serie storiche, panel Con riferimento alla tabella precedente, le informazioni si riferiscono a 20 unità statistiche (le regioni italiane) per un periodo compreso tra il 2007 e il 2011. Leggere la tavola nel senso delle colonne ci restituisce una cross-section (gli occupati nelle regioni nel 2007, ad esempio), mentre la lettura della tavola nel senso delle righe ci restituisce una serie storica (ad esempio, gli occupati in Piemonte tra il 2007 e il 2011) Esistono strutture di organizzazione delle informazioni (spesso indicate come cubi) che consentono la rappresentazione bidimensionale e un rapido accesso ai dati di panel multidimensionali, in cui con riferimento ad una cross-section di unità statistiche (prima dimensione) è seguito nel tempo (seconda dimensione) un insieme di variabili di interesse per un certo fenomeno (ad esempio, nel caso della spesa media mensile per l’acquisto di una certa marca di cosmetico, potrebbero essere rilevanti il reddito medio annuale, il genere, l’età, il titolo di studio, … ) Elaborare informazioni 29/02/2016 Pagina 30
Cross-section, serie storiche, panel Un semplice esempio di panel multidimensionale organizzato in una struttura a cubo basato T IME GEOGRAPHY VARIABLE 2007 Piemonte 2.036,8 sull’esempio precedente (occupati 2008 Piemonte 2.051,0 regionali): 2009 Piemonte 2.021,5 2010 Piemonte 2.002,1 2011 Piemonte 2.022,1 2007 Valle d'Aosta 60,3 2008 Valle d'Aosta 59,8 2009 Valle d'Aosta 59,6 2010 Valle d'Aosta 60,6 2011 Valle d'Aosta 60,2 2007 Lombardia 4.664,9 2008 Lombardia 4.696,1 2009 Lombardia 4.641,0 2010 Lombardia 4.600,1 2011 Lombardia 4.600,6 … … … Elaborare informazioni 29/02/2016 Pagina 31
Il trattamento delle informazioni. Perché? Uno dei principali ambiti di applicazione dei metodi statistici è il confronto tra grandezze. Nell’uso corrente, il termine grandezza ha un significato intuitivo. Tuttavia, da una rapida consultazione di un qualsiasi dizionario (il Sabatini Coletti nel nostro caso) appare evidente che il concetto sottostante non risulta affatto di immediata definizione: Infatti il termine grandezza può essere riferito a: 1. Dimensioni, mole di un oggetto considerato in lunghezza, larghezza, altezza, volume (misurare la grandezza di qualcosa; anche con riferimento a persona: un uomo di media grandezza); 2. Eccedenza ed eccezionalità rispetto alle misure ritenute normali, anche in senso figurato (la grandezza di Shakespeare; avere manie di grandezza: ostentare un alto tenore di vita non adeguato alle reali possibilità finanziarie; grandezza d'animo: magnanimità); 3. (mat., fis.) Classe di enti a ciascuno dei quali può essere assegnata una misura; anche, la misura stessa: grandezze omogenee, commensurabili; grandezza scalare, vettoriale Nell’ultima accezione il termine «grandezza» è indissolubilmente legato alle operazioni di misura Elaborare informazioni 29/02/2016 Pagina 32
Il trattamento delle informazioni. Perché? Definiamo grandezza una classe di equivalenza di proprietà misurabili. Condizione necessaria affinché una classe di equivalenza di proprietà sia misurabile è che sia possibile stabilire una relazione d’ordine fra quelle proprietà in sistemi diversi: poter giudicare quale sistema presenta «più» proprietà dell’altro. Se il confronto si svolge tramite un rapporto fra le proprietà dei due sistemi, allora la classe di equivalenza di quelle proprietà è una grandezza In questo caso, è possibile scegliere la proprietà di un particolare sistema ed eleggerla a unità di misura per quella grandezza. Fissata l’unità di misura, la quantità di tale grandezza per un qualsiasi altro sistema potrà essere univocamente specificata da un valore numerico ottenuto dal rapporto con la proprietà scelta come campione di riferimento. Perché confrontiamo grandezze? In generale, effettuiamo tali confronti per cogliere le diversità esistenti tra gli stati attraverso i quali un fenomeno si manifesta, operazione indispensabile ai fini della conoscenza del mondo reale. Il confronto fra grandezze è cruciale, anche quando non riguarda grandezze omogenee o, comunque, direttamente confrontabili: garantire coerenza e significatività ai risultati di un confronto, quindi, implica affrontare e risolvere problemi complessi Elaborare informazioni 29/02/2016 Pagina 33
Le scale di misura Prima di introdurre la nozione di scala di misura, familiarizziamo con alcune definizioni: Misurazione: Assegnazione di valori numerici ad eventi/oggetti, secondo regole definite, che permette di rappresentare le proprietà di un evento/oggetto con le proprietà del sistema numerico. Le regole tramite le quali i valori numerici sono assegnati agli eventi determinano le caratteristiche della misura Variabile: è la proprietà operativizzata, cioè rilevata sulle unità statistiche attraverso una procedura di «definizione operativa». Nel caso di caratteri qualitativi (non definiti su spazi numerici) si parlerà di mutabile Le variabili si classificano in: • Qualitative (variano in genere) e quantitative (variano in grandezza) • Nominali, ordinali e cardinali • Dicotomiche e politomiche • Nel caso di variabili quantitative, distinguiamo tra variabili continue e discrete Elaborare informazioni 29/02/2016 Pagina 34
Le scale di misura Diamo di seguito qualche definizione più dettagliata: Variabile nominale: le modalità assunte dalla variabile nominale identificano «categorie», cioè caratteristiche o qualità (da cui la nozione di variabile qualitativa) presenti nella popolazione oggetto di studio, per esempio il genere, lo stato civile, il colore degli occhi. Una variabile è nominale anche quando alle modalità sono assegnati numeri, in quanto in questo caso si tratta di semplici «etichette» (ad es. 1=“automobile”; 2=“autobus”; 3=“treno”; 4=“nessun mezzo”) Variabile ordinale: a differenza del caso precedente, la variabile ordinale si caratterizza per il fatto che le modalità assunte identificano categorie che sono in una qualche relazione d’ordine, logica o gerarchica; esiste cioè un ordine intrinseco fra esse (es. titolo di studio, grado di soddisfazione). I numeri eventualmente assegnati alle modalità di una variabile ordinale hanno un significato numerico, ma solo “ordinale” (ad es. 1=“elementare”; 2=“media inferiore”; 3=“media superiore”; 4=“laurea o più”). Variabile cardinale: le modalità assunte dalla variabile (indicata anche come variabile quantitativa) sono definite su uno spazio numerico, quindi i numeri assegnati alle modalità sono caratterizzati da proprietà matematiche. Le variabili quantitative, a loro volta, si distinguono in discrete e continue. Vi sono tantissimi esempi di variabili cardinali, tutte derivanti da vere e proprie operazioni di misura: reddito, spesa media per consumi, altezza, peso, distanza media della terra dal sole, ecc. Elaborare informazioni 29/02/2016 Pagina 35
Le scale di misura Variabile dicotomica e politomica: parleremo di variabile dicotomica quando essa assume due modalità distinte; se la variabile assume un numero di modalità maggiore di due parleremo di variabile politomica Variabile quantitativa discreta: è definita su uno spazio numerico, ma assume un numero limitato (o al più un’infinità numerabile, ma è più che altro un caso di scuola) di valori. Generalmente, una variabile quantitativa discreta è originata da operazioni di conteggio riguardanti il numero di volte in cui un evento (o condizione, o stato) si manifesta (numero di figli, numero di visite mediche specialistiche, numero di ricoveri in day hospital, numero di incidenti stradali, numero di spettatori) Variabile quantitativa continua: è definita su uno spazio numerico e può teoricamente assumere qualsiasi valore compreso in un intervallo di estremi definiti. Di solito è generata da un’operazione di misurazione strumentale diretta o indiretta. Esempi di variabile continua sono l’età, l’altezza, l’area, il volume, il reddito. Una variabile continua può essere trasformata in una variabile discreta suddividendo l’intervallo dei suoi possibili valori (range) in due o più sottointervalli, procedura che prende il nome di discretizzazione. Ad es. l’età rilevata in un collettivo può essere suddivisa in 3 classi: < 30 , 30-60, > 60. La variabile risultante è di tipo ordinale Elaborare informazioni 29/02/2016 Pagina 36
Le scale di misura Adesso abbiamo tutti gli elementi per definire il concetto di scala di misura Premesso che i possibili esiti della misurazione di una variabile sono definiti modalità, definiamo scala di misura di una variabile l’insieme delle modalità che otteniamo o potremmo ottenere come risultato dell’operazione di misura di un fenomeno d’interesse su un insieme di unità statistiche, componenti una popolazione o un suo sottoinsieme (campione) Le modalità devono essere: • Individuate in maniera esplicita • In numero non inferiore a due • Mutuamente esclusive • Esaustive Ovviamente, è il tipo di fenomeno analizzato e le caratteristiche della variabile oggetto di misurazione a determinare le proprietà matematiche della scala di misura e la gamma di indicatori di sintesi che sarà possibile calcolare a partire dalle osservazioni Elaborare informazioni 29/02/2016 Pagina 37
Le scale di misura Scala nominale (o qualitativa sconnessa) • Permette di classificare eventi e oggetti in categorie • I differenti stati assunti dal fenomeno sono indicati da una qualità non numerica (es. colore, genere). Gli stati stessi non possono essere ordinati con un criterio del tipo maggiore/minore • Operazioni di confronto ammesse fra unità: uguale/diverso • Indicatori di sintesi: moda Che cos’è la moda: è la modalità del carattere che si presenta con maggiore frequenza all’interno di un collettivo. La moda è l’unico parametro di sintesi che è possibile individuare nel caso di fenomeni definiti su scala qualitativa sconnessa Elaborare informazioni 29/02/2016 Pagina 38
Le scale di misura Esempio. Ipotizziamo di domandare a 8 ragazzi di quale colore sceglieranno il prossimo smartphone e di raccogliere le loro risposte nel prospetto di rilevazione a fianco. Unità di rile vaz ione Colore pre fe rito Possiamo sintetizzare le loro risposte in una tabella costruita Marco Nero Giorgio Bianco come riportato nel secondo prospetto, detto prospetto di Rebecca Arancione sintesi. Claudia Bianco Alessia Nero Matteo Verde Dall’esame della distribuzione delle frequenze assolute, riportata Vanessa Bianco nella seconda colonna del prospetto di sintesi, è agevole Nicholas Bianco accorgersi che 4 ragazzi su 8 (cioè il 50% dei rispondenti) ha dichiarato l’intenzione di acquistare uno smartphone di colore bianco. Quindi «bianco» è la moda, cioè la modalità del carattere che si presenta più frequentemente nel collettivo Colore Fre que nz a Fre que nz a pre fe rito assoluta re lativa osservato ( X) ( NX ) ( fX ) Nero 2 0,250 Bianco 4 0,500 Arancione 1 0,125 Verde 1 0,125 Totale 8 1,000 Elaborare informazioni 29/02/2016 Pagina 39
Le scale di misura Scala ordinale • Dispone oggetti ed eventi in sequenza in base a un ordine convenzionale (es. gradi militari) • Operazioni di confronto ammesse fra unità: uguale/diverso maggiore/minore • Indicatori di sintesi: moda, mediana Che cos’è la mediana: in presenza di variabili ordinali (e quindi di unità statistiche che possono essere convenzionalmente ordinate), la mediana è quella modalità del carattere che bipartisce il collettivo ordinato in due sottoinsiemi approssimativamente di uguale numerosità Elaborare informazioni 29/02/2016 Pagina 40
Le scale di misura Esempio. Ipotizziamo di aver rilevato il livello di scolarità all’interno di un collettivo di N = 100 Fre que nz a dipendenti di una società multinazionale e di aver Fre que nz a Fre que nz a re lativa sintetizzato i risultati della rilevazione nel Live llo di scolarità assoluta re lativa cumulata ( X) ( NX ) ( fX ) ( cX ) prospetto a fianco. Nessun titolo 0 0,00 0,00 Licenza elementare 1 0,01 0,01 Nel collettivo ordinato, la moda si situa in Scuola media inferiore 4 0,04 0,05 corrispondenza della «scuola media superiore», Scuola media superiore 40 0,40 0,45 Laurea triennale 35 0,35 0,80 mentre la mediana è dislocata in corrispondenza Laurea specialistica 15 0,15 0,95 della modalità «laurea triennale» Master/Dottorato 5 0,05 1,00 Totale 100 1,00 Elaborare informazioni 29/02/2016 Pagina 41
Le scale di misura Scala intervallare • Lo zero della scala (l’origine del sistema di riferimento) è arbitrario (es.: scala Celsius, scala Fahrenheit) • Operazioni di confronto ammesse fra unità: • uguale/diverso • maggiore/minore • somma, sottrazione • Indicatori di sintesi: moda, mediana, media aritmetica, altri parametri di forma Che cos’è la media aritmetica: è un indicatore di tendenza centrale, che sintetizza due o più misure numeriche per mezzo di un unico valore numerico di sintesi Esempio di fenomeno definito su scala intervallare. Pur non essendo particolarmente diffusi, esistono alcuni fenomeni definiti su scala intervallare, per i quali l’origine del sistema di riferimento, come detto in precedenza, è fissata arbitrariamente. L’esempio classico è la temperatura, misurata in gradi Celsius e in gradi Fahrenheit. La relazione tra i due sistemi è definita dalla funzione lineare = 32 + 1,8 ∙ Sistema di riferimento Celsius: Roma 10C° Milano 5C° Sistema di riferimento Fahrenheit: Roma 50F° Milano 41F° Elaborare informazioni 29/02/2016 Pagina 42
Le scale di misura Esempio. Ipotizziamo di aver registrato la temperatura alle ore 12 del 26 e del 29 febbraio in alcuni capoluoghi italiani. Le informazioni Te mpe ratura Te mpe ratura potrebbero essere organizzate nel prospetto a rile vata alle rile vata alle fianco. Unità di rile vaz ione ore 12 de l ore 12 de l (città) 26/02/2016 29/02/2016 Roma 16 17 Dovremo in primo luogo organizzare i dati relativi Milano 12 14 alla temperatura, per poi analizzare le T orino 11 12 informazioni e verificare se si conformano in base Bologna 13 14 ad un qualche modello interpretativo Napoli 15 16 Bari 17 18 Palermo 20 21 Elaborare informazioni 29/02/2016 Pagina 43
Le scale di misura Strutturiamo il relativo prospetto di sintesi nel modo seguente: Fre que nz a Fre que nz a Fre que nz a Fre que nz a assoluta re lativa assoluta re lativa Te mpe ratura 26/02/2016 26/02/2016 29/02/2016 29/02/2016 ( X) ( NX ) ( fX ) ( NX ) ( fX ) [10, 14) 3 0,429 1 0,143 [14, 18) 3 0,429 4 0,571 [18, 21] 1 0,143 2 0,286 Totale 7 1,000 7 1,000 Dall’esame dei dati riportati nel prospetto, cosa possiamo dedurne? Elaborare informazioni 29/02/2016 Pagina 44
Le scale di misura Scala proporzionale (o di rapporti) • Lo zero della scala è reale (corrisponde all’assenza della variabile) • I rapporti fra i valori numerici hanno significato • Operazioni ammesse: • uguale/diverso • maggiore/minore • addizione, sottrazione, moltiplicazione, divisione • Indicatori di sintesi: moda, mediana, medie di potenze, altri parametri di forma, altri rapporti statistici Elaborare informazioni 29/02/2016 Pagina 45
Le scale di misura Esempio. Ipotizziamo di rilevare la retribuzione netta mensile all’interno del collettivo di N = 100 dipendenti di una società multinazionale e di aver sintetizzato i risultati della rilevazione nel Fre que nz a prospetto a fianco: Re tribuz ione ne tta Fre que nz a Fre que nz a re lativa me nsile assoluta re lativa cumulata ( X) ( NX ) ( fX ) ( cX ) Come vedremo durante il corso, esiste un’ampia [500, 1000) 8 0,08 0,08 gamma di metodi che ci consentiranno di [1000. 1500) 30 0,30 0,38 analizzare non soltanto le caratteristiche [1500. 2000) 42 0,42 0,80 distributive del fenomeno analizzato, ma anche [2000, 2500) 15 0,15 0,95 [2500. 3000] 5 0,05 1,00 quelle di fenomeni più complessi e di indagare sulle relazioni che legano tra loro più fenomeni, rilevati in un collettivo osservato (ad esempio, la relazione tra scolarità e retribuzione netta mensile) Totale 100 1,00 Elaborare informazioni 29/02/2016 Pagina 46
Materiali per la preparazione dell’esame • Slides • Altro materiale (testi di esercitazioni, esercizi svolti, complementi) pubblicato su Moodle a cura del docente Per ogni ulteriore chiarimento o esigenza informativa: alessandro.polli@uniroma1.it Elaborare informazioni 29/02/2016 Pagina 47
Puoi anche leggere