(9 ECTS) Statistica per l'economia - Twitter @Giunotar
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Statistica per l’economia (9 ECTS) g.notarstefano@lumsa.it Twitter @Giunotar https://www.facebook.com/giuseppe.notarstefano/ Giuseppe Notarstefano https://www.linkedin.com/in/giuseppe-notarstefano-b152b512/ Skype: giunotar1
Finalità del corso • Conoscere la natura del dato statistico a partire dall’osservazione di fenomeni sociali ed economici riferiti ad un collettivo. • Conoscere il processo di produzione dei dati statistici e il loro trattamento in termini di sintesi analitiche e grafiche • Conoscere ed utilizzare un modello statistico e la sua applicazione a fenomeni economici e sociali. 3
Competenze in uscita • Lo studente: • Dovrà saper sviluppare la conoscenza della logica della produzione, dell’utilizzo e del trattamento dei dati statistici. • Dovrà comprendere come e quando la statistica sia utile per la sintesi e la rappresentazione di fenomeni socioeconomici complessi, anche in vista di decisioni da prendere o previsioni da effettuare. • Dovrà, al termine del corso, essere in grado di formalizzare un problema conoscitivo secondo la più appropriata procedura statistica al fine di raggiungere le conclusioni e fornire la risposta al problema proposto. • Dovrà avere la capacità di presentare il problema, giustificare le scelte metodologiche effettuate e fornire il risultato dell’analisi statistica in maniera esaustiva e convincente utilizzando un linguaggio appropriato. • Dovrà aver sviluppato le abilità di apprendimento necessarie per affrontare problemi nuovi che richiedano l’uso di metodologie avanzate. 4
Organizzazione del corso • 60 ore di lezione (inizio 14/02 – fine 11/05): il diario del corso è specificato nel Syllabus. • 20 ore di esercitazione (prof. Giuseppe Terzo) • Integrazione con il corso di Gestione informatica dei dati (prof. Roberto Foderà) e verifica individuale con laboratorio di analisi statistica con Excel • Seminario - Laboratorio sull’utilizzo del software statistico R-project (opzionale a scelta– aprile-maggio) • Settimana AVA (20 – 25 marzo)e prove intermedie per coloro che hanno raggiunto almeno il 70% delle ore. • Bisogni Educativi Speciali: scrivere riservatamente al docente per concordare percorsi personalizzati in collaborazione con il servizio previsto dall’Ateneo. • Sarà utilizzata inoltre la piattaforma Classroom per scambiare materiali, dare comunicazioni inerenti al corso, fare prove ed esercizio e verifiche parziali. Codice di iscrizione a ClassRoom: 2hdgids 5
Modalità di frequenza • È vivamente consigliata la frequenza in presenza di tutte le attività didattiche (lezioni , esercitazioni ,laboratori). • È tuttavia consentita la frequenza in remoto attraverso la piattaforma Meet: • Link alla videochiamata: https://meet.google.com/tdy-dxqm-bvj • Per coloro che non superano la frequenza del 75% delle ore erogate (e indipendentemente fruite in presenza oppure in remoto) è prevista una integrazione del programma di studio che verrà assegnata dal docente a fine corso. • Per coloro che non potranno frequentare e per gli studenti -lavoratori, il programma verrà concordato individualmente con il docente secondo le necessità specifiche di ciascuno. • Le presenze verranno rilevate ogni lezione in modalità casuale (inizio, durante, fine, attraverso i report di Meet). • Si consiglia di essere puntuali a lezione e non disturbare la lezione con ingressi fuori orario (in presenza e in piattaforma). • Le lezioni sono interattive, sarà sempre possibile interrompere per domande, interventi e richieste di chiarimento… esse saranno sempre accettate purché rilevanti, socialmente utili e garbate! 6
Materiale didattico • Frequentare e prendere i propri appunti è importante: molto sarà fatto a lezione! • NON ci sono dispense ufficiali del corso: diffidate degli appunti dei colleghi (legge di propagazione esponenziale dell’errore) • I materiali di supporto a lezione (slides) e altri materiali consigliati per approfondimento o esercizi saranno disponibili su Classroom • Il testi di riferimento suggerito soprattutto per chi non frequent è: • F. Mecatti, (2010) Statistica di base. Come quando, perché, II edizione,, McGraw Hill. 7
Modalità di valutazione ed esame finale: per chi fa le prove intermedie • CHI PUO’ ACCEDERE? Coloro che avranno frequentato IN PRESENZA sino alla lezione precedente alla data della prova intermedia almeno il 70% delle ore di lezione sino ad allora svolte (se sono state erogate 20 ore di lezioni, può accedere alla prova soltanto chi ha potuto frequentare in presenza almeno 14 ore). • Le prove intermedie saranno 3: • La prima consiste in 3 esercizi di statistica descrittiva univariata – periodo giovedì 23 marzo– le modalità operative di svolgimento verranno comunicate in seguito • La seconda consiste in un laboratorio pratico con Excel di analisi grafica e analisi statistica descrittiva bivariata da svolgere individualmente ma non in presenza attraverso la piattaforma Classroom (sezione lavori del corso) – periodo di svolgimento 14-15 aprile • La terza consiste in un test a risposta multipla sulla parte di probabilità e statistica inferenziale da svolgere in presenza sempre attraverso la piattaforma Classroom (sezione lavori in corso) nell’ultima settimana di lezioni 11 maggio secondo modalità organizzative che verranno comunicate in seguito. • Le prove si intendono superate se si raggiunge il punteggio di almeno 16/30; il superamento delle tre prove con valutazione sufficiente verrà considerato come valutazione positiva ai fini dell’esame finale. Per coloro che raggiungono un punteggio medio finale superiore a 24/30 è possibile migliorare tale valutazione sostenendo un colloquio orale nelle date previste di appello. Coloro che avranno una valutazione insufficiente e coloro che non vorranno accettare la valutazione finale delle prove intermedie potranno accedere regolarmente alla modalità di esame prevista per tutti 8
Modalità di valutazione ed esame finale: per chi NON fa le prove intermedie • Prova scritta di 80 minuti con 4 esercizi di descrittiva e inferenziale, il cui superamento con almeno 16/30 permetterà l’accesso ad un colloquio orale. • Lo studente dovrà iscriversi ad ogni appello unicamente alla prova orale. Non è ammesso svolgere il colloquio orale in appelli differenti da quello in cui si è superato lo scritto. • È possibile presentarsi agli appelli successivi all’interno della stessa sessione qualora non si sia superato lo scritto, l’insufficienza o il rifiuto della votazione conseguiti verranno verbalizzati come «ritiri». • L’assenza all’esame preclude l’iscrizione all’appello successivo (regola generale) 9
Altre informazioni utili • Il Syllabus con tutte le informazioni sarà disponibile insieme alla presente presentazione su Classroom e sul sito Lumsa: LEGGETE TUTTO CON MOLTA ATTENZIONE prima di fare domande pleonastiche o ripetitive. • Ricevimenti: per appuntamento attraverso piattaforma Meet o Skype da concordare sempre per email e in ogni caso prima o dopo le lezione per tutto il periodo del secondo semestre e il mercoledì dalle 11 alle 13. • Usate con MOLTA sobrietà la posta elettronica e SOLO ECCEZIONALMENTE il telefono! 10
11
La natura della informazione statistica 12
Data Science – Big Data - Datanomics • I dati «esistono».. Basta andare a cercarli .. E raccoglierli, anzi estrarli. È proprio così? • I dati sono informazioni? Basta «leggere» i dati per saperli interpretare.. Ma cosa vuol dire leggere e interpretare? • I dati sono statistiche? Occorre pertanto dirci cosa sono le statistiche e cosa è la statistica • I dati oggi alimentano e «governano» diversi processi e meccanismi sociali: sia nell’ambito del settore pubblico che del settore privato; • La digitalizzazione rende ancora più fluido e accelerato il processo di produzione dei dati ampliandone la quantità ma non sempre altrettanto la qualità; • La diffusione degli «algoritmi» e dei processi di automazione e di Intelligenza Artificiale contribuisce a strutturare processi di trattamento ed elaborazione dei dati: la statistica diventa «machine learning»; • I dati stessi diventano una «merce» di scambio fondamentale e preziosa, costituiscono un mercato che si muove tra la normativa di tutela delle riservatezza dei dati (Privacy) e quella della massima trasparenza (Open Governement). 13
L’acquisizione dei dati: raccolti, estratti, prodotti… comune mai «dati» ma sempre «presi»! • Censimenti Rilevazioni • Indagini dirette • Sondaggi •… • Statistiche Fonti ufficiali statistiche • Altri fonti non ufficiali • Dati amministrativi, non originati da finalità statistiche Dati non • Dati non strutturati relativi ad strutturati una pluralità di formati (documenti, file audio o video..) 14
Campione selezionato (estratto) con metodo probabilistico Riferiti a tutto il collettivo (popolazione) Prodotti Campioni ripetuti statisticamente nel tempo Riferiti ad una selezione della popolazione: Forme miste di il campione campionamento Campione selezionato in modo Dati Raccolti e utilizzati a Aggregati in collettivi trattati come ragionato Autoselezioni fini statistici popolazioni o campioni Campioni di convenienza Non utilizzabili a fini statistici 15
«Cattura» delle Traduzione Conservazione informazioni delle e utilizzo • In modo diretto informazioni • Archivi e • In modo indiretto • Formati logici pubblicazioni • Formati numerici • Archivi elettronici e matematici • Web DIGITALIZZAZIONE 16
• In un’analisi statistica l’interesse per la conoscenza delle unità elementari (i casi o osservazioni ) diventa meno interessante (rimane il valore del «profilo» dati ossia delle insieme di misure specifiche della singola informazioni informazione) • per dare spazio all’interesse per la dimensione di analisi rappresentata dalla variabile attraverso Dai …alle l’informazione che essa offre tramite la distribuzione nelle unità, ognuna delle quali mostra un valore di casi… variabili tale variabile (modalità) M1 M2 … Mk A A B PROFILO DI B rispetto ai valori di ciascuna Mk C C F D B E E Distribuzione di M1 D F rispetto alle unità 17
La «matrice dei dati» : oggetto base di ogni analisi statistica Aumentare il numero di variabili migliorare le informazioni sui casi contribuendo ad una loro più precisa identificazione e classificazione…. Ma…richiede più informazioni… Aumentare il numero dei casi M1 M2 … Mk contribuisce alla «consistenza» A del supporto ma induce B una maggiore eterogeneità C D E F 18
Vediamo un esempio: se io volessi descrivere per conoscere statisticamente la nostra aula potrei agire nelle due direzioni: Aumentare il numero di variabili migliora la conoscenza di ogni studente sino (al limite!) ad individuare ciascuno precisamente: ciò spiega per esempio perché in ogni strumento di misura tendiamo ad aumentare il numero delle Posso domande (item).. Ma aumentare le variabili migliora la conoscenza? (teoria della domanda marginale) scegliere di selezionare un gruppo per conoscere età altezza … residenza tuti, ma devo chiedermi quanto tale gruppo sia rappresentati Anna 19 175 … Palermo vo di tutta la classe… Antonio 19 184 … Palermo Consultare tutta la classe tuttavia può Maria 20 180 .. Trapani essere oneroso (ci … … … … … vuole molto tempo, devo Tullio 20 188 … Agrigento trovare tutti, costi….) Veronica 19 185 Alcamo 19
Il principio di Parsimonia: il rasoio di Occam • Il rasoio di Occam è un modello di pensiero secondo il quale, a parità di tutte le altre condizioni (coeteris paribus), è sempre da preferire la spiegazione più semplice di un fenomeno o la soluzione più immediata di un problema. • Attribuito al frate francescano William di Ockham (1287 – 1349), considerato uno dei filosofi più influenti del XIV secolo. Il principio viene definito da William in questi termini: Pluralitas non est ponenda sine necessitate (Non considerare la pluralità se non è necessario) e Frustra fit per plura quod potest fieri per pauciora (E’ inutile fare con più ciò che può essere fatto con meno). Il frate voleva esprimere una critica nei confronti della teoria della conoscenza del suo tempo che vedeva un proliferare di nuovi approcci e spiegazioni filosofiche. • Il rasoio di Occam viene anche definito “principio della parsimonia” e suggerisce che, a parità di tutte le altre condizioni, sia sempre da preferire la spiegazione più semplice di un fenomeno o la soluzione più immediata di un problema. Le soluzioni più semplici hanno anche il vantaggio di poter essere testate più facilmente ed essendo basate su poche assunzioni possono essere facilmente generalizzate cioè applicate per interpretare un più ampio ventaglio di fenomeni. 20
Parsimonia e analisi statistica • La parsimonia si declina nell’ambito dell’analisi statistica con l’invito a utilizzare il numero minore di variabili per spiegare un fenomeno: • Nella costruzione di un questionario o altro strumento di rilevazione; • Nella specificazione di un modello statistico; • Nell’utilizzo di variabili per la stima di parametri; • Uno degli obiettivi fondamentali della statistica è offrire schemi e modelli di SINTESI 21
La conoscenza statistica: approcci e prospettive di metodo • Riferimento ad un SUPPORTO aggregato e collettivo, totale o parziale. • Una volta costituita tale supporto può essere studiato in sé (analisi descrittiva) oppure in relazione ad un referente superiore (universo) identificabile almeno teoricamente (analisi inferenziale o INFERENZA) • Rappresentazione dei fenomeni nella loro intrinseca eterogeneità o VARIABILITÀ; • Ricerca di schemi di riduzione della complessità e di SINTESI: esistono diversi percorsi di riduzione sia dal punto di vista della aggregazione delle unità (raggruppamento o classificazione) sia dal punto di vista delle variabili (tecniche fattoriali e studio delle connessioni). 22
Dati, approccio empirico e metodo scientifico Evidenza empirica Modella zione & Misuraz ione Dati za Conoscen Scientifica Statistic he ni Informazio 23
Il Ciclo PPDAC 24
Il pensiero statistico: Melchiorre Gioia e la filosofia della Statistica La filosofia della statistica è la cognizione ragionata delle norme generali per ricercare, delle fonti a cui attingere, de’ sintomi per riconoscere, de’ principi per giudicare, degli usi a cui servono gli elementi allo stato delle nazioni 25
È la «cognizione ragionata delle norme generali per ricercare» • La statistica è una scienza che ha un metodo (anzi ne ha tantissimi)… non è un metodo. • L’esigenza di conoscere statisticamente è antica: i censimenti dei sumeri e degli egiziani. In principio era «il contare»… • Essa si fonda sul bisogno di descrivere qualità e quantità di universi e popolazioni, ossia di avere una visione aggregata dei fenomeni. • L’utilizzo di collettivi statistici induce una ricerca di sintesi adeguate che forniscano tendenze e comportamenti medi: lo sviluppo del metodo scientifico e l’empirismo positivista hanno dato un grande impulso a tale approccio basato sulla ricorrenza (incidenza, frequenza) di fatti e fenomeni fisici o sociali. Le «regolarità empiriche» assumono un valore «morale». 26
…delle fonti a cui attingere… • La Statistica ha una finalità conoscitiva, di organizzazione di dati e informazioni la cui veridicità dipende dal «soggetto» che le produce, le detiene, le diffonde o pubblica: • Per questo nel tempo la funzione statistica è un importante compito degli Stati, particolarmente di quelli moderni dove nascono sistemi democratici e repubblicani, laddove il potere viene dal popolo e non dalla divinità. • Un processo di progressiva integrazione e armonizzazione: i sistemi statistici. • Criteri di qualità per i «dati» statistici sempre più rilevanti nella Data-crazia dove i dati vanno sempre meno «cercati» e sempre più «estratti» 27
…de’ principi per giudicare… • La statistica offre supporti informativi (campioni, indicatori, rapporti o indici…) per valutare ossia esprimere un giudizio su ipotesi (teoriche) da validare empiricamente sui dati • La statistica da descrittiva diviene inferenziale, utilizza la matematica e la probabilità come linguaggio formale che aiuta progressivamente la statistica alla luce del metodo scientifico (il disegno sperimentale) • La statistica è supporto della valutazione: dello sviluppo economico, dei problemi sociali, delle politiche pubbliche… 28
…degli usi a cui servono gli elementi allo stato delle nazioni. • La statistica è utile, serve ad agire con consapevolezza: nella vita quotidiana, nella formazione del consenso elettorale, nelle scelte aziendali dell’impresa, nelle previsioni degli scenari macro economici dei governi. • La connessione tra statistica e «prosperità pubblica» (Gioia parla di «incivilimento») che oggi chiamiamo in tanti modi «progresso» «sviluppo sostenibile» «benessere»… 29
Dati primari e dati secondari • I dati statistici se sono rilevati direttamente e specificatamente vengono detti primari, altrimenti sono detti secondari. • I dati secondari sono rilevati da soggetti professionalmente riconosciuti possono essere ufficiali o non ufficiali a seconda che derivino da fonti statistiche istituzionalmente dedicata alla produzione di statistiche pubbliche: i sistemi della statistica ufficiale (in Italia il SISTAN e l’ISTAT). 30
In sintesi: La rilevazione dei dati statistici • I dati sono «prodotti»: lo schema di progettazione di una rilevazione viene detto «disegno» e riguarda i seguenti punti: • Oggetto della rilevazione: cosa vogliamo conoscere attraverso i dati • Identificazione del collettivo e delle unità di rilevazioni (unità statistiche) • Adozione di uno strumento di misura e delle modalità di rilevazione • Organizzazione della rilevazione ed eventuale formazione dei rilevatori • Raccolta dei dati e controllo di qualità (presenza di errori c.d. non campionari) • Organizzazione dei dati ed elaborazione dell’informazione • Report finale di ricerca con note metodologiche, meta-informazioni e dati originari 31
Dati strutturati o non strutturati • Nella società dell’informazione, i dati a nostra disposizione sono cresciuti per qualità e quantità. • Si parla di Big Data, facendo riferimento a dati che hanno un enorme volume (tantissime osservazioni), una grande varietà (tantissime dimensioni o variabili), facilmente reperibili e accessibili ossia disponibili ad una grande velocità e aderenti alla realtà secondo un alto gradi accuratezza e veridicità. • Ci sono tanti tipi di dati che emergono da processi sociali o procedure amministrative che sono detti non strutturati (immagini, foto, informazioni su opinioni o gradimenti tratte dai social…) . • I dati strutturati sono invece caratterizzati per la loro organizzazione statistica e per il loro corredo di meta-informazione (definizioni, classificazioni, elaborazioni). 32
Dati accessibili o «aperti» (Open data) • Uno dei requisiti importanti della qualità di un dato è la sua facile reperibilità o accessibilità. • La diffusione del web ha moltiplicato notevolmente questa possibilità, pertanto si è definito il concetto di «dato aperto» commisurato all’attitudine del dato di essere facilmente reperibile e trasferibile. • Soprattutto nell’abito delle pubbliche amministrazioni si è diffusa questa pratica di fornire dati accessibili a tutti per un esercizio più universale e diffuso del controllo e della valutazione tipico delle società democratiche. 33
Tecnologie digitali, informatica e statistica • Lo sviluppo delle tecnologie informatiche nell’era digitale ha accresciuto la dotazione di informazioni. • In questo tempo – definito da alcuni come «diluvio informazionale» – il problema non è disporre di dati ma avere «criteri» per la loro selezione e interpretazione. • La statistica diventa ancora più rilevante nella fase di analisi ed elaborazione, nello studio delle connessioni e relazioni nonché dei modelli che permettono di estrarre informazione, identificando nessi di causalità dalla variabilità congiunta di numerose variabili. • Il trattamento della variabilità statistica è l’oggetto della statistica moderna. 34
Dalle statistiche ai Sistemi di Statistica: l’offerta diventa “globale • Armonizzazione e Integrazione per favorire comparabilità • Sistemi ufficiali per assicurare continuità, tempestività e attendibilità • Comunità scientifiche per verificare rigore, rilevanza, accuratezza e robustezza. • La rivoluzione informatica e quella digitale per accessibilità e disponibilità. 35
Qualità dei dati: principi e dimensioni • Quality of statistics is defined by Eurostat with reference to the following six criteria: 1. Relevance; 2. Accuracy; 3. timeliness and punctuality; 4. accessibility and clarity; 5. Comparability; 6. Coherence. https://ec.europa.eu/eurostat/documents/64157/4373735/02-ESS-quality-definition.pdf 36
Collezioni di dati • Matrici di dati • Array ossia matrici multidimensionali (tre o più dimensioni) • Sistemi informativi statistici (dati e metadati insieme) • OLAP (On-Line Analytical Processing) • DataWareHouse 37
La Meta-Informazione • Metadati ovvero informazioni o attributi che descrivono i dati per facilitarne l’individuazione e la comprensione • Esempio: gli indici di catalogazione di una biblioteca. • Definizioni è GLOSSARIO • Classificazioni • Metodi https://www.istat.it/it/metodi-e-strumenti 38
Il sistema dell’informazione statistica • Un sistema di collegamento tra soggetti produttori, in una logica di coordinamento amministrativo, ma anche scientifico e metodologico: il SISTAN • Il portale Istat https://www.istat.it/it/ • L’organizzazione della statistica ufficiale a livello internazionale • https://www.unric.org/it/informazioni-generali-sullonu/34 • https://ec.europa.eu/eurostat/web/links/international-organisations • Il sistema comunitario: Eurostat • https://ec.europa.eu/eurostat/web/european-statistical-system/overview • I principi (tra cui la qualità dei dati) • Obbligo e segreto statistico (tutela della Privacy) 39
Altre informazioni statistiche non ufficiali • Ci sono ulteriori fonti, non ufficiali ossia non appartenenti al sistema ufficiale della organizzazione statistica, ma che contribuiscono a partire dalla esperienza/competenza di comunità scientifiche o organizzazioni di volontariato e/o Non profit: • Criteri: Affidabilità/Reputazione – Trasparenza - Completezza 40
Lezione 1. Concetti Chiave La natura dell’informazione statistica • La conoscenza statistica e il nuovo empirismo • Dati, statistiche, informazioni • Il disegno dell’indagine • Collettivo: Popolazione e Campione • La funzione sociale della Statistica: la statistica ufficiale • Fonti statistiche • Banche dati, Datawarehouse, Sistemi informativi, Cruscotti • Big Data, Open data: estrarre informazione dal web • Qualità dei dati • Meta-informazione 41
Mecatti Capitoli 1, 2 e 3 Per approfondire: 42
2 -Organizzazione dei dati statistici 43
Puoi anche leggere