STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
INFORMAZIONI SUL CORSO • Orario • MER 11.15-12.45 (frontale) • GIO 9.15-10.45 (frontale) • VEN 11.00 -13.00 (laboratorio) • Ricevimento – GIO 11.00-13.00 – VEN 9.00-11.00
E’ necessario registrarsi per accedere ai computer del laboratorio! • http://www.cce.unipr.it/html/labinfo
INFORMAZIONI SUL CORSO • Conoscenze preliminari conoscenza di base di statistica descrittiva e inferenziale • Tutti i lucidi saranno disponibili su www.riani.it
Calendario degli esami • 18 dicembre 2018 ore 16.00 • 10 gennaio 2019 ore 9.00 • 24 gennaio 2019 ore 9.00 • 28 maggio 2019 ore 9.00 • 11 giugno 2019 ore 9.00 • 25 giugno 2019 ore 9.00 • 11 settembre 2019 ore 9.00 • Prove a computer
LIBRO DI TESTO MATERIALE PRESENTE ALLA PAGINA www.riani.it/sde E’ consentito tenere gli appunti durante l’esame !
Software utilizzati nel corso • Excel 2016 • MATLAB 2018A o 2018B + FSDA toolbox • http://www.mathworks.com • Le istruzioni per scaricare e installare MATLAB sono reperibili qui (solo studenti Università di Parma)
Corso di MATLAB on line • https://trainingenrollment.mathworks.com/ selfEnrollment?code=TA6EEH5EYZTZ • Occorre registrarsi
MODALITÀ DI ESAME (prova al computer) • Quattro (tre) domande, ciascuna costituita da vari punti: – Elaborazione dei dati con MATLAB
MODALITÀ DI ESAME (prova scritta tradizionale) • Quattro (tre) domande, ciascuna costituita da vari punti: – aspetti di calcolo – aspetti di commento e di interpretazione dei risultati circa della medesima importanza
Il compito è diviso in due parti • Programmazione • Analisi dei dati
L’ouput da consegnare è un file in formato .m oppure .mlx
Obiettivi del corso • Imparare a programmare • Illustrare i metodi statistici per il trattamento delle informazioni d’interesse aziendale, considerando contemporaneamente più variabili, sia qualitative sia quantitative. • Fornire un supporto conoscitivo razionale per le decisioni
Why analytics?
EVOLUZIONE DI CONCETTI • Statistica (descrittiva e inferenziale) • Analisi dei dati multidimensionali • Data Mining = «Estrazione da una miniera di dati» (di grandi dimensioni) • Scavare in insiemi di dati molto numerosi per estrarre informazioni utili – Text mining – Web mining
PUNTO DI PARTENZA dell’analisi dei dati • MATRICE DEI DATI: X riferita a n unità e p variabili Ipermercati Sup. addetti vendite Centro Torri Esselunga ...
MATRICE DEI DATI x11 x1s x1 p X = xi1 xis xip n× p xn1 xns xnp xis = modalità che Significato dei vettori Tipologia delle unità presenta la variabile s- riga e dei vettori statistiche esima nell’unità colonna statistica i-esima
TIPI DI DATI • Qualitativi (categorici) nominali: Esempi: sesso, tipo di laurea, forma giuridica delle imprese BINARI (DICOTOMICI) O CON CATEGORIE MULTIPLE (POLITOMICI) • Qualitativi (categorici) ordinali: giudizi: insuff., suff., discreto, buono, ottimo • Quantitativi: peso, fatturato, n. dipendenti
Es. file Firm.xlsx
TIPI DI MATRICI DEI DATI unità x variabili • X di dimensioni n x p • Individui (questionari) • Aziende • Prodotti o marche • Unità territoriali (province, …) • Tempi (serie storiche o temporali)
DATI ASSOLUTI E RELATIVI • Esempio: n aziende • DATI ASSOLUTI: • Fatturato, valore aggiunto, n. addetti, … • DATI RELATIVI: • Fatturato per addetto, valore aggiunto sul fatturato, ROE, … • A PRIORI DEFINISCO LO SCOPO DELLA RICERCA E POI SCELGO IL DATA SET DA ANALIZZARE
SCHEMA FONDAMENTALE DELLA RICERCA SCIENTIFICA • Problema (domanda) • Raccolta di dati • Analisi dei dati • Conclusione provvisoria (risposta) • Estensioni, generalizzazioni, nuovi problemi
Esercizio • Importare il file Firm.xlsx in MATLAB • Osservazione: tutti i file di input e di output per ogni esercizio sono scaricabili dalla pagina http://riani.it/SDA/index.htm
• Un primo modo per importare un dataset di Excel è tramite «Import Data»
• E’ possibile specificare quante righe importare e/o il tipo di output
• Esplorare cosa succede quando stabilisco di importare come • Table • Column vectors • Numeric Matrix
Esercizio • Importare il dataset come «Table» • Come accedere ai diversi elementi della Table – Es. estrarre l’elemento all’incrocio della terza riga e quanto colonna – Es. estrarre la quindicedima unità statistica (15esima riga)
Come accedere ai diversi elementi della Table • Es. estrarre la variabile «gender» • Es. estrarre la quarta colonna
Esempi (supponiamo che la table si chiami X) • Estrazione della riga della table denominata «P0320»: X('P0320',) • Estrazione delle righe della table denominate «P0256» e «P0214» e delle prime 3 colonne: X({'P0256' 'P0214'},1:3) Estrazione della colonna riferita alla variabile «Height» X(:,'Height')
Esercizio • Generare uno script che carichi automaticamente la zona A1:I20 del foglio denominato «data» del file «Firm.xlsx»
Esercizio • Generare uno script che carichi automaticamente la zona A1:I10 del foglio denominato «data» del file «Firm.xlsx»
Esercizio • Creare uno script che importi i dati dentro • MATLAB in xlsread
Soluzione • [num,txt,raw] = xlsread('Firm.xlsx','data','A2:I10'); • Esplorare il contenuto di num, txt e raw • num contiene solo le colonne del dataset con dati quantitativi (variabili numeriche). Matrice di double • txt contiene solo le colonne del dataset con dati qualitativi (variabili categorighe). Cell array • Raw contiene tutte le colonne del dataset. Cell array
Esercizio • Importare i dati contenuti dentro il file Firm.xlsx in una table denominata X tramite la funzione readtable calcolare per ogni varaibile quantitativa il min il max e la mediana
Soluzione • X=readtable('Firm.xlsx') • summary(X)
Esercizio • Creare uno script che carichi il file firm.xlsx dentro MATLAB. • Trasformare la variabile peso da libbre a KG (fattore 1kg=2.2046 libbre) • Trasformare la variabile altezza da pollici a cm (fattore 1pollice=2.54cm) • Chiamare il nuovo dataset Y • Calcolare il peso medio e l’altezza media
Soluzione
Calcolo delle statistiche descrittive • Esercizio: calcolare le statistiche descrittive (media, min, max, standard deviation, varianza) per il peso (in kg) e l’altezza (in cm)
Soluzione
Obiettivo • Confrontare unità statistiche in presenza di fenomeni con diverso ordine di grandezza e diversa scala di misura
SCOSTAMENTI STANDARDIZZATI • Definizione: zi = (xi –M)/ σ ove M è la media e σ (a volte indicato con s) è la deviazione standard (corretta) • Proprietà: 1. M=O 2. σ=1 3. puri numeri (confrontabili) MATRICE DEGLI SCOST. STAND. : Z
Proprietà delle variabili standardizzate (p. 146) xi − M zi = σ • Hanno valor medio nullo M(Z)=0 • Hanno varianza unitaria VAR(Z)=1 se Y=bX+a ⇒ σ2(Y)=VAR(Y) = b2VAR(X) (p. 122)
xi − M Esempio zi = σ Valori originali Scostamenti standardizzati Peso Altezza Peso Altezza A 67 180 -0,695 1,003 B 82 167 0,727 -0,952 C 74 183 -0,032 1,454 D 69 167 -0,506 -0,952 E 61 167 -1,264 -0,952 F 93 176 1,770 0,401 Me Me dia 74,33 173,33 dia 0 0 σ 10,55 6,65 σ 1 1
Esercizio • Aggiungere allo script precedente il calcolo della matrice degli scostamenti dalla media per le variabili peso e altezza e la matrice degli scostamenti standardizzati (utilizzare sia l’implementazione manuale, sia la funzione zscore, sia un loop. Controllare che il risultato sia identico con i diversi modi)
Rappresentazione grafica • Rappresentare tramite grafico a barra gli scostamenti standardizzati del peso e dell’altezza delle prime 10 unità statistiche. • Inserire come etichetta dell’asse x il nome (Variabile name) delle 10 unità statistiche • Aggiungere al grafico un titolo ed una legenda
Creazione del grafico • Il modo più semplice per creare un grafico è quello di selezionare la zona della variabile che mi interessa e (dopo aver selezionato la scheda plots) fare click sul grafico che mi interessa
Output finale • Quale persona presenta un’altezza molto superiore alla media ed un peso inferiore alla media?
Asimmetria e curtosi • Implementare le formule manualmente e controllare il risultato utilizzando le formule di MATLAB (kurtosis, skewness)
Indici di asimmetria Asimmetria positiva e negativa
La distribuzione normale • Nella distribuzione normale
Indice di curtosi (normalità) • Se la variabile è normale
Formule da utilizzare per gli indici di asimmetria e curtosi • Indice di curtosi (kurtosis)
Formule da utilizzare per l’indice di asimmetria • Indice di asimmetria (skewness)
BOXPLOT (grafico a scatola) • Indici occorrenti: • quartili • DI • xmin e xmax
Boxplot di 16 punti
Boxplot di 16 punti Il punto di troncamento superiore è in corrispondenza del valore più grande ≤ x75%+1.5DI Il punto di troncamento inferiore si colloca in corrispondenza del valore più piccolo ≥ x25%-1.5DI
Esercizio: inserire dentro MATLAB i dati numerici della spesa riportati nella tabella che segue. Calcolare ed interpretare i seguenti percentili di spesa 0 0.25 0.50 0.75 1. Calcolare ed interpretare la differenza interquartile. Costruire ed interpretare il relativo boxplot. Costruire il boxplot con orientamento orizzontale. Inserire tutte le istruzioni dentro uno script denominato boxp.m
Soluzione
Soluzione
Esercizio • Calcolare i seguenti quantili della variabile retribuzione • 0.025 0.25 0.50 0.75 0.975 • Suggerimento: utilizzare la funzione quantile
Esercizio • Importare come «table» il file Firm.xlsx • Calcolare ed interpretare il boxplot per le variabili peso e altezza (prima per tutte le unità statistiche e poi tenendo separati i maschi dalle femmine)
Soluzione • boxplot(Y{:,’Height’})) • ylabel('Altezza in cm')
Soluzione
Analisi della variabile retribuzione • Investigare la presenza di valori anomali per questa variabile • Partendo dalla table denominata Y, costruire una nuova table denominata Ycor. In questa nuova table modificare il valore della retribuzione della quarta unità statistica in 1916.26
Soluzione • La modifica di un valore all’interno di una table può essere fatto direttamente dentro aprendo la variabile nell’editor delle variabili • L’istruzione da codice è la seguente • Ycor.Wage(4) =1916.26
Esercizio • Costruire il grafico ad istogrammi della variabile wage modificata • Costruire il grafico ad istogrammi utilizzando 15 classi • Costruire il grafico ad istogrammi specificando le classi • 1500-2000 2000:2500 …. 3500-4000
Distribuzione di frequenza con classi non equispaziate • Esercizio: calcolare la distribuzione di frequenza utilizzando le classi precedenti 1500-2000 2000:2500 …. 3500-4000
Puoi anche leggere