STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani

Pagina creata da Giulio Re
 
CONTINUA A LEGGERE
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
STATISTICA PER LA
DIGITAL ECONOMY
      2018

       Marco Riani
     mriani@unipr.it
    http://www.riani.it
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
INFORMAZIONI SUL CORSO
•   Orario
•   MER 11.15-12.45 (frontale)
•   GIO 9.15-10.45 (frontale)
•   VEN 11.00 -13.00 (laboratorio)

• Ricevimento
    – GIO 11.00-13.00
    – VEN 9.00-11.00
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
E’ necessario registrarsi per
   accedere ai computer del
          laboratorio!
• http://www.cce.unipr.it/html/labinfo
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
INFORMAZIONI SUL CORSO
• Conoscenze preliminari  conoscenza di
  base di statistica descrittiva e inferenziale

• Tutti i lucidi saranno disponibili su
  www.riani.it
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
Calendario degli esami

• 18 dicembre 2018 ore 16.00
•   10 gennaio 2019 ore 9.00
•   24 gennaio 2019 ore 9.00
•   28 maggio 2019 ore 9.00
•   11 giugno 2019 ore 9.00
•   25 giugno 2019 ore 9.00
•   11 settembre 2019 ore 9.00
•   Prove a computer
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
LIBRO DI TESTO
MATERIALE PRESENTE ALLA PAGINA
          www.riani.it/sde
 E’ consentito tenere gli appunti
        durante l’esame !
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
Software utilizzati nel corso
•   Excel 2016
•   MATLAB 2018A o 2018B + FSDA toolbox
•   http://www.mathworks.com
•   Le istruzioni per scaricare e installare
    MATLAB sono reperibili qui (solo studenti
    Università di Parma)
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
Corso di MATLAB on line
• https://trainingenrollment.mathworks.com/
  selfEnrollment?code=TA6EEH5EYZTZ
• Occorre registrarsi
STATISTICA PER LA DIGITAL ECONOMY 2018 - Marco Riani
MODALITÀ DI ESAME
      (prova al computer)
• Quattro (tre) domande, ciascuna
  costituita da vari punti:
  – Elaborazione dei dati con MATLAB
MODALITÀ DI ESAME
  (prova scritta tradizionale)
• Quattro (tre) domande, ciascuna
  costituita da vari punti:
  – aspetti di calcolo
  – aspetti di commento e di interpretazione dei
    risultati circa della medesima importanza
Il compito è diviso in due parti
• Programmazione
• Analisi dei dati
L’ouput da consegnare è un file
   in formato .m oppure .mlx
Obiettivi del corso
• Imparare a programmare
• Illustrare i metodi statistici per il
  trattamento delle informazioni d’interesse
  aziendale, considerando
  contemporaneamente più variabili, sia
  qualitative sia quantitative.
• Fornire un supporto conoscitivo razionale
  per le decisioni
Why analytics?
EVOLUZIONE DI CONCETTI
• Statistica (descrittiva e inferenziale)

• Analisi dei dati multidimensionali

• Data Mining = «Estrazione da una miniera di
  dati» (di grandi dimensioni)
• Scavare in insiemi di dati molto numerosi per
  estrarre informazioni utili
   – Text mining
   – Web mining
PUNTO DI PARTENZA
       dell’analisi dei dati
• MATRICE DEI DATI:
 X riferita a n unità e p variabili

  Ipermercati Sup.          addetti   vendite
  Centro
  Torri
  Esselunga
  ...
MATRICE DEI DATI
               x11  x1s  x1 p 
                    
                                
         X =  xi1  xis  xip 
        n× p                    
                           
               xn1  xns  xnp 
                                
xis = modalità che         Significato dei vettori   Tipologia delle unità
presenta la variabile s-   riga e dei vettori        statistiche
esima nell’unità           colonna
statistica i-esima
TIPI DI DATI
• Qualitativi (categorici) nominali:
  Esempi: sesso, tipo di laurea, forma giuridica delle
    imprese
  BINARI (DICOTOMICI) O CON CATEGORIE
    MULTIPLE (POLITOMICI)
• Qualitativi (categorici) ordinali:
  giudizi: insuff., suff., discreto, buono, ottimo
• Quantitativi:
   peso, fatturato, n. dipendenti
Es. file Firm.xlsx
TIPI DI MATRICI DEI DATI
             unità x variabili
•   X di dimensioni n x p
•   Individui (questionari)
•   Aziende
•   Prodotti o marche
•   Unità territoriali (province, …)
•   Tempi (serie storiche o temporali)
DATI ASSOLUTI E RELATIVI
• Esempio: n aziende
• DATI ASSOLUTI:
• Fatturato, valore aggiunto, n. addetti, …
• DATI RELATIVI:
• Fatturato per addetto, valore aggiunto sul
  fatturato, ROE, …
• A PRIORI DEFINISCO LO SCOPO
  DELLA RICERCA E POI SCELGO IL
  DATA SET DA ANALIZZARE
SCHEMA FONDAMENTALE
    DELLA RICERCA SCIENTIFICA
•   Problema (domanda)
•   Raccolta di dati
•   Analisi dei dati
•   Conclusione provvisoria (risposta)
•   Estensioni, generalizzazioni, nuovi
    problemi
Esercizio
• Importare il file Firm.xlsx in MATLAB

• Osservazione: tutti i file di input e di output
  per ogni esercizio sono scaricabili dalla
  pagina http://riani.it/SDA/index.htm
• Un primo
  modo per
  importare un
  dataset di
  Excel è
  tramite
  «Import Data»
• E’ possibile specificare quante righe
  importare e/o il tipo di output
• Esplorare cosa succede quando stabilisco
  di importare come
• Table
• Column vectors
• Numeric Matrix
Esercizio
• Importare il dataset come «Table»

• Come accedere ai diversi elementi della
  Table
  – Es. estrarre l’elemento all’incrocio della terza
    riga e quanto colonna
  – Es. estrarre la quindicedima unità statistica
    (15esima riga)
Come accedere ai diversi
      elementi della Table

• Es. estrarre la variabile «gender»
• Es. estrarre la quarta colonna
Esempi
(supponiamo che la table si chiami X)
• Estrazione della riga della table
  denominata «P0320»:
     X('P0320',)
• Estrazione delle righe della table
  denominate «P0256» e «P0214» e delle
  prime 3 colonne:
      X({'P0256' 'P0214'},1:3)
Estrazione della colonna riferita alla variabile
«Height»
X(:,'Height')
Esercizio
• Generare uno script che carichi
  automaticamente la zona A1:I20 del foglio
  denominato «data» del file «Firm.xlsx»
Esercizio
• Generare uno script che carichi
  automaticamente la zona A1:I10 del foglio
  denominato «data» del file «Firm.xlsx»
Esercizio
• Creare uno script che importi i dati dentro
• MATLAB in xlsread
Soluzione
• [num,txt,raw] = xlsread('Firm.xlsx','data','A2:I10');

• Esplorare il contenuto di num, txt e raw
• num contiene solo le colonne del dataset con dati
  quantitativi (variabili numeriche). Matrice di double
• txt contiene solo le colonne del dataset con dati
  qualitativi (variabili categorighe). Cell array
• Raw contiene tutte le colonne del dataset. Cell array
Esercizio
• Importare i dati contenuti dentro il file
  Firm.xlsx in una table denominata X tramite la
  funzione readtable calcolare per ogni varaibile
  quantitativa il min il max e la mediana
Soluzione
• X=readtable('Firm.xlsx')
• summary(X)
Esercizio
• Creare uno script che carichi il file firm.xlsx
  dentro MATLAB.
• Trasformare la variabile peso da libbre a
  KG (fattore 1kg=2.2046 libbre)
• Trasformare la variabile altezza da pollici a
  cm (fattore 1pollice=2.54cm)
• Chiamare il nuovo dataset Y
• Calcolare il peso medio e l’altezza media
Soluzione
Calcolo delle statistiche
            descrittive
• Esercizio: calcolare le statistiche
  descrittive (media, min, max, standard
  deviation, varianza) per il peso (in kg) e
  l’altezza (in cm)
Soluzione
Obiettivo
• Confrontare unità statistiche in presenza di
  fenomeni con diverso ordine di grandezza
  e diversa scala di misura
SCOSTAMENTI STANDARDIZZATI
•   Definizione: zi = (xi –M)/ σ
    ove M è la media e σ (a volte indicato con s) è la
    deviazione standard (corretta)
• Proprietà:
1.  M=O
2.  σ=1
3.   puri numeri (confrontabili)
MATRICE DEGLI SCOST. STAND. :                   Z
Proprietà delle variabili standardizzate (p. 146)
                    xi − M
             zi =
                      σ
  • Hanno valor medio nullo M(Z)=0
  • Hanno varianza unitaria VAR(Z)=1
se Y=bX+a ⇒ σ2(Y)=VAR(Y) = b2VAR(X) (p. 122)
xi − M
                          Esempio               zi =
                                                           σ
Valori originali                       Scostamenti standardizzati
                   Peso      Altezza          Peso              Altezza
       A            67         180            -0,695            1,003
       B            82         167            0,727             -0,952
       C            74         183            -0,032            1,454
       D            69         167            -0,506            -0,952
       E            61         167            -1,264            -0,952
       F            93         176            1,770             0,401

Me                                      Me
dia        74,33    173,33              dia            0             0
σ          10,55      6,65              σ              1             1
Esercizio
• Aggiungere allo script precedente il
  calcolo della matrice degli scostamenti
  dalla media per le variabili peso e altezza
  e la matrice degli scostamenti
  standardizzati (utilizzare sia
  l’implementazione manuale, sia la
  funzione zscore, sia un loop. Controllare
  che il risultato sia identico con i diversi
  modi)
Rappresentazione grafica
• Rappresentare tramite grafico a barra gli
  scostamenti standardizzati del peso e
  dell’altezza delle prime 10 unità statistiche.
• Inserire come etichetta dell’asse x il nome
  (Variabile name) delle 10 unità statistiche
• Aggiungere al grafico un titolo ed una
  legenda
Creazione del grafico

• Il modo più semplice per creare un grafico
  è quello di selezionare la zona della
  variabile che mi interessa e (dopo aver
  selezionato la scheda plots) fare click sul
  grafico che mi interessa
Output finale
                • Quale
                  persona
                  presenta
                  un’altezza
                  molto
                  superiore
                  alla media
                  ed un peso
                  inferiore
                  alla media?
Asimmetria e curtosi
• Implementare le formule manualmente e
  controllare il risultato utilizzando le formule
  di MATLAB (kurtosis, skewness)
Indici di asimmetria
Asimmetria positiva e negativa
La distribuzione normale

• Nella distribuzione normale
Indice di curtosi (normalità)

• Se la variabile è normale
Formule da utilizzare per gli
   indici di asimmetria e curtosi
• Indice di curtosi (kurtosis)
Formule da utilizzare per l’indice
        di asimmetria

• Indice di asimmetria (skewness)
BOXPLOT (grafico a scatola)
•   Indici occorrenti:
•   quartili
•   DI
•   xmin e xmax
Boxplot di 16 punti
Boxplot di 16 punti

                      Il punto di troncamento superiore è in
                      corrispondenza del valore più grande
                      ≤ x75%+1.5DI

Il punto di troncamento inferiore si
colloca in corrispondenza del valore
più piccolo ≥ x25%-1.5DI
Esercizio: inserire dentro MATLAB i dati numerici della
        spesa riportati nella tabella che segue.
Calcolare ed interpretare i seguenti percentili di spesa
    0 0.25 0.50 0.75 1. Calcolare ed interpretare la
  differenza interquartile. Costruire ed interpretare il
relativo boxplot. Costruire il boxplot con orientamento
orizzontale. Inserire tutte le istruzioni dentro uno script
                   denominato boxp.m
Soluzione
Soluzione
Esercizio
• Calcolare i seguenti quantili della variabile
  retribuzione
• 0.025 0.25 0.50 0.75 0.975

• Suggerimento: utilizzare la funzione
  quantile
Esercizio
• Importare come «table» il file Firm.xlsx
• Calcolare ed interpretare il boxplot per le
  variabili peso e altezza (prima per tutte le
  unità statistiche e poi tenendo separati i
  maschi dalle femmine)
Soluzione
• boxplot(Y{:,’Height’}))
• ylabel('Altezza in cm')
Soluzione
Analisi della variabile
            retribuzione
• Investigare la presenza di valori anomali
  per questa variabile
• Partendo dalla table denominata Y,
  costruire una nuova table denominata
  Ycor. In questa nuova table modificare il
  valore della retribuzione della quarta unità
  statistica in 1916.26
Soluzione
• La modifica di un valore all’interno di una
  table può essere fatto direttamente dentro
  aprendo la variabile nell’editor delle
  variabili

• L’istruzione da codice è la seguente
• Ycor.Wage(4) =1916.26
Esercizio
• Costruire il grafico ad istogrammi della
  variabile wage modificata

• Costruire il grafico ad istogrammi
  utilizzando 15 classi

• Costruire il grafico ad istogrammi
  specificando le classi
• 1500-2000 2000:2500 …. 3500-4000
Distribuzione di frequenza con
    classi non equispaziate
• Esercizio: calcolare la distribuzione di
  frequenza utilizzando le classi precedenti
  1500-2000 2000:2500 …. 3500-4000
Puoi anche leggere