INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0

Pagina creata da Diego Vinci
 
CONTINUA A LEGGERE
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
INTRODUZIONE ALL’ANALISI
   STATISTICA DEI DATI con SPSS 15.0

                           Simona Guglielmi
                       simona.guglielmi@unimi.it

 Esercitazioni del Corso di Metodologia delle
 Scienze sociali (A-L, SPO) a.a 2008/09

Esercitazione 1

Presentazione di SPSS 15.0 per Windows
 la matrice dati
 le variabili
 la sintassi
 i risultati
Inserimento dati
 importazione da altri programmi (Excel, Word,…)
 data entry
La “pulizia” dei dati
 l’analisi delle frequenze
 dati mancanti, outlier

                                                    1
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Testi di riferimento
  Marisa Giorgetti, Davide Massaro, Ricerca e percorsi di analisi
   dati con SPSS, Milano, Pearson Paravia Bruno Mondadori, 2007
  AAVV, L'ABC del programma SPSS : come avviarsi alla pratica
   del pacchetto statistico, Milano, F. Angeli, 2004
  Roberto Fideli, Come analizzare i dati al computer, Roma,
   Carocci, 2002.
  Julie Pallant, SPSS survival manual : a step by step guide to data
   analysis using SPSS for Windows (version 12) / 2. ed.
   Maidenhead Open university press, 2005.

  Inoltre:
  - Una guida in linea è disponibile all’interno del pacchetto SPSS
  - I materiali presentati durante le esercitazioni saranno disponibili sul
  sito del Prof. Ferruccio Biolcati Rinaldi, nella sezione del corso.

Un esempio di ricerca empirica

     Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
     della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
     Azione di sistema
     Metodo di rilevazione: questionario autocompilato in classe
     Universo di riferimento: studenti di scuola superiore di secondo grado in
     Lombardia ( quarto e quinto anno)
     Campione: rappresentativo dell’universo di riferimento a livello regionale,
     stratificato per tipo di scuola e provincia ( campionamento multistadio a
     grappolo)
     Consistenza numerica del campione: 1.100 casi
     Periodo della rilevazione: Dicembre-Gennaio 2006

                                                                                     2
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Il questionario
    Questionario Scelte post-diploma Lomb2005.doc

  L’immagine della ricerca scientifica

  Atteggiamenti verso le materie tecnico scientifiche

  Scelte formative e professionali

  Orientamento : fonti, bisogni e aspettative

      24 domande                                                  113 variabili

Dalle risposte degli intervistati ai dati

  Dom2) Qual è il motivo principale per cui non hai ancora deciso cosa fare dopo
  aver conseguito il diploma? (1 sola risposta)
  (1) Aspetto di avere maggiori informazioni soprattutto sui corsi di laurea
   Aspetto di avere maggiori informazioni soprattutto sui corsi di formazione
  professionale post-diploma
   Aspetto di avere maggiori informazioni soprattutto sulle possibilità di lavoro
   Voglio attendere il risultato della maturità

  Regole base per la codifica:
  •I casi devono essere contraddistinti da un numero d’ordine corrispondente al
  questionario del singolo intervistato
  •Le variabili devono essere rappresentate in formato numerico ( un codice
  numerico per ciascuna categoria di risposta)
  •I codici numerici devono essere mutualmente esclusivi
  •I codici numerici devono essere coerenti tra domande ( usare lo stesso numero
  per modalità di risposta uguali, ad es. 1 per sì e 2 per no)
  •E’ preferibile che i codici numerici siano omogenei rispetto alla modalità di risposta
  ( ad es. per variabili ordinali 1 per indicare il valore inferiore)

                                                                                            3
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Le finestre di SPSS

       Data Editor (Data view,Variable View): contiene la
        matrice-dati e le informazioni sulle variabili; il file ha
        come estensione “Nomefile.sav”

       Output Viewer: mostra i risultati delle elaborazioni
        statistiche (tabelle, grafici,..); il file ha come estensione
        Nomefile.spo

       Syntax File: per salvare i comandi lanciati tramite le
        finestre di dialogo in linguaggio SPSS e per scriverne di
        nuovi; il file ha come estensione Nomefile.sps

    La matrice casi x variabili in Excel
                             variabili

c
a
s
i
                                                              Codici
                                                             numerici

                                                                        4
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Importazione di un file dati in SPSS da
Excel/1

Importazione di un file dati in SPSS da
Excel/2

                                          5
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Importazione di un file dati in SPSS da
Excel/3

La matrice dei dati in SPSS (Data Editor)

                        Barra Menù

                                            6
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
La barra Menù
    File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come
     WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out )
    Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare
     tabelle dell’output)
    View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili,
     visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri
    Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili
     presenti nella matrice dati
    Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili
    Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le
     principali analisi statistiche
    Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche
    Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili
    Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte
    Help/?: guida in linea, contiene anche esercitazioni

Salvare la matrice dati (xxx. sav)

                                                                                                            7
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Salvare la matrice dei dati/2

Le variabili (Variable View)

  •Spss consente di definire le caratteristiche delle variabili della
  matrice dati (tipo di variabile, scala di misura, nomi delle variabili e
  dei valori)
  •Queste operazioni sono preliminari all’analisi statistica dei dati e
  possono essere fatte tramite le finestre di dialogo (Variable View)
  che tramite la sintassi (Syntax file). Quest’ultima modalità è
  preferibile, soprattutto per le etichette delle variabili e dei valori!
  NB: tutti i comandi di SPSS possono essere importati dalla finestra
  di dialogo semplicemente cliccando sul tasto INCOLLA ( PASTE
  per la versione inglese). Una volta importato può essere adattato
  alle esigenze del ricercatore.

                                                                             8
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Definire il tipo di variabile (Variable View)

      Nome della variabile:           Tipo variabile:
      Il nome della variabile non     Consente di specificare il
      può contenere spazi, deve       tipo di variabile, in
      iniziare con una lettera, non   particolare se ha un formato
      deve essere più lungo di 64     di tipo numerico o stringa
      caratteri ( 8 per versioni      (testo). Su una variabile
      SPSS precedenti alla 15),       formato stringa non sono
      rifiuta alcuni caratteri        possibili le analisi statistiche
      speciali

Definire la scala di misura

    Variabili cardinali o quasi cardinali: scala ( es. età in anni,
    numero figli)
    Variabili ordinali: ordinale (es. età in classi, anno di corso,…)
    Variabili nominali: nominale ( es. sesso, indirizzo di studi,..)

                                                                         9
INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
Le etichette (Variable label, value label)

                               Variable label: consente di descrivere in
                               maniera discorsiva la variabile

                                       Value labels: consente di
                                       associare una etichetta verbale
                                       a ciascun valore che può
                                       essere assunto da ciascuna
                                       variabile

Definire le variabili con un file di sintassi

                                                                           10
Variable label, value label

                           La procedura per etichettare le variabili e le rispettive modalità con
                           il linguaggio SPSS è molto semplice.
                           VARIABLE LABEL ( VAR LAB): assegna un’etichetta alla variabile
                           VALUE LABEL (VAL LAB): assegna un’etichetta alle modalità della
                           variabile
                           Da ricordare:
                           • i comandi iniziano con VAR LAB O VAL LAB e finiscono sempre
                           con un punto.
                           • le etichette sono sempre comprese tra virgolette “….”; ‘….’
                           •Poiché i punti e le virgolette sono un comando nel linguaggio
                           SPSS, essi non vanno mai utilizzati nel testo che descrive le
                           variabili o i valori
                           •Per lanciare il comando cliccare sul tasto     sulla barra degli
                           strumenti

La pulizia dei dati
     Prima di procedere con l’analisi statistica dei dati è necessario
      controllare che in fase di input non siano stati commessi errori
     Questa fase preliminare consente inoltre di avere una prima
      visione d’insieme della distribuzione delle variabili nella
      popolazione

 L’analisi delle frequenze ( in SPSS: Analyze             Descriptive
      Statistics Frequencies ) consente di:
 1)   Verificare che i valori presenti rientrino nella gamma di valori
      previsti
 2)   Verificare eventuali casi mancanti
 3)   Verificare la distribuzione delle risposte su una specifica
      variabile

                                                                                                    11
L’analisi delle frequenze/Menù

L’analisi delle frequenze/Menù

                                 12
Analisi delle frequenze/ Menu

                                                                                    reset: per annullare
                                                                                    tutti i comandi
                                                                                    impostati e farne di
                                                                                    nuovi

Statistics: per avere informazioni
sulle statistiche descrittive delle    Charts: per realizzare
variabili                              rappresentazioni grafiche

 Analisi delle frequenze/Syntax
    Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di
    interesse all’interno di questo comando ( ovviamente in un file di sintassi):

    FREQUENCIES
     VARIABLES= anno naz scuola classe prov d1 d2 d3
     /ORDER= ANALYSIS .

    NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo al file di
    sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese)

                                                                                                           13
Analisi delle frequenze/Output

                                         I casi validi: La tabella riporta: 1) il numero di casi validi per
                                         la variabile di interesse in qs. caso il genere, 2) il numero di
                                         casi mancanti, cioè i casi per i quali questa informazione non
                                         è disponibile, 3) le statistiche descrittive richieste ( in qs.
                                         caso la moda)
                                                                      La gamma di valori:
                                                                    La tabella riporta la distribuzione del
                                                                    campione per sesso ( n, %):
                                                                    9 maschi, 20 femmine ed 1 caso
                                                                    codificato come 22
                                                                    Si tratta di un errore di input che va
                                                                    corretto nella matrice dati prima di
                                                                    procedere con l’analisi dei dati,

Correggere l’errore
    Trovare il caso nella matrice dati che sulla variabile sex assume valore 22
    Controllare sul questionario originale corrispondente al caso quale è la risposta
     corretta ( 1 maschio, 2 femmina, 0 non indica)
    Modificare il valore nella matrice dati ( manualmente o attraverso sintassi,
     preferibile perché resta traccia dell’operazione fatta)

 Se non è possibile controllare il questionario:
    si può provare, sulla base di altre informazioni e variabili disponibili di desumere il
    valore esatto ( ad es. alcune scuole in Italia sono frequentate quasi
    esclusivamente da donne, se il ns. caso frequenta una scuola di questo tipo è
    altamente probabile che il codice inputato come 22 in realtà fosse 2)
  si può attribuire al caso valore 0 ( nella nostra matrice dati corrisponde a “non
    indica”) sulla variabile sex o, nel caso di variabili cardinali o quasi cardinali si
    attribuisce il valore medio riscontrato nel campione

                                                                                                              14
INTRODUZIONE ALL’ANALISI
 STATISTICA DEI DATI con SPSS 15.0

                 Simona Guglielmi
             simona.guglielmi@unimi.it

Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09

                                               15
Esercitazione 2
Giovedì 22 maggio, 14.30 -16. 30 (Aula 2)

  Argomenti:
     Analisi monovariata (variabili nominali, ordinali, cardinali)
     Statistiche descrittive di base
     Rappresentazioni grafiche
     Analisi bivariata (Cenni)

  Base dati per esercitazione :
     Scelte postdiploma Lomb2005.sav
     Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale
      di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia

  Testi di riferimento:
      P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino,
      Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca
      sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)

Un esempio di ricerca empirica

      Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
      della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
      Azione di sistema
      Metodo di rilevazione: questionario autocompilato in classe
      Universo di riferimento: studenti di scuola superiore di secondo grado in
      Lombardia ( quarto e quinto anno)
      Campione: rappresentativo dell’universo di riferimento a livello regionale,
      stratificato per tipo di scuola e provincia ( campionamento multistadio a
      grappolo)
      Consistenza numerica del campione: 1.100 casi
      Periodo della rilevazione: Dicembre-Gennaio 2006

                                                                                                      16
Il questionario
    Questionario Scelte post-diploma Lomb2005.doc

  L’immagine della ricerca scientifica

  Atteggiamenti verso le materie tecnico scientifiche

  Scelte formative e professionali

  Orientamento : fonti, bisogni e aspettative

     24 domande                                  113 variabili

Le finestre di SPSS

    Data Editor (Data view,Variable View): contiene la matrice-
     dati e le informazioni sulle variabili; il file ha come
     estensione “Nomefile.sav”

    Output Viewer: mostra i risultati delle elaborazioni
     statistiche (tabelle, grafici,..); il file ha come estensione
     Nomefile.spo

    Syntax File: per salvare i comandi lanciati tramite le
     finestre di dialogo in linguaggio SPSS e per scriverne di
     nuovi; il file ha come estensione Nomefile.sps

                                                                     17
La barra Menù
      File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come
       WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out )
      Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare
       tabelle dell’output)
      View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili,
       visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri
      Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili
       presenti nella matrice dati
      Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili
      Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le
       principali analisi statistiche e alcune rappresentazioni grafiche
      Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche
      Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili
      Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte
      Help/?: guida in linea, contiene anche esercitazioni

Analisi monovariata
     L’analisi delle frequenze ( in SPSS: Analyze             Descriptive              Statistics
            Frequencies) consente di:
     1)     Verificare che i valori presenti nella matrice dati rientrino nella gamma prevista
            ( e registrata nel code-book) Cfr. Lezione 1
     2)     Identificare eventuali casi mancanti sulle singole variabili (Cfr. Lezione 1)
     3)     Verificare la distribuzione delle risposte di una specifica variabile nel campione
     4)     Identificare eventuali modalità della variabile sulle quali si collocano pochi casi

     SPSS consente di :
     -    Costruire una tabella relativa alla distribuzione di frequenza della variabile di
          interesse ( valori assoluti, valori %)
     -    Ottenere una adeguata rappresentazione grafica della distribuzione di
          frequenza della variabile
     -    Calcolare gli indici sintetici di ciascuna distribuzione ( misure di tendenza
          centrale, misure di variazione e dispersione, indice di concentrazione o
          distribuzione)

                                                                                                              18
Analisi delle frequenze/ Menù

                                                                                    reset: per annullare
                                                                                    tutti i comandi
                                                                                    impostati e farne di
                                                                                    nuovi

Statistics: per avere informazioni
sulle statistiche descrittive delle    Charts: per realizzare
variabili (indici sintetici)           rappresentazioni grafiche

 Analisi delle frequenze/Syntax
    Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di
    interesse all’interno di questo comando in un file di sintassi:

    FREQUENCIES
     VARIABLES= anno naz scuola classe prov d1 d2 d3
     /ORDER= ANALYSIS .

    NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo ad un file di
    sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) prima
    di dare l’OK.

                                                                                                           19
Analisi monovariata/variabili
nominali/promemoria
  Con una variabile nominale ( ad. es. il genere ) sono
    possibili le seguenti operazioni:
  - creare una tabella con la distribuzione di frequenza
    (n, %) di ciascuna modalità di cui la variabile è
    composta (quanti sono i maschi e le femmine in valore
    assoluto ed in percentuale nel campione?)
  - calcolare un indice sintetico della distribuzione ( solo e
    soltanto la moda, cioè la modalità che raccoglie il
    maggior numero di casi)
  - produrre una adeguata rappresentazione grafica
    (grafico a torta o grafico a barre)

Analisi monovariata/Variabili nominali/Menù
                              1)   Selezionare la variabile nominale di interesse
                              2)   Cliccare su Statistiche (Statistics) e selezionare   le
                                   statistiche di interesse
                              3)   Cliccare su Grafici (Charts) e selezionare il grafico
                                   adeguato ( a torta/ piecharts, a barre/bar chart)
                              4)   Cliccare su Formato; in genere vanno bene le opzioni
                                   di default, ma dipende dalle esigenze di ricerca

                                                                                             20
Analisi monovariata/Variabili
nominali/Sintassi
  Di seguito si riportano i comandi di sintassi SPSS per
  1) produrre la tabella con la distribuzione di frequenza per la variabile ( o le
      variabili) di interesse ( nel nostro esempio la variabile d1)
  2) calcolare anche alcune statistiche ( nel ns. esempio la moda), o una
      rappresentazione grafica (nel ns. esempio PIECHART/grafico a torta)
      della distribuzione della variabile di interesse
  FREQUENCIES
  VARIABLES=d1
  /STATISTICS=MODE
  /PIECHART PERCENT
  /ORDER= ANALYSIS .

  NB: ricorda che cliccando sul tasto INCOLLA (PASTE per la versione
    inglese) è possibile importare nel file di sintassi i comandi definiti tramite
    menù.

Analisi monovariata/Variabili nominali/OUTPUT

                                         N.B= cliccando sulla tabella o sul grafico
                                     si apre una maschera che consente di modificare
                                                        l’editing

                                                                                       21
Analisi monovariata/Variabili nominali/OUTPUT

Nome/Etichetta della
variabile                                           La tabella “Statistiche” riporta:
                                                    1) il numero di casi validi (quelli che hanno risposto alla domanda)
                 Statistiche
                                                    2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
      Idea su cosa fare dopo sms?                         informazione su questa variabile)
      N        Validi          1115
                                                    3) Il codice numerico corrispondente alla moda della distribuzione della
               Mancanti           0                      variabile (3, corrispondente a “Mi iscriverò ad un corso di laurea”)
      Moda                        3

 Nome/Etichetta della
 variabile                 Idea su cosa fare dopo sms?                                    Informazioni presenti in Tabella:
                                                        Percentuale      Percentuale      1)    Frequenza: il numero di casi che si colloca
                             Frequenza Percentuale        valida          cumulata              su ciascuna delle modalità della variabile di
Validi   Non indica                20         1,8                1,8             1,8            interesse
         Cercherò lavoro          266        23,9              23,9             25,7
         Laurea + lavoro          265        23,8              23,8             49,4      2)    Percentuale: la frequenza % di ciascuna
         Laurea                   328        29,4              29,4             78,8
                                                                                                modalità della variabile
         Corso fp post sms         27         2,4                2,4            81,3      3)    Percentuale valida: la frequenza % di
         Non so                   209        18,7              18,7            100,0            ciascuna modalità della variabile calcolata
         Totale                  1115       100,0             100,0                             solo su casi indicati come validi dal
                                                                                                ricercatore/trice ( nel ns. esempio tutti sono
Modalità della variabile                                                                        ritenuti validi)
                                 Distribuzione di
                                 frequenza (n, %)                                         4)    Percentuale cumulata : utile solo per
                                                                                                variabili ordinali/cardinali ( vedi slides
                                                                                                realtive)

Analisi monovariata/Variabili
nominali/Grafici
     A torta: l’area di ogni sezione rappresenta la % o il                        A barre/ortogramma: l’altezza delle barre è
  numero di risposte corrispondenti a ciascun valore della                   proporzionale alla frequenza di valori della variabile;
  variabile ( nel ns. esempio %); il grafico è in genere poco                 l’ordine dei valori per varibili nominali è arbitrario in
             leggibile se le modalità sono più di 7!                          base alle esigenze di ricerca, anche se in genere si
                                                                             tende a collocarle in ordine crescente/decrescente di
                                                                                                     frequenza

                       N.B= cliccando sul grafico si apre una maschera che consente di
                                             modificarne l’editing

                                                           Statistiche

                                                    Idea su cosa fare dopo sms?
                                                    N     Validi          1115
                                                          Mancanti           0

                                                                                                                                                 22
Analisi monovariata/variabili
ordinali/promemoria
  Con una variabile ordinale ( ad. es.il titolo di studio) sono
    possibili le seguenti operazioni:
  - creare una tabella con la distribuzione di frequenza
    (n, %) di ciascuna modalità di cui la variabile è
    composta (quanti sono i laureati/diplomati/con licenza
    elementare/etc in valore assoluto ed in percentuale nel
    campione?)
  - calcolare indici sintetici della distribuzione (di tendenza
    centrale: moda, mediana)
  - produrre una adeguata rappresentazione grafica
    (ortogramma)

Analisi monovariata/Variabili ordinali/Menù
                             1)   Selezionare la variabile ordinale di interesse
                             2)   Cliccare su Statistiche (Statistics) e selezionare
                                  le statistiche di interesse ( media, mediana)
                             3)   Cliccare su Grafici (Charts) e selezionare il
                                  grafico adeguato ( a barre)
                             4)   Cliccare su Formato; con una variabile ordinale
                                  fondamentale selezionare valori crescenti o
                                  decrescenti (default) e non i conteggi!

                                                                                       23
Analisi monovariata/Variabili
ordinali/Sintassi
  Di seguito si riportano i comandi di sintassi SPSS per
  1) produrre la tabella con la distribuzione di frequenza per la variabile ordinale ( o le
      variabili) di interesse ( nel nostro esempio la variabile d6)
  2) calcolare anche alcune statistiche (media, mediana), o una rappresentazione
      grafica (bar charts, grafico a barre) della distribuzione della variabile di interesse

  FREQUENCIES
  VARIABLES=d6
  /STATISTICS=MEDIAN MODE
  /BARCHART PERCENT
  /ORDER= ANALYSIS .

  NB:
   I comandi sono identici a quelli usati per le variabili nominali, ma cambiano le
     statistiche e il tipo di grafico che è statisticamente sensato richiedere.
   Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è
     possibile importare nel file di sintassi i comandi definiti tramite menù.

 Analisi monovariata/Variabili ordinali/OUTPUT

                                                                                               24
Analisi monovariata/Variabili ordinali/OUTPUT

                                                           La tabella “Statistiche” riporta:

                    Statistiche                            1)     il numero di casi validi (quelli che hanno risposto alla domanda)
          Quando hai deciso di continuare gli studi?       2)     il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
          N         Validi            740                         informazione su questa variabile). Nel ns. esempio si tratta di casi che
                    Mancanti          375                         NON dovevano rispondere, perché filtrati alla domanda precedente
          Mediana                     2,00                        (definiti da SPSS mancanti di sistema)
          Moda                           1
                                                           3)     Il codice numerico corrispondente alla mediana (2= nel biennio della
                                                                  scuola media superiore) e alla moda (1 = prima di iniziare la scuola
                                                                  media superiore) della distribuzione della variabile
 Nome/Etichetta della
 variabile                                                                                     Informazioni presenti in Tabella:
                      Quando hai deciso di continuare gli studi?
                                                                                               1)   Frequenza: il numero di casi che si colloca su
                                                                  Percentuale    Percentuale
                                        Frequenza   Percentuale     valida        cumulata          ciascuna delle modalità della variabile di
 Validi      Prima di iniziare la sms         342         30,7           46,2           46,2        interesse
             Nel biennio delle sms             69           6,2            9,3          55,5
             Durante il 3° anno
                                                                                               2)   Percentuale: la frequenza % di ciascuna
                                               91           8,2          12,3           67,8
             Durante il 4° anno
                                                                                                    modalità della variabile
                                              134         12,0           18,1           85,9
             Durante il 5° anno               104           9,3          14,1          100,0   3)   Percentuale valida: la frequenza % di ciascuna
             Totale                           740         66,4          100,0                       modalità della variabile calcolata solo su casi
 Mancanti    Non indica                        12           1,1                                     indicati come validi dal ricercatore/trice ( nel ns.
             Mancante di sistema              363         32,6                                      esempio non sono validi i “non indica” e i
             Totale                           375         33,6
 Totale                                      1115        100,0                                      “mancanti di sistema”)

Modalità della variabile                                                                       4)   Percentuale cumulata : indica la quota % di
                                     Distribuzione di                                               casi che si collocano entro determinata
                                     frequenza (n, %)                                               posizione della scala ordinale.

          Analisi monovariata/Variabili
          ordinali/Grafici

               A barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della
                   variabile; i valori vanno collocati seguendo l’ordine della scala ordinale. Nel ns.
                esempio è una scala ordinale temporale che va da prima dell’iscrizione ad una scuola
                              media superiore al quinto anno della scuola media superiore

                                                                                                                                                           25
Analisi monovariata/variabili
cardinali/promemoria
  Con una variabile cardinale ( ad. es. numero di esami
    sostenuti; valutazioni in una scala 1-10) sono possibili
    le seguenti operazioni:
  - creare una tabella con la distribuzione di frequenza
    (n, %) di ciascuna modalità di cui la variabile è
    composta (quanti sono i laureati/diplomati/con licenza
    elementare/etc in valore assoluto ed in percentuale nel
    campione?)
  - calcolare indici sintetici della distribuzione (di tendenza
    centrale: moda, mediana, media; indici di
    dispersione: varianza, deviazione standard)
  - produrre una adeguata rappresentazione grafica
    (istogramma)

 Analisi monovariata/variabili cardinali/Menù
                              1)   Selezionare la variabile cardinale di interesse
                              2)   Cliccare su Statistiche (Statistics) e selezionare le
                                   statistiche di interesse (media, mediana, moda,
                                   deviazione std, valore min-max). Verificare che i casi
                                   validi siano solo quelli previsti dalla scala di
                                   misura; ad es. escludere dall’analisi i “non indica”
                                   o i “non so” codificati con codici numerici (0, 99,
                                   etc…) altrimenti SPSS li userà per calcolare la
                                   media!
                              3)   Cliccare su Grafici (Charts) e selezionare il grafico
                                   adeguato (istogramma)
                              4)   Cliccare su Formato; con una variabile cardinale è
                                   importante selezionare valori crescenti o decrescenti
                                   (default) e non i conteggi!

                                                                                            26
Analisi monovariata/
variabili cardinali/Sintassi
  Di seguito si riportano i comandi di sintassi SPSS per
  1) produrre la tabella con la distribuzione di frequenza per la variabile cardinale ( o le
      variabili) di interesse ( nel nostro esempio la variabile d9a)
  2) calcolare anche alcune statistiche (media, mediana, moda, deviazione standard,
      valori minimo e massimo, intervallo), o una rappresentazione grafica (istogramma)
      della distribuzione della variabile di interesse
  FREQUENCIES
  VARIABLES=d9a
  /STATISTICS=STDDEV RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE
   /HISTOGRAM NORMAL
   /ORDER= ANALYSIS .
NB: I comandi sono identici a quelli usati per le variabili nominali e ordinali , ma cambiano le statistiche
e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA
(PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù.
La variabile d9a corrisponde alla seguente domanda del questionario:
9) Indipendentemente dal voto dato dagli insegnanti e dalla scuola che si frequenta alcune persone si
    sentono più portate per la matematica, altre per la storia, altre ancora per il disegno. E tu, in una scala
    da 1 a 10, quanto ti senti portato per le materie elencate ? Posizionati sulla scala considerando che 1
    indica che non ti senti per nulla portato per quella materia e 10 che ti senti portato moltissimo
    Materie matematiche (matematica, statistica…) 1 2 3 4 5 6 7 8 9 10

Analisi monovariata/variabili
cardinali/Output

                                                                                                                  27
Analisi monovariata/variabili cardinali/Output

            Analisi monovariata/variabili cardinali/Output
                                                               La tabella “Statistiche” riporta:
                            Statistiche

            Predisposizione materie: matematiche
                                                               1)    il numero di casi validi (quelli che hanno risposto alla domanda)
            N                Validi               1114         2)    il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
                             Mancanti                 1              informazione su questa variabile).
            Media                                  5,63
            Mediana                                6,00        3)    Il codice numerico corrispondente alla media (5,63) alla mediana (6)
            Moda                                      6              e alla moda (6) della distribuzione della variabile
            Deviazione std.                      2,372
                                                               4)    La deviazione standard (scarto quadratico medio): preferibile alla
            Intervallo                                9
            Minimo
                                                                     varianza nelle analisi monovariate perché è dello stesso ordine di
                                                      1
            Massimo                                  10
                                                                     grandezza della variabile e media.
                                                               5)    Valore massimo e minimo assumibile dalla variabile ( 1-10) e relativo
Nome/Etichetta della
                                                                     intervallo (9)
variabile
                           Predisposizione materie: matematiche                                Informazioni presenti in Tabella:
                                                             Percentuale      Percentuale
                                   Frequenza   Percentuale     valida          cumulata
                                                                                               1)   Frequenza: il numero di casi che si colloca su
 Validi       Per nulla portato           84           7,5            7,5              7,5          ciascun valore della variabile di interesse
              2                           59           5,3            5,3             12,8
                                                                                               2)   Percentuale: la frequenza % di ciascun valore
              3                           90           8,1            8,1             20,9
              4
                                                                                                    della variabile
                                          96           8,6            8,6             29,5
              5                          151          13,5           13,6             43,1     3)   Percentuale valida: la frequenza % di ciascun
              6                          187          16,8           16,8             59,9          valore della variabile calcolata solo su casi
              7                          175          15,7           15,7             75,6          indicati come validi dal ricercatore/trice
              8                          174          15,6           15,6             91,2
                                                                                                    Percentuale cumulata : indica la quota % di
              9                           59           5,3            5,3             96,5
                                                                                                    casi collocati ad una determinata posizione
              Moltissimo portato          39           3,5            3,5            100,0
              Totale                    1114          99,9          100,0
                                                                                                    della scala cardinale.
 Mancanti     Non indica                   1            ,1
 Totale                                 1115        100,0

Modalità della variabile
                                                                            Distribuzione di
                                                                            frequenza (n, %)

                                                                                                                                                     28
Analisi monovariata/variabili cardinali/Grafici
Gli istogrammi richiesti                                                   Se la variabile è una variabile
                                             Statistiche
tramite la finestra                                                        cardinale raggruppata in classi
Frequencies forniscono       Predisposizione materie: matematiche
                             N                Validi                1114   possiamo               rappresentarla
solo le frequenze
assolute e non le %                           Mancanti                 1   graficamente con un istogramma,
                             Media                                  5,63   collocando su un asse la variabile,
                                                                           sull’altro la frequenza e innalzando
                                                                           dei rettangoli di area proporzionale
                                                                           alle frequenze.
                                                                           NB:
                                                                           Un tipo particolare di istogramma è
                                                                           dato dalla piramide della popolazione;
                                                                           dall’Istogramma è possibile derivare il
                                                                           poligono di frequenza.
                                                                           Per queste rappresentazioni grafiche
                                                                           occorre far riferimento al comando
                                                                           Grafici sulla Barra Menù di SPSS (
                                                                           vedi SLIDE SUCCESSIVE)

Come generare Grafici con SPSS/1
 Oltre alle (poche!) rappresentazioni grafiche previste all’interno della finestra Frequencies/Charts ,
 Spss consente di creare numerosi tipi di grafici. Dal comando GRAFICI sulla barra di Menù è
 possibile scegliere tra Generatore Grafici, Interattivi, Finestre Legacy: ognuno di quesi
 sottomenù prevede vari tipi di grafici. Per rapporti di ricerca, pubblicazioni, etc…è comunque
 preferibile usare Excel, che produce grafici esteticamente migliori e più facili da gestire.

                                                                                                                     29
Come generare Grafici con SPSS/2

2) Trascinare la variabile di
interesse sull’asse delle x

                                                                         Istogramma prevede:
                                                                         - Istogrammi semplici e
                                                                         raggruppati
                                                                         - Poligono di frequenza
                                                                         - piramide della
 1) Selezionare il tipo di                                               popolazione
 grafico di interesse

Generatore di Grafici/Esempi

                                                 ISTOGRAMMA (classi %)

                                PIRAMIDE DELLA
                                POPOLAZIONE

                                                                                                   30
Missing values: come eliminare dall’analisi i
 casi?
                                                                                         Colonna del foglio
                                                                                         variabili da utilizzare per
                                                                                         definire i valori mancanti
                                                                                         (missing) oltre a quelli di
                                                                                         sistema definiti in fase di
                                                                                         input

                                                                                      Cliccare sulla cella
                                                                                      corrispondente alla
                                                                                      variabile di interesse ( nel
                                                                                      ns.esempio d9a) ed
                                                                                      inserire i valori da definire
                                                                                      come mancanti. Nel ns.
                                                                                      caso 0, che corrisponde a
                                                                                      “Non indica”

I casi validi: su quale base calcolare le
frequenze?
  1)   Effettuare una distribuzione di frequenza della variabile di interesse prevedendo tutti i
       valori che essa può assumere (compresi quelli corrispondenti a non so e non indica);
  2)   Per le variabili cardinali, quando si chiedono le statistiche descrittive (media, mediana,
       deviazione standard, etc…) ricordarsi sempre di tarsformare in missing i valori che escono
       dalla scala di misura (in genere i codici numerici associati a “non so” e o “non indica”)
  3)   La scelta di eliminare o meno i non so dall’analisi dipende dalle esigenze di ricerca, dal tipo di
       fenomeno che si sta studiando, dall’impostazione metodologica del ricercatore
  4)   Come trattare i Non so? Si tratta di una informazione importante che il ricercatore deve
       sempre tenere presente per valutare l’affidabilità dei dati su cui lavora. Nel caso in cui si
       decida di eliminare i “non so” dall’analisi (in genere quando si tratta di pochi casi, inferiori al
       3% del campione) è importante segnalare l’operazione fatta ( nel testo, o in tabella o in una
       nota metodologica);
  5)   Come trattare i Non indica (mancate risposte)? In primo luogo occorre controllare che non
       vi siano errori di input ed eventualmente correggerli nella matrice dati. In genere, a meno che
       non si tratti di una quota rilevante del campione, si è soliti eliminare dall’analisi i “non indica”.
       Si tenga presente che se la variabile non prevede la modalità di risposta “non so”è probabile
       che alcuni intervistati “indecisi” abbiano preferito non rispondere alla domanda ( e quindi sono
       stati codificati con “non indica”). Anche in questo caso se si decide di trasformare in missing
       values i “non indica” occorre sempre segnalare l’operazione fatta in fase di presentazione dei
       dati.

                                                                                                                       31
Missing values: un esempio
                   Tab. 1     Idea su cosa fare dopo sms?                                       Come si può notare le percentuali valide
                                                                                                riportate nella prima tabella (distribuzione di
                                                            Percentuale       Percentuale
                              Frequenza    Percentuale        valida           cumulata
                                                                                                frequenza di tutti i valori della variabile)
Validi    Non indica                 20            1,8               1,8               1,8      differiscono notevolmente dalla seconda che
          Cercherò lavoro           266           23,9              23,9              25,7      esclude Non indica e Non so).
          Laurea + lavoro           265           23,8              23,8              49,4
                                                                                                Sulla base dei dati presentati in Tab. 1 possiamo
          Laurea                    328           29,4              29,4              78,8
          Corso fp post sms
                                                                                                dire che su 100 studenti lombardi : circa 20 non
                                     27            2,4               2,4              81,3
          Non so                    209           18,7              18,7            100,0
                                                                                                sanno cosa fare dopo il diploma (18,7%), 30
          Totale                   1115         100,0              100,0
                                                                                                pensano di iscriversi all’università (29,4%), 24
                                                                                                vogliono conciliare lavoro e università, 24
                                                                                                cercheranno subito un lavoro. Una quota ridotta
                                                                                                ( 2 ,4%) sceglie un corso Formazione
                 Tab. 2          Idea su cosa fare dopo sms?                                    Professionale o non fornisce risposta (1,8%).
                                                               Percentuale       Percentuale    Se usiamo i dati presentati in Tab.2 e
                                  Frequenza   Percentuale        valida           cumulata
Validi       Cercherò lavoro            266          23,9              30,0              30,0
                                                                                                consideriamo la sola percentuale valida, le
             Laurea + lavoro            265          23,8              29,9              59,9   quote variano di molto: circa 37 studenti su 100
             Laurea                     328          29,4              37,0              97,0   pensano di iscriversi all’università, 30 vogliono
             Corso fp post sms           27           2,4               3,0            100,0    conciliare lavoro e università, 30 cercheranno
             Totale                     886          79,5             100,0                     subito un lavoro. Una quota ridotta ( 3%)
Mancanti     Non indica                  20           1,8                                       sceglierà un corso Formazione Professionale
             Non so                     209          18,7
             Totale                     229          20,5
Totale                                 1115        100,0

Missing values: la matematica è
un’opinione?
         Chi è in possesso dei dati presentati in Tab. 1 potrà legittimamente affermare:
         “Dai dati emerge una grande difficoltà da parte degli studenti lombardi nel
         scegliere il proprio futuro. Ben un quinto di essi non è in grado di formulare
         ipotesi sulle scelte che farà dopo il diploma e la quota rimanente si suddivide
         quasi equamente tra chi si iscriverà ad un corso di laurea, chi cercherà un lavoro
         e chi intende conciliare entrambi i percorsi. L’investimento assoluto in un
         percorso qualificante quale quello universitario raccoglie l’interesse di poco meno
         di 30 studenti su 100”

         Chi è in possesso dei dati presentati in Tab. 2 ( percentuale valida)                                                potrà
         legittimamente affermare:
         “I dati evidenziano una fortissima tendenza da parte degli studenti di
         scuola superiore ad investire sul proprio futuro professionale con percorsi
         di qualità, con l’obiettivo di conseguire un titolo di studio universitario. Infatti, ben
         due terzi degli studenti intervistati pensa di iscriversi ad un corso di laurea,
         eventualmente affiancando tale percorso ad un impegno lavorativo.”

                                                                                                                                                    32
Le variabili quasi-cardinali

 Molti fenomeni sociali (religiosità, razzismo, orientamento politico, atteggiamenti verso le istituzioni,
 coesione sociale, orientamenti valoriali, etc…) possono essere immaginate come proprietà continue
 che variano in maniera graduale far gli individui. Ma quale unità di misura usare per passare da un
 concetto di questo tipo ad una variabile cardinale (opertivizzazione)? La “tecnica delle scale”
 rappresenta un tentativo di superare tale limite. Le variabili prodotte con queste tecniche (variabili
 quasi-cardinali, Marradi 1993) possono plausibilmente essere trattata con gli strumenti statistici propri
 delle variabili cardinali, ma è sempre opportuno tenere presente la loro particolare natura.
 La scala maggiormente utilizzata nelle scienze sociali è la scala Likert. Il formato delle singole
 domande delle scale Likert è rappresentato da una serie di affermazioni per ognuna delle quali
 l’intervistato deve dire se e in che misura è d’accordo. La scala può essere a 7 alternative (molto
 d’accordo, d’accordo, parzialmente d’accordo, incerto,parzialmente in disaccordo, in dissaccordo,
 molto in disaccordo), a 5 (molto d’accordo, d’accordo, incerto, in disaccordo, molto in disaccordo) o a
 4 (molto, abbastanza, poco, per nulla d’accordo). Ad ogni modalità di risposta è associato un valore
 numerico ( da 1 a 7, o da 1 a 5, o da 1 a 4) con proprietà cardinali.
 Esempi di scala nel questionario usato per le esercitazioni (Scelte postdiploma Lomb 2005.doc):
 - Dom 13) Parliamo adesso di un lavoro in particolare, quello di chi fa ricerca scientifica, cioè delle persone che fanno
 nuove scoperte sul “funzionamento” di vari aspetti del mondo (ad esempio i pianeti, l’atmosfera, il corpo umano…). Le
 opinioni della gente sulla ricerca scientifica non sono tutte uguali. Tu come la pensi? Di seguito ti elenchiamo una
 serie di affermazioni: per ognuno di esse ti chiediamo di dirci se sei d’accordo e in che misura.
 - Dom. 10) Le opinioni degli studenti rispetto alla matematica possono essere molto diverse: tu come la pensi? Ti
 elenchiamo una serie di affermazioni: per ognuna di esse ti chiediamo di dirci se sei d’accordo e in che misura

Atteggiamento verso la ricerca scientifica:
analisi monovariata
           Affermazioni ricerca scientifica: comporta rischi difficili da controllare

                                                                Percentuale      Percentuale
                                   Frequenza    Percentuale       valida          cumulata
 Validi    Non indica                      3             ,3               ,3               ,3
           Per nulla d'accordo            57            5,1              5,1              5,4
           Poco d'accordo                320           28,7             28,7             34,1
           Abbastanza d'accordo          491           44,0             44,0             78,1
           Molto d'accordo               175           15,7             15,7             93,8
           Non so                         69            6,2              6,2           100,0     Posso chiedere l’analisi
           Totale                       1115         100,0             100,0
                   Affermazioni ricerca scientifica: difficile da comprendere
                                                                                                 delle     frequenze    per
                                                                                                 ciascuna          variabile
                                                                 Percentuale      Percentuale
                                    Frequenza    Percentuale       valida          cumulata      derivata dalla batteria di
  Validi    Non indica                      1             ,1               ,1               ,1
            Per nulla d'accordo           112           10,0             10,0             10,1
                                                                                                 domande, ma la lettura e
            Poco d'accordo                385           34,5             34,5             44,7   il confronto tra variabili
            Abbastanza d'accordo          458           41,1             41,1             85,7
            Molto d'accordo               122           10,9             10,9             96,7
                                                                                                 risulta poco agevole
            Non so                         37            3,3              3,3           100,0
            Totale                       1115         100,0             100,0
               Affermazioni ricerca scientifica: chi la fa è pagato troppo poco

                                                                Percentuale      Percentuale
                                   Frequenza     Percentuale      valida          cumulata
  Validi    Non indica                     5              ,4              ,4               ,4
            Per nulla d'accordo           84             7,5             7,5              8,0
            Poco d'accordo               177            15,9            15,9             23,9
            Abbastanza d'accordo         290            26,0            26,0             49,9
            Molto d'accordo              222            19,9            19,9             69,8
            Non so                       337            30,2            30,2           100,0
            Totale                      1115          100,0            100,0

                                                                                                                               33
Atteggiamento verso la ricerca scientifica:
tabelle di frequenza

Tabelle di frequenza/Menu

                                              34
Tabelle di Frequenza/output
       Questo formato agevola il confronto tra variabili ( che rappresentano nel
       ns. esempio un particolare aspetto associato alla ricerca scientifica)

                                                Affermazioni ricerca
                       Affermazioni ricerca     scientifica: comporta      Affermazioni ricerca       Affermazioni ricerca
                    scientifica: indispensabile    rischi difficili da     scientifica: difficile da  scientifica: chi la fa è
                        x qualità della vita          controllare              comprendere             pagato troppo poco
                    Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale
Non indica                     2             ,2         3               ,3         1               ,1         5               ,4
Per nulla d'accordo            9             ,8        57              5,1      112              10,0       84              7,5
Poco d'accordo                51            4,6      320              28,7      385              34,5     177              15,9
Abbastanza d'accordo        394            35,3      491              44,0      458              41,1     290              26,0
Molto d'accordo             652            58,5      175              15,7      122              10,9     222              19,9
Non so                         7             ,6        69              6,2       37               3,3     337              30,2
Totale                    1115           100,0      1115             100,0     1115             100,0    1115            100,0

         INTRODUZIONE ALL’ANALISI
         STATISTICA DEI DATI con SPSS 15.0

                                               Simona Guglielmi
                                         simona.guglielmi@unimi.it

     Esercitazioni del Corso di Metodologia delle
     Scienze sociali (A-L, SPO) a.a 2008/09

                                                                                                                                   35
Esercitazione 3

 Argomenti
 Trasformazione delle variabili attraverso i comandi:
  Ricodifica (RECODE)
  Calcola (COMPUTE)
  Conteggia (COUNT)
 Manipolazione dei casi attraverso i comandi:
  Seleziona (SELECT cases)
  Distingui (SPLIT FILE)

 Base dati per esercitazione :
    Scelte postdiploma Lomb2005.sav
    Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale
     di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia
 Testi di riferimento:
     P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino,
     Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca
     sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)

Un esempio di ricerca empirica

     Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
     della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
     Azione di sistema
     Metodo di rilevazione: questionario autocompilato in classe
     Universo di riferimento: studenti di scuola superiore di secondo grado in
     Lombardia ( quarto e quinto anno)
     Campione: rappresentativo dell’universo di riferimento a livello regionale,
     stratificato per tipo di scuola e provincia ( campionamento multistadio a
     grappolo)
     Consistenza numerica del campione: 1.100 casi
     Periodo della rilevazione: Dicembre-Gennaio 2006

                                                                                                     36
Il questionario
    Questionario Scelte post-diploma Lomb2005.doc

  L’immagine della ricerca scientifica

  Atteggiamenti verso le materie tecnico scientifiche

  Scelte formative e professionali

  Orientamento : fonti, bisogni e aspettative

      24 domande                                 113 variabili

Costruire nuove variabili
      Spss consente di creare una nuova variabile
      tramite:
     Trasformazione di una variabile presente nel
      data set (es. aggregazione dei valori in classi,
      comando RECODE)
     Conteggio di un valore presente in una lista di
      variabili ( comando COUNT)
     Combinazione di più variabili (operazioni
      aritmetiche e/o logiche tra le variabili,
      comando COMPUTE)

                                                                 37
L’istruzione RECODE (ricodifica)

          Consente di assegnare alle variabili valori
          differenti rispetto a quelli di partenza:
         Codificare un valore come missing
         Accorpare in classi i valori della variabile
         Invertire i valori della variabile in coerenza con
          la scala usata (ad.es in Scala Likert, 1= per
          nulla; 4=molto) ed in generale modificare i
          valori associati alle modalità di risposta

Un esempio: accorpamento dei
valori in classi
                                            Tipo sms frequentata

                                                                           Percentuale         Percentuale
                                          Frequenza        Percentuale       valida             cumulata
 Validi     Non indica                             1                  ,1               ,1                  ,1
            L. classico                           88                 7,9              7,9                 8,0
            L. scientifico                       233                20,9             20,9                28,9
            L. artistico                          42                 3,8              3,8                32,6
            L.
                                                  44                 3,9                 3,9             36,6
            socio-psico-pedagogico
            Ist. prof. industriale e
                                                  73                 6,5                 6,5             43,1
            artigianato
            Ist. prof. per i servizi
                                                  94                 8,4                 8,4             51,6
            commerciali e turistici
            Altri Ist. Prof. e Istituto
                                                  40                 3,6                 3,6             55,2
            d'arte
            Ist. Tecnico commerciale
                                                 276                24,8             24,8                79,9
            e per geometri
            Ist. Tecnico industriale             179                16,1             16,1                96,0
             Altri ist. Tecnici                   45                 4,0              4,0               100,0
            Totale                              1115               100,0            100,0

          Come ricodificare la variabile “scuola” passando da 10 modalità a 3?
          1 = liceo
          2 = ist. professionale
          3 = ist. Tecnico

                                                                                                                38
Ricodifica in variabili differenti
     Utilizzeremo l’istruzione RECODE ( in variabili
      differenti) per creare una nuova variabile “scuola_rec”
      a tre modalità
     TRANSFORM RECODE               INTO DIFFERENT
      VARIABLES
      Posso ricodificare la variabile “scuola” passando da 10
      modalità a 3:
      1 = liceo ( comprende i “vecchi” valori 1,2,3,4)
      2 = ist. professionale ( comprende i “vecchi” valori 5,6,7)
      3 = ist. Tecnico (comprende i “vecchi” valori 8,9,10)
      I “non indica” sono codificati come “missing values”

Ricodifica in variabili differenti/Menu

                                                                    39
Ricodifica: creare una nuova
variabile

    1. Selezionare la variabile da modificare e spostarla nel box centrale
    2. Indicare nome ed etichetta della variabile che si vuole creare e
       cliccare su Cambia per confermare
    3. Cliccare su Valori vecchi e nuovi per dare le istruzioni di ricodifica
    4. Cliccare su SE,qualora si voglia applicare la ricodifica solo ai csi che
       soddisfano una determinata condizione ( ad es. sesso=1)

Ricodifica: assegnare nuovi valori

    1. Indicare nell’appropriato box a sinistra il valore/i valori da ricodificare
       (vecchio valore), che possono essere singoli o intervalli di valori ( nel ns.
       esempio 0, intervallo da 1 a 4, da 5 a7, da 8 a 10)
 1. Ib
     2. Per ciascun vecchio valore o intervallo di valori indicare ( a destra) la
        ricodifica scelta: un valore nuovo, mancante di sistema, un valore uguale
        a quello vecchio. Cliccare su aggiungi per confermare
    3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi
       slide precedente)

                                                                                       40
Ricodifica: la sintassi
I comandi di sintassi consentono di creare la nuova variabile,
assegnare i valori e le etichette ( tramite Menu le etichette dei valori
non possono essere assegnate!). Negli esempi seguenti vengono
create due variabili differenti ( scuola_2, scuola_3, a partire dalla
variabile iniziale “scuola”)
 RECODE
  scuola
  (0=SYSMIS) (1 thru 4=1) (5 thru 7=2) (8 thru 10=3) INTO scuola_3 .
 VARIABLE LABELS scuola_3 "Tipo scuola in 3 classi".
 EXECUTE .
 VAL LAB scuola_3
 1 "Liceo"
 2 "Istituto Professionale"
 3 "Istituto Tecnico" .

 RECODE
  scuola
  (0=SYSMIS) (1 thru 4=1) (5 thru 10=2) INTO scuola_2 .
 VARIABLE LABELS scuola_2 "Tipo scuola in 2 classi".
 EXECUTE .
 VAL LAB scuola_2
 1 "Liceo"
 2 "Istituto Professionale o Tecnico "

Distribuzione di frequenza delle
nuove variabili (ricodificate)
                                            Tipo scuola in 2 classi

                                                                         Percentuale     Percentuale
                                            Frequenza    Percentuale       valida         cumulata
      Validi      Liceo                           407           36,5             36,5            36,5
                  Istituto Professionale
                                                  707            63,4            63,5          100,0
                  o Tecnico
                  Totale                         1114            99,9           100,0
      Mancanti    Mancante di sistema               1              ,1
      Totale                                     1115           100,0

                                           Tipo scuola in 3 classi

                                                                        Percentuale     Percentuale
                                           Frequenza    Percentuale       valida         cumulata
     Validi      Liceo                           407           36,5             36,5            36,5
                 Istituto Professionale          207           18,6             18,6            55,1
                 Istituto Tecnico                500           44,8             44,9           100,0
                 Totale                         1114           99,9            100,0
     Mancanti    Mancante di sistema               1             ,1
     Totale                                     1115          100,0

                                                                                                        41
Ricodificare una batteria di
domande
         La batteria seguente produce 10 differenti variabili con uguale scala
         di risposta ( da 1 a 4, 1=lo escludo, 4= molto probabile)

         7) In quale dei seguenti gruppi disciplinari pensi di scegliere la Facoltà o il corso di formazione
            professionale post-diploma al quale iscriverti?

         (1 risposta per ogni riga)                                                Lo escludo                  Poco Abbastanza Molto
                                                                                                           probabile probabile probabile
         •   Gruppo scientifico (matematica, chimica, biologia…)....................... ................ ................
         •   Gruppo medico (medicina, veterinaria ecc.)....................................... ................ ................
         •   Gruppo ingegneria .............................................................................. ................ ................
         •   Gruppo economico (economia e commercio, ecc.)............................. ................ ................
         •   Gruppo politico-sociale (scienze politiche, sociologia…).................. ................ ................
         •   Gruppo psicologico ............................................................................ ................ ................
         •   Gruppo giuridico................................................................................. ................ ................
         •   Gruppo umanistico (lettere, storia, filosofia ecc.)............................... ................ ................
         •   Gruppo architettura............................................................................. ................ ................
         •   Gruppo agrario.................................................................................... ................ ................

Ricodificare le domande di una
batteria/1
                 Gruppo disciplinare a cui iscriverti: scientifico

                                                             Percentuale      Percentuale
                           Frequenza Percentuale               valida          cumulata            Per       semplificare  iniziamo
Validi   Non indica              19         1,7                      2,5              2,5          ricodificando la prima variabile
         Lo escludo             355        31,8                     47,2             49,7
         Poco probabile         183        16,4                     24,3             74,1
                                                                                                   (d7a) della batteria, creandone
         Abbastanza probabile 128          11,5                     17,0             91,1          una nuova con 2 modalità.
         Molto probabile         67         6,0                      8,9           100,0
         Totale                 752        67,4                    100,0
Mancanti Mancante di sistema    363        32,6
                                                                                                   RECODE d7a
Totale                         1115       100,0
                                                                                                    (0=SYSMIS) (1 thru 2=0) (3 thru 4=1)
                                                                                                   INTO d7a2 .
                       Iscrizione Gruppo scientifico?                                              VAR LAB d7a2 "Iscrizione Gruppo
                                                                                                   scientifico?".
                                          PercentualePercentuale
                      Frequenza Percentuale valida    cumulata                                     VAL LAB var d7a2
 Validi non probabile       538      48,3       73,4      73,4                                     0 "non probabile"
        probabile           195      17,5       26,6     100,0                                     1 "probabile".
        Totale              733      65,7     100,0
 MancantiMancante di sistema382      34,3
 Totale                   1115      100,0

                                                                                                                                                        42
Ricodificare le domande di una
batteria/2
 RECODE
 d7b d7c d7d d7e d7f d7g d7h d7i d7l
 (0=SYSMIS) (1 thru 2=0) (3 thru 4=1)
 INTO d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2.
 VARIABLE LABELS d7b2 "Gruppo medico?".
 VARIABLE LABELS d7c2 "Gruppo ingegneria?".
 VARIABLE LABELS d7d2 "Gruppo economico?".
 VARIABLE LABELS d7e2 "Gruppo politico-sociale?"          .
 VARIABLE LABELS d7f2 "Gruppo psicologico ?".
 VARIABLE LABELS d7g2 "Gruppo giuridico?".
 VARIABLE LABELS d7h2 "Gruppo umanistico ?".
 VARIABLE LABELS d7i2 "Gruppo architettura?".
 VARIABLE LABELS d7l2 "Gruppo agrario?" .
 EXECUTE .

    VAL LAB d7b2                              Tramite i comandi di sintassi ripetiamo
    0 "non probabile"
    1 "probabile".
                                              l’operazione di ricodifica per tutte e 10 le
    (….)                                      variabili della batteria (Cfr. File di
    VAL LAB d7i2                              sintassi dell’Esercitazione n.3)
    0 "non probabile"
    1 "probabile".

Distribuzione di frequenza delle
variabili ricodificate (batteria)
  Per creare la tabella riassuntiva della distribuzione delle variabili di una
  batteria tramite menu: Analizza/Tabelle/Tabelle di frequenza
                                                   non probabile         probabile         Totale
     Iscrizione Gruppo          Frequenza                          538               195            733
     scientifico?               Percentuale                   73,4%            26,6%          100,0%
     Gruppo medico?             Frequenza                          564               166            730
                                Percentuale                   77,3%            22,7%          100,0%
     Gruppo ingegneria?         Frequenza                          526               206            732
                                Percentuale                   71,9%            28,1%          100,0%
     Gruppo economico?          Frequenza                          529               205            734
                                Percentuale                   72,1%            27,9%          100,0%
     Gruppo politico-sociale?   Frequenza                          547               185            732
                                Percentuale                   74,7%            25,3%          100,0%
     Gruppo psicologico ?       Frequenza                          534               200            734
                                Percentuale                   72,8%            27,2%          100,0%
     Gruppo giuridico?          Frequenza                          596               134            730
                                Percentuale                   81,6%            18,4%          100,0%
     Gruppo umanistico ?        Frequenza                          570               161            731
                                Percentuale                   78,0%            22,0%          100,0%
     Gruppo architettura?       Frequenza                          576               159            735
                                Percentuale                   78,4%            21,6%          100,0%
     Gruppo agrario?            Frequenza                          683                51            734
                                Percentuale                   93,1%             6,9%          100,0%

                                                                                                          43
L’istruzione COUNT
    Possiamo costruire un indice che evidenzi la
     frequenza con cui un determinato valore ricorre in una
     lista di variabili.
    Ad esempio, riferendoci alle domande precedenti,
     possiamo “contare” quante volte è stato scelto il valore
     1 (che indica probabile iscrizione universitaria) sul
     totale delle 10 variabili corrispondenti a diversi gruppi
     universitari. L’indice potrà variare da 0 (mai indicato) a
     10 (indicato per tutte le variabili). Gli intervistati
     associati a valore 10, sono dunque coloro che hanno
     dichiarato una probabile iscrizione a tutti i gruppi
     universitari indicati
    La nuova variabile, poiché derivata da un
     CONTEGGIO, è una variabile cardinale

L’istruzione COUNT/Menu

                                                                  44
L’istruzione count/Menu

   1. Dare un nome e una etichetta alla nuova variabile
   2. Selezionare le variabili, all’interno delle quali SPSS dovrà
      conteggiare il valore scelto
   3. Cliccare su Definisci valori
   4. Se il conteggio si applica solo ad alcuni casi ( ad es. solo alle
      donne) cliccare su SE e definire i criteri di selezione

Selezionare i valori da conteggiare

  1. Indicare il valore da conteggiare ( nel ns. esempio 1) in un
     adeguato box a sinistra, cliccare su aggiungi per spostarlo nel
     box a destra
  2. I valori da conteggiare possono essere singoli (come nel
     ns.esempio) o intervalli di valori.
  3. Cliccare su continua, e poi su OK nella maschera che compare (
     vedi slide precedente)

                                                                          45
L’istruzione COUNT/Sintassi e
Output
         COUNT
         Countd7 = d7a2 d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2 (1) .
         VARIABLE LABELS Countd7 'Conteggio probabilità di iscrizione a n gruppi
         universitari' .
         EXECUTE .

            Conteggio probabilità di iscrizione a n gruppi universitari
                                                                                    La distribuzione di frequenza della
                                                   Percentuale       Percentuale
                                                                                    nuova variabile evidenzia che :
                   Frequenza      Percentuale        valida           cumulata      - Più di un terzo degli studenti non
Validi    ,00            403             36,1               36,1             36,1
          1,00           168             15,1               15,1             51,2
                                                                                    ha      indicato    una     probabile
          2,00           271             24,3               24,3             75,5   iscrizione     ad    alcun    gruppo
          3,00           180             16,1               16,1             91,7
          4,00
                                                                                    disciplinare
                          63              5,7                5,7             97,3
          5,00            22              2,0                2,0             99,3   - una minoranza ha indicato un
          6,00             7                ,6                ,6             99,9   solo gruppo disciplinare come
          8,00             1                ,1                ,1            100,0
          Totale        1115            100,0             100,0
                                                                                    probabile (15,1%)
                                                                                    - circa il 40% è indeciso tra 2 o 3
                                                                                    gruppi disciplinari
                                                                                    - una quota marginale (8%) ha
                                                                                    indicato più di 4 gruppi disciplinari

Ricodificare una variabile creata
tramite conteggio
           La variabile ottenuta può essere ricodificata in
           base alle esigenze di ricerca (ad. es. successive
           analisi bivariata o multivariata).
           Ad esempio possiamo creare una nuova variabile
           con 3 modalità:
          studenti       non       interessati    all’iscrizione
           universitaria
          studenti    interessati ad un solo gruppo
           disciplinare’
          studenti indecisi tra almeno 2 gruppi disciplinari

                                                                                                                            46
La nuova variabile: sintassi e
frequenza
                    Tipologia studenti in base al numero di gruppi disciplinari indicati

                                                                    Percentuale   Percentuale
                                            Frequenza Percentuale     valida       cumulata
           Validi    non interessati ad alcun
                                                 403        36,1           36,1             36,1
                    gruppo disciplinare
                    interessati ad un solo
                                                 168        15,1           15,1             51,2
                    gruppo disciplinare
                    indecisi fra almeno 2
                                                 544        48,8           48,8            100,0
                    gruppi disciplinari
                    Totale                      1115       100,0          100,0

 RECODE
 Countd7
  (0=0) (1=1) (ELSE=2) INTO Countd7_rec .
 VARIABLE LABELS Countd7_rec 'Tipologia studenti in base al numero di gruppi disciplinari
 indicati'.
 EXECUTE .
 val lab Countd7_rec
 0 ' non interessati ad alcun gruppo disciplinare'
 1 'interessati ad un solo gruppo disciplinare'
 2 'indecisi fra almeno 2 gruppi disciplinari' .

L’istruzione COMPUTE: operazioni
matematiche con le variabili
     L’età in anni degli studenti non è disponibile nel
      data set, ma può essere ricavata da una semplice
      operazione (anno di rilevazione-anno di nascita)
     Possiamo calcolare la predisposizione media
      degli studenti rispetto a tutte le materie insegnate
      a scuola
     Possiamo      costruire      una    nuova    variabile
      combinando ( attraverso operatori logici) tra loro
      2 o più variabili ( di qualsiasi scala)
     ….e via di seguito. Con l’istruzione Compute si
      possono      effettuare       tutte   le  operazioni
      matematiche anche le più complesse (ovviamente
      le variabili devono essere cardinali o quasi
      cardinali!)

                                                                                                   47
Puoi anche leggere