INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
simona.guglielmi@unimi.it
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
Esercitazione 1
Presentazione di SPSS 15.0 per Windows
la matrice dati
le variabili
la sintassi
i risultati
Inserimento dati
importazione da altri programmi (Excel, Word,…)
data entry
La “pulizia” dei dati
l’analisi delle frequenze
dati mancanti, outlier
1Testi di riferimento
Marisa Giorgetti, Davide Massaro, Ricerca e percorsi di analisi
dati con SPSS, Milano, Pearson Paravia Bruno Mondadori, 2007
AAVV, L'ABC del programma SPSS : come avviarsi alla pratica
del pacchetto statistico, Milano, F. Angeli, 2004
Roberto Fideli, Come analizzare i dati al computer, Roma,
Carocci, 2002.
Julie Pallant, SPSS survival manual : a step by step guide to data
analysis using SPSS for Windows (version 12) / 2. ed.
Maidenhead Open university press, 2005.
Inoltre:
- Una guida in linea è disponibile all’interno del pacchetto SPSS
- I materiali presentati durante le esercitazioni saranno disponibili sul
sito del Prof. Ferruccio Biolcati Rinaldi, nella sezione del corso.
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
2Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande 113 variabili
Dalle risposte degli intervistati ai dati
Dom2) Qual è il motivo principale per cui non hai ancora deciso cosa fare dopo
aver conseguito il diploma? (1 sola risposta)
(1) Aspetto di avere maggiori informazioni soprattutto sui corsi di laurea
Aspetto di avere maggiori informazioni soprattutto sui corsi di formazione
professionale post-diploma
Aspetto di avere maggiori informazioni soprattutto sulle possibilità di lavoro
Voglio attendere il risultato della maturità
Regole base per la codifica:
•I casi devono essere contraddistinti da un numero d’ordine corrispondente al
questionario del singolo intervistato
•Le variabili devono essere rappresentate in formato numerico ( un codice
numerico per ciascuna categoria di risposta)
•I codici numerici devono essere mutualmente esclusivi
•I codici numerici devono essere coerenti tra domande ( usare lo stesso numero
per modalità di risposta uguali, ad es. 1 per sì e 2 per no)
•E’ preferibile che i codici numerici siano omogenei rispetto alla modalità di risposta
( ad es. per variabili ordinali 1 per indicare il valore inferiore)
3Le finestre di SPSS
Data Editor (Data view,Variable View): contiene la
matrice-dati e le informazioni sulle variabili; il file ha
come estensione “Nomefile.sav”
Output Viewer: mostra i risultati delle elaborazioni
statistiche (tabelle, grafici,..); il file ha come estensione
Nomefile.spo
Syntax File: per salvare i comandi lanciati tramite le
finestre di dialogo in linguaggio SPSS e per scriverne di
nuovi; il file ha come estensione Nomefile.sps
La matrice casi x variabili in Excel
variabili
c
a
s
i
Codici
numerici
4Importazione di un file dati in SPSS da
Excel/3
La matrice dei dati in SPSS (Data Editor)
Barra Menù
6La barra Menù
File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come
WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out )
Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare
tabelle dell’output)
View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili,
visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri
Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili
presenti nella matrice dati
Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili
Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le
principali analisi statistiche
Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche
Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili
Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte
Help/?: guida in linea, contiene anche esercitazioni
Salvare la matrice dati (xxx. sav)
7Salvare la matrice dei dati/2
Le variabili (Variable View)
•Spss consente di definire le caratteristiche delle variabili della
matrice dati (tipo di variabile, scala di misura, nomi delle variabili e
dei valori)
•Queste operazioni sono preliminari all’analisi statistica dei dati e
possono essere fatte tramite le finestre di dialogo (Variable View)
che tramite la sintassi (Syntax file). Quest’ultima modalità è
preferibile, soprattutto per le etichette delle variabili e dei valori!
NB: tutti i comandi di SPSS possono essere importati dalla finestra
di dialogo semplicemente cliccando sul tasto INCOLLA ( PASTE
per la versione inglese). Una volta importato può essere adattato
alle esigenze del ricercatore.
8Definire il tipo di variabile (Variable View)
Nome della variabile: Tipo variabile:
Il nome della variabile non Consente di specificare il
può contenere spazi, deve tipo di variabile, in
iniziare con una lettera, non particolare se ha un formato
deve essere più lungo di 64 di tipo numerico o stringa
caratteri ( 8 per versioni (testo). Su una variabile
SPSS precedenti alla 15), formato stringa non sono
rifiuta alcuni caratteri possibili le analisi statistiche
speciali
Definire la scala di misura
Variabili cardinali o quasi cardinali: scala ( es. età in anni,
numero figli)
Variabili ordinali: ordinale (es. età in classi, anno di corso,…)
Variabili nominali: nominale ( es. sesso, indirizzo di studi,..)
9Le etichette (Variable label, value label)
Variable label: consente di descrivere in
maniera discorsiva la variabile
Value labels: consente di
associare una etichetta verbale
a ciascun valore che può
essere assunto da ciascuna
variabile
Definire le variabili con un file di sintassi
10Variable label, value label
La procedura per etichettare le variabili e le rispettive modalità con
il linguaggio SPSS è molto semplice.
VARIABLE LABEL ( VAR LAB): assegna un’etichetta alla variabile
VALUE LABEL (VAL LAB): assegna un’etichetta alle modalità della
variabile
Da ricordare:
• i comandi iniziano con VAR LAB O VAL LAB e finiscono sempre
con un punto.
• le etichette sono sempre comprese tra virgolette “….”; ‘….’
•Poiché i punti e le virgolette sono un comando nel linguaggio
SPSS, essi non vanno mai utilizzati nel testo che descrive le
variabili o i valori
•Per lanciare il comando cliccare sul tasto sulla barra degli
strumenti
La pulizia dei dati
Prima di procedere con l’analisi statistica dei dati è necessario
controllare che in fase di input non siano stati commessi errori
Questa fase preliminare consente inoltre di avere una prima
visione d’insieme della distribuzione delle variabili nella
popolazione
L’analisi delle frequenze ( in SPSS: Analyze Descriptive
Statistics Frequencies ) consente di:
1) Verificare che i valori presenti rientrino nella gamma di valori
previsti
2) Verificare eventuali casi mancanti
3) Verificare la distribuzione delle risposte su una specifica
variabile
11L’analisi delle frequenze/Menù
L’analisi delle frequenze/Menù
12Analisi delle frequenze/ Menu
reset: per annullare
tutti i comandi
impostati e farne di
nuovi
Statistics: per avere informazioni
sulle statistiche descrittive delle Charts: per realizzare
variabili rappresentazioni grafiche
Analisi delle frequenze/Syntax
Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di
interesse all’interno di questo comando ( ovviamente in un file di sintassi):
FREQUENCIES
VARIABLES= anno naz scuola classe prov d1 d2 d3
/ORDER= ANALYSIS .
NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo al file di
sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese)
13Analisi delle frequenze/Output
I casi validi: La tabella riporta: 1) il numero di casi validi per
la variabile di interesse in qs. caso il genere, 2) il numero di
casi mancanti, cioè i casi per i quali questa informazione non
è disponibile, 3) le statistiche descrittive richieste ( in qs.
caso la moda)
La gamma di valori:
La tabella riporta la distribuzione del
campione per sesso ( n, %):
9 maschi, 20 femmine ed 1 caso
codificato come 22
Si tratta di un errore di input che va
corretto nella matrice dati prima di
procedere con l’analisi dei dati,
Correggere l’errore
Trovare il caso nella matrice dati che sulla variabile sex assume valore 22
Controllare sul questionario originale corrispondente al caso quale è la risposta
corretta ( 1 maschio, 2 femmina, 0 non indica)
Modificare il valore nella matrice dati ( manualmente o attraverso sintassi,
preferibile perché resta traccia dell’operazione fatta)
Se non è possibile controllare il questionario:
si può provare, sulla base di altre informazioni e variabili disponibili di desumere il
valore esatto ( ad es. alcune scuole in Italia sono frequentate quasi
esclusivamente da donne, se il ns. caso frequenta una scuola di questo tipo è
altamente probabile che il codice inputato come 22 in realtà fosse 2)
si può attribuire al caso valore 0 ( nella nostra matrice dati corrisponde a “non
indica”) sulla variabile sex o, nel caso di variabili cardinali o quasi cardinali si
attribuisce il valore medio riscontrato nel campione
14INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
simona.guglielmi@unimi.it
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
15Esercitazione 2
Giovedì 22 maggio, 14.30 -16. 30 (Aula 2)
Argomenti:
Analisi monovariata (variabili nominali, ordinali, cardinali)
Statistiche descrittive di base
Rappresentazioni grafiche
Analisi bivariata (Cenni)
Base dati per esercitazione :
Scelte postdiploma Lomb2005.sav
Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale
di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia
Testi di riferimento:
P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino,
Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca
sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
16Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande 113 variabili
Le finestre di SPSS
Data Editor (Data view,Variable View): contiene la matrice-
dati e le informazioni sulle variabili; il file ha come
estensione “Nomefile.sav”
Output Viewer: mostra i risultati delle elaborazioni
statistiche (tabelle, grafici,..); il file ha come estensione
Nomefile.spo
Syntax File: per salvare i comandi lanciati tramite le
finestre di dialogo in linguaggio SPSS e per scriverne di
nuovi; il file ha come estensione Nomefile.sps
17La barra Menù
File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come
WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out )
Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare
tabelle dell’output)
View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili,
visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri
Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili
presenti nella matrice dati
Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili
Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le
principali analisi statistiche e alcune rappresentazioni grafiche
Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche
Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili
Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte
Help/?: guida in linea, contiene anche esercitazioni
Analisi monovariata
L’analisi delle frequenze ( in SPSS: Analyze Descriptive Statistics
Frequencies) consente di:
1) Verificare che i valori presenti nella matrice dati rientrino nella gamma prevista
( e registrata nel code-book) Cfr. Lezione 1
2) Identificare eventuali casi mancanti sulle singole variabili (Cfr. Lezione 1)
3) Verificare la distribuzione delle risposte di una specifica variabile nel campione
4) Identificare eventuali modalità della variabile sulle quali si collocano pochi casi
SPSS consente di :
- Costruire una tabella relativa alla distribuzione di frequenza della variabile di
interesse ( valori assoluti, valori %)
- Ottenere una adeguata rappresentazione grafica della distribuzione di
frequenza della variabile
- Calcolare gli indici sintetici di ciascuna distribuzione ( misure di tendenza
centrale, misure di variazione e dispersione, indice di concentrazione o
distribuzione)
18Analisi delle frequenze/ Menù
reset: per annullare
tutti i comandi
impostati e farne di
nuovi
Statistics: per avere informazioni
sulle statistiche descrittive delle Charts: per realizzare
variabili (indici sintetici) rappresentazioni grafiche
Analisi delle frequenze/Syntax
Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di
interesse all’interno di questo comando in un file di sintassi:
FREQUENCIES
VARIABLES= anno naz scuola classe prov d1 d2 d3
/ORDER= ANALYSIS .
NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo ad un file di
sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) prima
di dare l’OK.
19Analisi monovariata/variabili
nominali/promemoria
Con una variabile nominale ( ad. es. il genere ) sono
possibili le seguenti operazioni:
- creare una tabella con la distribuzione di frequenza
(n, %) di ciascuna modalità di cui la variabile è
composta (quanti sono i maschi e le femmine in valore
assoluto ed in percentuale nel campione?)
- calcolare un indice sintetico della distribuzione ( solo e
soltanto la moda, cioè la modalità che raccoglie il
maggior numero di casi)
- produrre una adeguata rappresentazione grafica
(grafico a torta o grafico a barre)
Analisi monovariata/Variabili nominali/Menù
1) Selezionare la variabile nominale di interesse
2) Cliccare su Statistiche (Statistics) e selezionare le
statistiche di interesse
3) Cliccare su Grafici (Charts) e selezionare il grafico
adeguato ( a torta/ piecharts, a barre/bar chart)
4) Cliccare su Formato; in genere vanno bene le opzioni
di default, ma dipende dalle esigenze di ricerca
20Analisi monovariata/Variabili
nominali/Sintassi
Di seguito si riportano i comandi di sintassi SPSS per
1) produrre la tabella con la distribuzione di frequenza per la variabile ( o le
variabili) di interesse ( nel nostro esempio la variabile d1)
2) calcolare anche alcune statistiche ( nel ns. esempio la moda), o una
rappresentazione grafica (nel ns. esempio PIECHART/grafico a torta)
della distribuzione della variabile di interesse
FREQUENCIES
VARIABLES=d1
/STATISTICS=MODE
/PIECHART PERCENT
/ORDER= ANALYSIS .
NB: ricorda che cliccando sul tasto INCOLLA (PASTE per la versione
inglese) è possibile importare nel file di sintassi i comandi definiti tramite
menù.
Analisi monovariata/Variabili nominali/OUTPUT
N.B= cliccando sulla tabella o sul grafico
si apre una maschera che consente di modificare
l’editing
21Analisi monovariata/Variabili nominali/OUTPUT
Nome/Etichetta della
variabile La tabella “Statistiche” riporta:
1) il numero di casi validi (quelli che hanno risposto alla domanda)
Statistiche
2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
Idea su cosa fare dopo sms? informazione su questa variabile)
N Validi 1115
3) Il codice numerico corrispondente alla moda della distribuzione della
Mancanti 0 variabile (3, corrispondente a “Mi iscriverò ad un corso di laurea”)
Moda 3
Nome/Etichetta della
variabile Idea su cosa fare dopo sms? Informazioni presenti in Tabella:
Percentuale Percentuale 1) Frequenza: il numero di casi che si colloca
Frequenza Percentuale valida cumulata su ciascuna delle modalità della variabile di
Validi Non indica 20 1,8 1,8 1,8 interesse
Cercherò lavoro 266 23,9 23,9 25,7
Laurea + lavoro 265 23,8 23,8 49,4 2) Percentuale: la frequenza % di ciascuna
Laurea 328 29,4 29,4 78,8
modalità della variabile
Corso fp post sms 27 2,4 2,4 81,3 3) Percentuale valida: la frequenza % di
Non so 209 18,7 18,7 100,0 ciascuna modalità della variabile calcolata
Totale 1115 100,0 100,0 solo su casi indicati come validi dal
ricercatore/trice ( nel ns. esempio tutti sono
Modalità della variabile ritenuti validi)
Distribuzione di
frequenza (n, %) 4) Percentuale cumulata : utile solo per
variabili ordinali/cardinali ( vedi slides
realtive)
Analisi monovariata/Variabili
nominali/Grafici
A torta: l’area di ogni sezione rappresenta la % o il A barre/ortogramma: l’altezza delle barre è
numero di risposte corrispondenti a ciascun valore della proporzionale alla frequenza di valori della variabile;
variabile ( nel ns. esempio %); il grafico è in genere poco l’ordine dei valori per varibili nominali è arbitrario in
leggibile se le modalità sono più di 7! base alle esigenze di ricerca, anche se in genere si
tende a collocarle in ordine crescente/decrescente di
frequenza
N.B= cliccando sul grafico si apre una maschera che consente di
modificarne l’editing
Statistiche
Idea su cosa fare dopo sms?
N Validi 1115
Mancanti 0
22Analisi monovariata/variabili
ordinali/promemoria
Con una variabile ordinale ( ad. es.il titolo di studio) sono
possibili le seguenti operazioni:
- creare una tabella con la distribuzione di frequenza
(n, %) di ciascuna modalità di cui la variabile è
composta (quanti sono i laureati/diplomati/con licenza
elementare/etc in valore assoluto ed in percentuale nel
campione?)
- calcolare indici sintetici della distribuzione (di tendenza
centrale: moda, mediana)
- produrre una adeguata rappresentazione grafica
(ortogramma)
Analisi monovariata/Variabili ordinali/Menù
1) Selezionare la variabile ordinale di interesse
2) Cliccare su Statistiche (Statistics) e selezionare
le statistiche di interesse ( media, mediana)
3) Cliccare su Grafici (Charts) e selezionare il
grafico adeguato ( a barre)
4) Cliccare su Formato; con una variabile ordinale
fondamentale selezionare valori crescenti o
decrescenti (default) e non i conteggi!
23Analisi monovariata/Variabili
ordinali/Sintassi
Di seguito si riportano i comandi di sintassi SPSS per
1) produrre la tabella con la distribuzione di frequenza per la variabile ordinale ( o le
variabili) di interesse ( nel nostro esempio la variabile d6)
2) calcolare anche alcune statistiche (media, mediana), o una rappresentazione
grafica (bar charts, grafico a barre) della distribuzione della variabile di interesse
FREQUENCIES
VARIABLES=d6
/STATISTICS=MEDIAN MODE
/BARCHART PERCENT
/ORDER= ANALYSIS .
NB:
I comandi sono identici a quelli usati per le variabili nominali, ma cambiano le
statistiche e il tipo di grafico che è statisticamente sensato richiedere.
Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è
possibile importare nel file di sintassi i comandi definiti tramite menù.
Analisi monovariata/Variabili ordinali/OUTPUT
24Analisi monovariata/Variabili ordinali/OUTPUT
La tabella “Statistiche” riporta:
Statistiche 1) il numero di casi validi (quelli che hanno risposto alla domanda)
Quando hai deciso di continuare gli studi? 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
N Validi 740 informazione su questa variabile). Nel ns. esempio si tratta di casi che
Mancanti 375 NON dovevano rispondere, perché filtrati alla domanda precedente
Mediana 2,00 (definiti da SPSS mancanti di sistema)
Moda 1
3) Il codice numerico corrispondente alla mediana (2= nel biennio della
scuola media superiore) e alla moda (1 = prima di iniziare la scuola
media superiore) della distribuzione della variabile
Nome/Etichetta della
variabile Informazioni presenti in Tabella:
Quando hai deciso di continuare gli studi?
1) Frequenza: il numero di casi che si colloca su
Percentuale Percentuale
Frequenza Percentuale valida cumulata ciascuna delle modalità della variabile di
Validi Prima di iniziare la sms 342 30,7 46,2 46,2 interesse
Nel biennio delle sms 69 6,2 9,3 55,5
Durante il 3° anno
2) Percentuale: la frequenza % di ciascuna
91 8,2 12,3 67,8
Durante il 4° anno
modalità della variabile
134 12,0 18,1 85,9
Durante il 5° anno 104 9,3 14,1 100,0 3) Percentuale valida: la frequenza % di ciascuna
Totale 740 66,4 100,0 modalità della variabile calcolata solo su casi
Mancanti Non indica 12 1,1 indicati come validi dal ricercatore/trice ( nel ns.
Mancante di sistema 363 32,6 esempio non sono validi i “non indica” e i
Totale 375 33,6
Totale 1115 100,0 “mancanti di sistema”)
Modalità della variabile 4) Percentuale cumulata : indica la quota % di
Distribuzione di casi che si collocano entro determinata
frequenza (n, %) posizione della scala ordinale.
Analisi monovariata/Variabili
ordinali/Grafici
A barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della
variabile; i valori vanno collocati seguendo l’ordine della scala ordinale. Nel ns.
esempio è una scala ordinale temporale che va da prima dell’iscrizione ad una scuola
media superiore al quinto anno della scuola media superiore
25Analisi monovariata/variabili
cardinali/promemoria
Con una variabile cardinale ( ad. es. numero di esami
sostenuti; valutazioni in una scala 1-10) sono possibili
le seguenti operazioni:
- creare una tabella con la distribuzione di frequenza
(n, %) di ciascuna modalità di cui la variabile è
composta (quanti sono i laureati/diplomati/con licenza
elementare/etc in valore assoluto ed in percentuale nel
campione?)
- calcolare indici sintetici della distribuzione (di tendenza
centrale: moda, mediana, media; indici di
dispersione: varianza, deviazione standard)
- produrre una adeguata rappresentazione grafica
(istogramma)
Analisi monovariata/variabili cardinali/Menù
1) Selezionare la variabile cardinale di interesse
2) Cliccare su Statistiche (Statistics) e selezionare le
statistiche di interesse (media, mediana, moda,
deviazione std, valore min-max). Verificare che i casi
validi siano solo quelli previsti dalla scala di
misura; ad es. escludere dall’analisi i “non indica”
o i “non so” codificati con codici numerici (0, 99,
etc…) altrimenti SPSS li userà per calcolare la
media!
3) Cliccare su Grafici (Charts) e selezionare il grafico
adeguato (istogramma)
4) Cliccare su Formato; con una variabile cardinale è
importante selezionare valori crescenti o decrescenti
(default) e non i conteggi!
26Analisi monovariata/
variabili cardinali/Sintassi
Di seguito si riportano i comandi di sintassi SPSS per
1) produrre la tabella con la distribuzione di frequenza per la variabile cardinale ( o le
variabili) di interesse ( nel nostro esempio la variabile d9a)
2) calcolare anche alcune statistiche (media, mediana, moda, deviazione standard,
valori minimo e massimo, intervallo), o una rappresentazione grafica (istogramma)
della distribuzione della variabile di interesse
FREQUENCIES
VARIABLES=d9a
/STATISTICS=STDDEV RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE
/HISTOGRAM NORMAL
/ORDER= ANALYSIS .
NB: I comandi sono identici a quelli usati per le variabili nominali e ordinali , ma cambiano le statistiche
e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA
(PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù.
La variabile d9a corrisponde alla seguente domanda del questionario:
9) Indipendentemente dal voto dato dagli insegnanti e dalla scuola che si frequenta alcune persone si
sentono più portate per la matematica, altre per la storia, altre ancora per il disegno. E tu, in una scala
da 1 a 10, quanto ti senti portato per le materie elencate ? Posizionati sulla scala considerando che 1
indica che non ti senti per nulla portato per quella materia e 10 che ti senti portato moltissimo
Materie matematiche (matematica, statistica…) 1 2 3 4 5 6 7 8 9 10
Analisi monovariata/variabili
cardinali/Output
27Analisi monovariata/variabili cardinali/Output
Analisi monovariata/variabili cardinali/Output
La tabella “Statistiche” riporta:
Statistiche
Predisposizione materie: matematiche
1) il numero di casi validi (quelli che hanno risposto alla domanda)
N Validi 1114 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
Mancanti 1 informazione su questa variabile).
Media 5,63
Mediana 6,00 3) Il codice numerico corrispondente alla media (5,63) alla mediana (6)
Moda 6 e alla moda (6) della distribuzione della variabile
Deviazione std. 2,372
4) La deviazione standard (scarto quadratico medio): preferibile alla
Intervallo 9
Minimo
varianza nelle analisi monovariate perché è dello stesso ordine di
1
Massimo 10
grandezza della variabile e media.
5) Valore massimo e minimo assumibile dalla variabile ( 1-10) e relativo
Nome/Etichetta della
intervallo (9)
variabile
Predisposizione materie: matematiche Informazioni presenti in Tabella:
Percentuale Percentuale
Frequenza Percentuale valida cumulata
1) Frequenza: il numero di casi che si colloca su
Validi Per nulla portato 84 7,5 7,5 7,5 ciascun valore della variabile di interesse
2 59 5,3 5,3 12,8
2) Percentuale: la frequenza % di ciascun valore
3 90 8,1 8,1 20,9
4
della variabile
96 8,6 8,6 29,5
5 151 13,5 13,6 43,1 3) Percentuale valida: la frequenza % di ciascun
6 187 16,8 16,8 59,9 valore della variabile calcolata solo su casi
7 175 15,7 15,7 75,6 indicati come validi dal ricercatore/trice
8 174 15,6 15,6 91,2
Percentuale cumulata : indica la quota % di
9 59 5,3 5,3 96,5
casi collocati ad una determinata posizione
Moltissimo portato 39 3,5 3,5 100,0
Totale 1114 99,9 100,0
della scala cardinale.
Mancanti Non indica 1 ,1
Totale 1115 100,0
Modalità della variabile
Distribuzione di
frequenza (n, %)
28Analisi monovariata/variabili cardinali/Grafici
Gli istogrammi richiesti Se la variabile è una variabile
Statistiche
tramite la finestra cardinale raggruppata in classi
Frequencies forniscono Predisposizione materie: matematiche
N Validi 1114 possiamo rappresentarla
solo le frequenze
assolute e non le % Mancanti 1 graficamente con un istogramma,
Media 5,63 collocando su un asse la variabile,
sull’altro la frequenza e innalzando
dei rettangoli di area proporzionale
alle frequenze.
NB:
Un tipo particolare di istogramma è
dato dalla piramide della popolazione;
dall’Istogramma è possibile derivare il
poligono di frequenza.
Per queste rappresentazioni grafiche
occorre far riferimento al comando
Grafici sulla Barra Menù di SPSS (
vedi SLIDE SUCCESSIVE)
Come generare Grafici con SPSS/1
Oltre alle (poche!) rappresentazioni grafiche previste all’interno della finestra Frequencies/Charts ,
Spss consente di creare numerosi tipi di grafici. Dal comando GRAFICI sulla barra di Menù è
possibile scegliere tra Generatore Grafici, Interattivi, Finestre Legacy: ognuno di quesi
sottomenù prevede vari tipi di grafici. Per rapporti di ricerca, pubblicazioni, etc…è comunque
preferibile usare Excel, che produce grafici esteticamente migliori e più facili da gestire.
29Come generare Grafici con SPSS/2
2) Trascinare la variabile di
interesse sull’asse delle x
Istogramma prevede:
- Istogrammi semplici e
raggruppati
- Poligono di frequenza
- piramide della
1) Selezionare il tipo di popolazione
grafico di interesse
Generatore di Grafici/Esempi
ISTOGRAMMA (classi %)
PIRAMIDE DELLA
POPOLAZIONE
30Missing values: come eliminare dall’analisi i
casi?
Colonna del foglio
variabili da utilizzare per
definire i valori mancanti
(missing) oltre a quelli di
sistema definiti in fase di
input
Cliccare sulla cella
corrispondente alla
variabile di interesse ( nel
ns.esempio d9a) ed
inserire i valori da definire
come mancanti. Nel ns.
caso 0, che corrisponde a
“Non indica”
I casi validi: su quale base calcolare le
frequenze?
1) Effettuare una distribuzione di frequenza della variabile di interesse prevedendo tutti i
valori che essa può assumere (compresi quelli corrispondenti a non so e non indica);
2) Per le variabili cardinali, quando si chiedono le statistiche descrittive (media, mediana,
deviazione standard, etc…) ricordarsi sempre di tarsformare in missing i valori che escono
dalla scala di misura (in genere i codici numerici associati a “non so” e o “non indica”)
3) La scelta di eliminare o meno i non so dall’analisi dipende dalle esigenze di ricerca, dal tipo di
fenomeno che si sta studiando, dall’impostazione metodologica del ricercatore
4) Come trattare i Non so? Si tratta di una informazione importante che il ricercatore deve
sempre tenere presente per valutare l’affidabilità dei dati su cui lavora. Nel caso in cui si
decida di eliminare i “non so” dall’analisi (in genere quando si tratta di pochi casi, inferiori al
3% del campione) è importante segnalare l’operazione fatta ( nel testo, o in tabella o in una
nota metodologica);
5) Come trattare i Non indica (mancate risposte)? In primo luogo occorre controllare che non
vi siano errori di input ed eventualmente correggerli nella matrice dati. In genere, a meno che
non si tratti di una quota rilevante del campione, si è soliti eliminare dall’analisi i “non indica”.
Si tenga presente che se la variabile non prevede la modalità di risposta “non so”è probabile
che alcuni intervistati “indecisi” abbiano preferito non rispondere alla domanda ( e quindi sono
stati codificati con “non indica”). Anche in questo caso se si decide di trasformare in missing
values i “non indica” occorre sempre segnalare l’operazione fatta in fase di presentazione dei
dati.
31Missing values: un esempio
Tab. 1 Idea su cosa fare dopo sms? Come si può notare le percentuali valide
riportate nella prima tabella (distribuzione di
Percentuale Percentuale
Frequenza Percentuale valida cumulata
frequenza di tutti i valori della variabile)
Validi Non indica 20 1,8 1,8 1,8 differiscono notevolmente dalla seconda che
Cercherò lavoro 266 23,9 23,9 25,7 esclude Non indica e Non so).
Laurea + lavoro 265 23,8 23,8 49,4
Sulla base dei dati presentati in Tab. 1 possiamo
Laurea 328 29,4 29,4 78,8
Corso fp post sms
dire che su 100 studenti lombardi : circa 20 non
27 2,4 2,4 81,3
Non so 209 18,7 18,7 100,0
sanno cosa fare dopo il diploma (18,7%), 30
Totale 1115 100,0 100,0
pensano di iscriversi all’università (29,4%), 24
vogliono conciliare lavoro e università, 24
cercheranno subito un lavoro. Una quota ridotta
( 2 ,4%) sceglie un corso Formazione
Tab. 2 Idea su cosa fare dopo sms? Professionale o non fornisce risposta (1,8%).
Percentuale Percentuale Se usiamo i dati presentati in Tab.2 e
Frequenza Percentuale valida cumulata
Validi Cercherò lavoro 266 23,9 30,0 30,0
consideriamo la sola percentuale valida, le
Laurea + lavoro 265 23,8 29,9 59,9 quote variano di molto: circa 37 studenti su 100
Laurea 328 29,4 37,0 97,0 pensano di iscriversi all’università, 30 vogliono
Corso fp post sms 27 2,4 3,0 100,0 conciliare lavoro e università, 30 cercheranno
Totale 886 79,5 100,0 subito un lavoro. Una quota ridotta ( 3%)
Mancanti Non indica 20 1,8 sceglierà un corso Formazione Professionale
Non so 209 18,7
Totale 229 20,5
Totale 1115 100,0
Missing values: la matematica è
un’opinione?
Chi è in possesso dei dati presentati in Tab. 1 potrà legittimamente affermare:
“Dai dati emerge una grande difficoltà da parte degli studenti lombardi nel
scegliere il proprio futuro. Ben un quinto di essi non è in grado di formulare
ipotesi sulle scelte che farà dopo il diploma e la quota rimanente si suddivide
quasi equamente tra chi si iscriverà ad un corso di laurea, chi cercherà un lavoro
e chi intende conciliare entrambi i percorsi. L’investimento assoluto in un
percorso qualificante quale quello universitario raccoglie l’interesse di poco meno
di 30 studenti su 100”
Chi è in possesso dei dati presentati in Tab. 2 ( percentuale valida) potrà
legittimamente affermare:
“I dati evidenziano una fortissima tendenza da parte degli studenti di
scuola superiore ad investire sul proprio futuro professionale con percorsi
di qualità, con l’obiettivo di conseguire un titolo di studio universitario. Infatti, ben
due terzi degli studenti intervistati pensa di iscriversi ad un corso di laurea,
eventualmente affiancando tale percorso ad un impegno lavorativo.”
32Le variabili quasi-cardinali
Molti fenomeni sociali (religiosità, razzismo, orientamento politico, atteggiamenti verso le istituzioni,
coesione sociale, orientamenti valoriali, etc…) possono essere immaginate come proprietà continue
che variano in maniera graduale far gli individui. Ma quale unità di misura usare per passare da un
concetto di questo tipo ad una variabile cardinale (opertivizzazione)? La “tecnica delle scale”
rappresenta un tentativo di superare tale limite. Le variabili prodotte con queste tecniche (variabili
quasi-cardinali, Marradi 1993) possono plausibilmente essere trattata con gli strumenti statistici propri
delle variabili cardinali, ma è sempre opportuno tenere presente la loro particolare natura.
La scala maggiormente utilizzata nelle scienze sociali è la scala Likert. Il formato delle singole
domande delle scale Likert è rappresentato da una serie di affermazioni per ognuna delle quali
l’intervistato deve dire se e in che misura è d’accordo. La scala può essere a 7 alternative (molto
d’accordo, d’accordo, parzialmente d’accordo, incerto,parzialmente in disaccordo, in dissaccordo,
molto in disaccordo), a 5 (molto d’accordo, d’accordo, incerto, in disaccordo, molto in disaccordo) o a
4 (molto, abbastanza, poco, per nulla d’accordo). Ad ogni modalità di risposta è associato un valore
numerico ( da 1 a 7, o da 1 a 5, o da 1 a 4) con proprietà cardinali.
Esempi di scala nel questionario usato per le esercitazioni (Scelte postdiploma Lomb 2005.doc):
- Dom 13) Parliamo adesso di un lavoro in particolare, quello di chi fa ricerca scientifica, cioè delle persone che fanno
nuove scoperte sul “funzionamento” di vari aspetti del mondo (ad esempio i pianeti, l’atmosfera, il corpo umano…). Le
opinioni della gente sulla ricerca scientifica non sono tutte uguali. Tu come la pensi? Di seguito ti elenchiamo una
serie di affermazioni: per ognuno di esse ti chiediamo di dirci se sei d’accordo e in che misura.
- Dom. 10) Le opinioni degli studenti rispetto alla matematica possono essere molto diverse: tu come la pensi? Ti
elenchiamo una serie di affermazioni: per ognuna di esse ti chiediamo di dirci se sei d’accordo e in che misura
Atteggiamento verso la ricerca scientifica:
analisi monovariata
Affermazioni ricerca scientifica: comporta rischi difficili da controllare
Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi Non indica 3 ,3 ,3 ,3
Per nulla d'accordo 57 5,1 5,1 5,4
Poco d'accordo 320 28,7 28,7 34,1
Abbastanza d'accordo 491 44,0 44,0 78,1
Molto d'accordo 175 15,7 15,7 93,8
Non so 69 6,2 6,2 100,0 Posso chiedere l’analisi
Totale 1115 100,0 100,0
Affermazioni ricerca scientifica: difficile da comprendere
delle frequenze per
ciascuna variabile
Percentuale Percentuale
Frequenza Percentuale valida cumulata derivata dalla batteria di
Validi Non indica 1 ,1 ,1 ,1
Per nulla d'accordo 112 10,0 10,0 10,1
domande, ma la lettura e
Poco d'accordo 385 34,5 34,5 44,7 il confronto tra variabili
Abbastanza d'accordo 458 41,1 41,1 85,7
Molto d'accordo 122 10,9 10,9 96,7
risulta poco agevole
Non so 37 3,3 3,3 100,0
Totale 1115 100,0 100,0
Affermazioni ricerca scientifica: chi la fa è pagato troppo poco
Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi Non indica 5 ,4 ,4 ,4
Per nulla d'accordo 84 7,5 7,5 8,0
Poco d'accordo 177 15,9 15,9 23,9
Abbastanza d'accordo 290 26,0 26,0 49,9
Molto d'accordo 222 19,9 19,9 69,8
Non so 337 30,2 30,2 100,0
Totale 1115 100,0 100,0
33Atteggiamento verso la ricerca scientifica:
tabelle di frequenza
Tabelle di frequenza/Menu
34Tabelle di Frequenza/output
Questo formato agevola il confronto tra variabili ( che rappresentano nel
ns. esempio un particolare aspetto associato alla ricerca scientifica)
Affermazioni ricerca
Affermazioni ricerca scientifica: comporta Affermazioni ricerca Affermazioni ricerca
scientifica: indispensabile rischi difficili da scientifica: difficile da scientifica: chi la fa è
x qualità della vita controllare comprendere pagato troppo poco
Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale
Non indica 2 ,2 3 ,3 1 ,1 5 ,4
Per nulla d'accordo 9 ,8 57 5,1 112 10,0 84 7,5
Poco d'accordo 51 4,6 320 28,7 385 34,5 177 15,9
Abbastanza d'accordo 394 35,3 491 44,0 458 41,1 290 26,0
Molto d'accordo 652 58,5 175 15,7 122 10,9 222 19,9
Non so 7 ,6 69 6,2 37 3,3 337 30,2
Totale 1115 100,0 1115 100,0 1115 100,0 1115 100,0
INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
simona.guglielmi@unimi.it
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
35Esercitazione 3
Argomenti
Trasformazione delle variabili attraverso i comandi:
Ricodifica (RECODE)
Calcola (COMPUTE)
Conteggia (COUNT)
Manipolazione dei casi attraverso i comandi:
Seleziona (SELECT cases)
Distingui (SPLIT FILE)
Base dati per esercitazione :
Scelte postdiploma Lomb2005.sav
Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale
di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia
Testi di riferimento:
P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino,
Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca
sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
36Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande 113 variabili
Costruire nuove variabili
Spss consente di creare una nuova variabile
tramite:
Trasformazione di una variabile presente nel
data set (es. aggregazione dei valori in classi,
comando RECODE)
Conteggio di un valore presente in una lista di
variabili ( comando COUNT)
Combinazione di più variabili (operazioni
aritmetiche e/o logiche tra le variabili,
comando COMPUTE)
37L’istruzione RECODE (ricodifica)
Consente di assegnare alle variabili valori
differenti rispetto a quelli di partenza:
Codificare un valore come missing
Accorpare in classi i valori della variabile
Invertire i valori della variabile in coerenza con
la scala usata (ad.es in Scala Likert, 1= per
nulla; 4=molto) ed in generale modificare i
valori associati alle modalità di risposta
Un esempio: accorpamento dei
valori in classi
Tipo sms frequentata
Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi Non indica 1 ,1 ,1 ,1
L. classico 88 7,9 7,9 8,0
L. scientifico 233 20,9 20,9 28,9
L. artistico 42 3,8 3,8 32,6
L.
44 3,9 3,9 36,6
socio-psico-pedagogico
Ist. prof. industriale e
73 6,5 6,5 43,1
artigianato
Ist. prof. per i servizi
94 8,4 8,4 51,6
commerciali e turistici
Altri Ist. Prof. e Istituto
40 3,6 3,6 55,2
d'arte
Ist. Tecnico commerciale
276 24,8 24,8 79,9
e per geometri
Ist. Tecnico industriale 179 16,1 16,1 96,0
Altri ist. Tecnici 45 4,0 4,0 100,0
Totale 1115 100,0 100,0
Come ricodificare la variabile “scuola” passando da 10 modalità a 3?
1 = liceo
2 = ist. professionale
3 = ist. Tecnico
38Ricodifica in variabili differenti
Utilizzeremo l’istruzione RECODE ( in variabili
differenti) per creare una nuova variabile “scuola_rec”
a tre modalità
TRANSFORM RECODE INTO DIFFERENT
VARIABLES
Posso ricodificare la variabile “scuola” passando da 10
modalità a 3:
1 = liceo ( comprende i “vecchi” valori 1,2,3,4)
2 = ist. professionale ( comprende i “vecchi” valori 5,6,7)
3 = ist. Tecnico (comprende i “vecchi” valori 8,9,10)
I “non indica” sono codificati come “missing values”
Ricodifica in variabili differenti/Menu
39Ricodifica: creare una nuova
variabile
1. Selezionare la variabile da modificare e spostarla nel box centrale
2. Indicare nome ed etichetta della variabile che si vuole creare e
cliccare su Cambia per confermare
3. Cliccare su Valori vecchi e nuovi per dare le istruzioni di ricodifica
4. Cliccare su SE,qualora si voglia applicare la ricodifica solo ai csi che
soddisfano una determinata condizione ( ad es. sesso=1)
Ricodifica: assegnare nuovi valori
1. Indicare nell’appropriato box a sinistra il valore/i valori da ricodificare
(vecchio valore), che possono essere singoli o intervalli di valori ( nel ns.
esempio 0, intervallo da 1 a 4, da 5 a7, da 8 a 10)
1. Ib
2. Per ciascun vecchio valore o intervallo di valori indicare ( a destra) la
ricodifica scelta: un valore nuovo, mancante di sistema, un valore uguale
a quello vecchio. Cliccare su aggiungi per confermare
3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi
slide precedente)
40Ricodifica: la sintassi
I comandi di sintassi consentono di creare la nuova variabile,
assegnare i valori e le etichette ( tramite Menu le etichette dei valori
non possono essere assegnate!). Negli esempi seguenti vengono
create due variabili differenti ( scuola_2, scuola_3, a partire dalla
variabile iniziale “scuola”)
RECODE
scuola
(0=SYSMIS) (1 thru 4=1) (5 thru 7=2) (8 thru 10=3) INTO scuola_3 .
VARIABLE LABELS scuola_3 "Tipo scuola in 3 classi".
EXECUTE .
VAL LAB scuola_3
1 "Liceo"
2 "Istituto Professionale"
3 "Istituto Tecnico" .
RECODE
scuola
(0=SYSMIS) (1 thru 4=1) (5 thru 10=2) INTO scuola_2 .
VARIABLE LABELS scuola_2 "Tipo scuola in 2 classi".
EXECUTE .
VAL LAB scuola_2
1 "Liceo"
2 "Istituto Professionale o Tecnico "
Distribuzione di frequenza delle
nuove variabili (ricodificate)
Tipo scuola in 2 classi
Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi Liceo 407 36,5 36,5 36,5
Istituto Professionale
707 63,4 63,5 100,0
o Tecnico
Totale 1114 99,9 100,0
Mancanti Mancante di sistema 1 ,1
Totale 1115 100,0
Tipo scuola in 3 classi
Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi Liceo 407 36,5 36,5 36,5
Istituto Professionale 207 18,6 18,6 55,1
Istituto Tecnico 500 44,8 44,9 100,0
Totale 1114 99,9 100,0
Mancanti Mancante di sistema 1 ,1
Totale 1115 100,0
41Ricodificare una batteria di
domande
La batteria seguente produce 10 differenti variabili con uguale scala
di risposta ( da 1 a 4, 1=lo escludo, 4= molto probabile)
7) In quale dei seguenti gruppi disciplinari pensi di scegliere la Facoltà o il corso di formazione
professionale post-diploma al quale iscriverti?
(1 risposta per ogni riga) Lo escludo Poco Abbastanza Molto
probabile probabile probabile
• Gruppo scientifico (matematica, chimica, biologia…)....................... ................ ................
• Gruppo medico (medicina, veterinaria ecc.)....................................... ................ ................
• Gruppo ingegneria .............................................................................. ................ ................
• Gruppo economico (economia e commercio, ecc.)............................. ................ ................
• Gruppo politico-sociale (scienze politiche, sociologia…).................. ................ ................
• Gruppo psicologico ............................................................................ ................ ................
• Gruppo giuridico................................................................................. ................ ................
• Gruppo umanistico (lettere, storia, filosofia ecc.)............................... ................ ................
• Gruppo architettura............................................................................. ................ ................
• Gruppo agrario.................................................................................... ................ ................
Ricodificare le domande di una
batteria/1
Gruppo disciplinare a cui iscriverti: scientifico
Percentuale Percentuale
Frequenza Percentuale valida cumulata Per semplificare iniziamo
Validi Non indica 19 1,7 2,5 2,5 ricodificando la prima variabile
Lo escludo 355 31,8 47,2 49,7
Poco probabile 183 16,4 24,3 74,1
(d7a) della batteria, creandone
Abbastanza probabile 128 11,5 17,0 91,1 una nuova con 2 modalità.
Molto probabile 67 6,0 8,9 100,0
Totale 752 67,4 100,0
Mancanti Mancante di sistema 363 32,6
RECODE d7a
Totale 1115 100,0
(0=SYSMIS) (1 thru 2=0) (3 thru 4=1)
INTO d7a2 .
Iscrizione Gruppo scientifico? VAR LAB d7a2 "Iscrizione Gruppo
scientifico?".
PercentualePercentuale
Frequenza Percentuale valida cumulata VAL LAB var d7a2
Validi non probabile 538 48,3 73,4 73,4 0 "non probabile"
probabile 195 17,5 26,6 100,0 1 "probabile".
Totale 733 65,7 100,0
MancantiMancante di sistema382 34,3
Totale 1115 100,0
42Ricodificare le domande di una
batteria/2
RECODE
d7b d7c d7d d7e d7f d7g d7h d7i d7l
(0=SYSMIS) (1 thru 2=0) (3 thru 4=1)
INTO d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2.
VARIABLE LABELS d7b2 "Gruppo medico?".
VARIABLE LABELS d7c2 "Gruppo ingegneria?".
VARIABLE LABELS d7d2 "Gruppo economico?".
VARIABLE LABELS d7e2 "Gruppo politico-sociale?" .
VARIABLE LABELS d7f2 "Gruppo psicologico ?".
VARIABLE LABELS d7g2 "Gruppo giuridico?".
VARIABLE LABELS d7h2 "Gruppo umanistico ?".
VARIABLE LABELS d7i2 "Gruppo architettura?".
VARIABLE LABELS d7l2 "Gruppo agrario?" .
EXECUTE .
VAL LAB d7b2 Tramite i comandi di sintassi ripetiamo
0 "non probabile"
1 "probabile".
l’operazione di ricodifica per tutte e 10 le
(….) variabili della batteria (Cfr. File di
VAL LAB d7i2 sintassi dell’Esercitazione n.3)
0 "non probabile"
1 "probabile".
Distribuzione di frequenza delle
variabili ricodificate (batteria)
Per creare la tabella riassuntiva della distribuzione delle variabili di una
batteria tramite menu: Analizza/Tabelle/Tabelle di frequenza
non probabile probabile Totale
Iscrizione Gruppo Frequenza 538 195 733
scientifico? Percentuale 73,4% 26,6% 100,0%
Gruppo medico? Frequenza 564 166 730
Percentuale 77,3% 22,7% 100,0%
Gruppo ingegneria? Frequenza 526 206 732
Percentuale 71,9% 28,1% 100,0%
Gruppo economico? Frequenza 529 205 734
Percentuale 72,1% 27,9% 100,0%
Gruppo politico-sociale? Frequenza 547 185 732
Percentuale 74,7% 25,3% 100,0%
Gruppo psicologico ? Frequenza 534 200 734
Percentuale 72,8% 27,2% 100,0%
Gruppo giuridico? Frequenza 596 134 730
Percentuale 81,6% 18,4% 100,0%
Gruppo umanistico ? Frequenza 570 161 731
Percentuale 78,0% 22,0% 100,0%
Gruppo architettura? Frequenza 576 159 735
Percentuale 78,4% 21,6% 100,0%
Gruppo agrario? Frequenza 683 51 734
Percentuale 93,1% 6,9% 100,0%
43L’istruzione COUNT
Possiamo costruire un indice che evidenzi la
frequenza con cui un determinato valore ricorre in una
lista di variabili.
Ad esempio, riferendoci alle domande precedenti,
possiamo “contare” quante volte è stato scelto il valore
1 (che indica probabile iscrizione universitaria) sul
totale delle 10 variabili corrispondenti a diversi gruppi
universitari. L’indice potrà variare da 0 (mai indicato) a
10 (indicato per tutte le variabili). Gli intervistati
associati a valore 10, sono dunque coloro che hanno
dichiarato una probabile iscrizione a tutti i gruppi
universitari indicati
La nuova variabile, poiché derivata da un
CONTEGGIO, è una variabile cardinale
L’istruzione COUNT/Menu
44L’istruzione count/Menu
1. Dare un nome e una etichetta alla nuova variabile
2. Selezionare le variabili, all’interno delle quali SPSS dovrà
conteggiare il valore scelto
3. Cliccare su Definisci valori
4. Se il conteggio si applica solo ad alcuni casi ( ad es. solo alle
donne) cliccare su SE e definire i criteri di selezione
Selezionare i valori da conteggiare
1. Indicare il valore da conteggiare ( nel ns. esempio 1) in un
adeguato box a sinistra, cliccare su aggiungi per spostarlo nel
box a destra
2. I valori da conteggiare possono essere singoli (come nel
ns.esempio) o intervalli di valori.
3. Cliccare su continua, e poi su OK nella maschera che compare (
vedi slide precedente)
45L’istruzione COUNT/Sintassi e
Output
COUNT
Countd7 = d7a2 d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2 (1) .
VARIABLE LABELS Countd7 'Conteggio probabilità di iscrizione a n gruppi
universitari' .
EXECUTE .
Conteggio probabilità di iscrizione a n gruppi universitari
La distribuzione di frequenza della
Percentuale Percentuale
nuova variabile evidenzia che :
Frequenza Percentuale valida cumulata - Più di un terzo degli studenti non
Validi ,00 403 36,1 36,1 36,1
1,00 168 15,1 15,1 51,2
ha indicato una probabile
2,00 271 24,3 24,3 75,5 iscrizione ad alcun gruppo
3,00 180 16,1 16,1 91,7
4,00
disciplinare
63 5,7 5,7 97,3
5,00 22 2,0 2,0 99,3 - una minoranza ha indicato un
6,00 7 ,6 ,6 99,9 solo gruppo disciplinare come
8,00 1 ,1 ,1 100,0
Totale 1115 100,0 100,0
probabile (15,1%)
- circa il 40% è indeciso tra 2 o 3
gruppi disciplinari
- una quota marginale (8%) ha
indicato più di 4 gruppi disciplinari
Ricodificare una variabile creata
tramite conteggio
La variabile ottenuta può essere ricodificata in
base alle esigenze di ricerca (ad. es. successive
analisi bivariata o multivariata).
Ad esempio possiamo creare una nuova variabile
con 3 modalità:
studenti non interessati all’iscrizione
universitaria
studenti interessati ad un solo gruppo
disciplinare’
studenti indecisi tra almeno 2 gruppi disciplinari
46La nuova variabile: sintassi e
frequenza
Tipologia studenti in base al numero di gruppi disciplinari indicati
Percentuale Percentuale
Frequenza Percentuale valida cumulata
Validi non interessati ad alcun
403 36,1 36,1 36,1
gruppo disciplinare
interessati ad un solo
168 15,1 15,1 51,2
gruppo disciplinare
indecisi fra almeno 2
544 48,8 48,8 100,0
gruppi disciplinari
Totale 1115 100,0 100,0
RECODE
Countd7
(0=0) (1=1) (ELSE=2) INTO Countd7_rec .
VARIABLE LABELS Countd7_rec 'Tipologia studenti in base al numero di gruppi disciplinari
indicati'.
EXECUTE .
val lab Countd7_rec
0 ' non interessati ad alcun gruppo disciplinare'
1 'interessati ad un solo gruppo disciplinare'
2 'indecisi fra almeno 2 gruppi disciplinari' .
L’istruzione COMPUTE: operazioni
matematiche con le variabili
L’età in anni degli studenti non è disponibile nel
data set, ma può essere ricavata da una semplice
operazione (anno di rilevazione-anno di nascita)
Possiamo calcolare la predisposizione media
degli studenti rispetto a tutte le materie insegnate
a scuola
Possiamo costruire una nuova variabile
combinando ( attraverso operatori logici) tra loro
2 o più variabili ( di qualsiasi scala)
….e via di seguito. Con l’istruzione Compute si
possono effettuare tutte le operazioni
matematiche anche le più complesse (ovviamente
le variabili devono essere cardinali o quasi
cardinali!)
47Puoi anche leggere