INTRODUZIONE ALL'ANALISI - STATISTICA DEI DATI con SPSS 15.0
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi simona.guglielmi@unimi.it Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 Esercitazione 1 Presentazione di SPSS 15.0 per Windows la matrice dati le variabili la sintassi i risultati Inserimento dati importazione da altri programmi (Excel, Word,…) data entry La “pulizia” dei dati l’analisi delle frequenze dati mancanti, outlier 1
Testi di riferimento Marisa Giorgetti, Davide Massaro, Ricerca e percorsi di analisi dati con SPSS, Milano, Pearson Paravia Bruno Mondadori, 2007 AAVV, L'ABC del programma SPSS : come avviarsi alla pratica del pacchetto statistico, Milano, F. Angeli, 2004 Roberto Fideli, Come analizzare i dati al computer, Roma, Carocci, 2002. Julie Pallant, SPSS survival manual : a step by step guide to data analysis using SPSS for Windows (version 12) / 2. ed. Maidenhead Open university press, 2005. Inoltre: - Una guida in linea è disponibile all’interno del pacchetto SPSS - I materiali presentati durante le esercitazioni saranno disponibili sul sito del Prof. Ferruccio Biolcati Rinaldi, nella sezione del corso. Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 2
Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili Dalle risposte degli intervistati ai dati Dom2) Qual è il motivo principale per cui non hai ancora deciso cosa fare dopo aver conseguito il diploma? (1 sola risposta) (1) Aspetto di avere maggiori informazioni soprattutto sui corsi di laurea Aspetto di avere maggiori informazioni soprattutto sui corsi di formazione professionale post-diploma Aspetto di avere maggiori informazioni soprattutto sulle possibilità di lavoro Voglio attendere il risultato della maturità Regole base per la codifica: •I casi devono essere contraddistinti da un numero d’ordine corrispondente al questionario del singolo intervistato •Le variabili devono essere rappresentate in formato numerico ( un codice numerico per ciascuna categoria di risposta) •I codici numerici devono essere mutualmente esclusivi •I codici numerici devono essere coerenti tra domande ( usare lo stesso numero per modalità di risposta uguali, ad es. 1 per sì e 2 per no) •E’ preferibile che i codici numerici siano omogenei rispetto alla modalità di risposta ( ad es. per variabili ordinali 1 per indicare il valore inferiore) 3
Le finestre di SPSS Data Editor (Data view,Variable View): contiene la matrice-dati e le informazioni sulle variabili; il file ha come estensione “Nomefile.sav” Output Viewer: mostra i risultati delle elaborazioni statistiche (tabelle, grafici,..); il file ha come estensione Nomefile.spo Syntax File: per salvare i comandi lanciati tramite le finestre di dialogo in linguaggio SPSS e per scriverne di nuovi; il file ha come estensione Nomefile.sps La matrice casi x variabili in Excel variabili c a s i Codici numerici 4
Importazione di un file dati in SPSS da Excel/3 La matrice dei dati in SPSS (Data Editor) Barra Menù 6
La barra Menù File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out ) Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare tabelle dell’output) View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili, visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili presenti nella matrice dati Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le principali analisi statistiche Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte Help/?: guida in linea, contiene anche esercitazioni Salvare la matrice dati (xxx. sav) 7
Salvare la matrice dei dati/2 Le variabili (Variable View) •Spss consente di definire le caratteristiche delle variabili della matrice dati (tipo di variabile, scala di misura, nomi delle variabili e dei valori) •Queste operazioni sono preliminari all’analisi statistica dei dati e possono essere fatte tramite le finestre di dialogo (Variable View) che tramite la sintassi (Syntax file). Quest’ultima modalità è preferibile, soprattutto per le etichette delle variabili e dei valori! NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese). Una volta importato può essere adattato alle esigenze del ricercatore. 8
Definire il tipo di variabile (Variable View) Nome della variabile: Tipo variabile: Il nome della variabile non Consente di specificare il può contenere spazi, deve tipo di variabile, in iniziare con una lettera, non particolare se ha un formato deve essere più lungo di 64 di tipo numerico o stringa caratteri ( 8 per versioni (testo). Su una variabile SPSS precedenti alla 15), formato stringa non sono rifiuta alcuni caratteri possibili le analisi statistiche speciali Definire la scala di misura Variabili cardinali o quasi cardinali: scala ( es. età in anni, numero figli) Variabili ordinali: ordinale (es. età in classi, anno di corso,…) Variabili nominali: nominale ( es. sesso, indirizzo di studi,..) 9
Le etichette (Variable label, value label) Variable label: consente di descrivere in maniera discorsiva la variabile Value labels: consente di associare una etichetta verbale a ciascun valore che può essere assunto da ciascuna variabile Definire le variabili con un file di sintassi 10
Variable label, value label La procedura per etichettare le variabili e le rispettive modalità con il linguaggio SPSS è molto semplice. VARIABLE LABEL ( VAR LAB): assegna un’etichetta alla variabile VALUE LABEL (VAL LAB): assegna un’etichetta alle modalità della variabile Da ricordare: • i comandi iniziano con VAR LAB O VAL LAB e finiscono sempre con un punto. • le etichette sono sempre comprese tra virgolette “….”; ‘….’ •Poiché i punti e le virgolette sono un comando nel linguaggio SPSS, essi non vanno mai utilizzati nel testo che descrive le variabili o i valori •Per lanciare il comando cliccare sul tasto sulla barra degli strumenti La pulizia dei dati Prima di procedere con l’analisi statistica dei dati è necessario controllare che in fase di input non siano stati commessi errori Questa fase preliminare consente inoltre di avere una prima visione d’insieme della distribuzione delle variabili nella popolazione L’analisi delle frequenze ( in SPSS: Analyze Descriptive Statistics Frequencies ) consente di: 1) Verificare che i valori presenti rientrino nella gamma di valori previsti 2) Verificare eventuali casi mancanti 3) Verificare la distribuzione delle risposte su una specifica variabile 11
L’analisi delle frequenze/Menù L’analisi delle frequenze/Menù 12
Analisi delle frequenze/ Menu reset: per annullare tutti i comandi impostati e farne di nuovi Statistics: per avere informazioni sulle statistiche descrittive delle Charts: per realizzare variabili rappresentazioni grafiche Analisi delle frequenze/Syntax Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di interesse all’interno di questo comando ( ovviamente in un file di sintassi): FREQUENCIES VARIABLES= anno naz scuola classe prov d1 d2 d3 /ORDER= ANALYSIS . NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo al file di sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) 13
Analisi delle frequenze/Output I casi validi: La tabella riporta: 1) il numero di casi validi per la variabile di interesse in qs. caso il genere, 2) il numero di casi mancanti, cioè i casi per i quali questa informazione non è disponibile, 3) le statistiche descrittive richieste ( in qs. caso la moda) La gamma di valori: La tabella riporta la distribuzione del campione per sesso ( n, %): 9 maschi, 20 femmine ed 1 caso codificato come 22 Si tratta di un errore di input che va corretto nella matrice dati prima di procedere con l’analisi dei dati, Correggere l’errore Trovare il caso nella matrice dati che sulla variabile sex assume valore 22 Controllare sul questionario originale corrispondente al caso quale è la risposta corretta ( 1 maschio, 2 femmina, 0 non indica) Modificare il valore nella matrice dati ( manualmente o attraverso sintassi, preferibile perché resta traccia dell’operazione fatta) Se non è possibile controllare il questionario: si può provare, sulla base di altre informazioni e variabili disponibili di desumere il valore esatto ( ad es. alcune scuole in Italia sono frequentate quasi esclusivamente da donne, se il ns. caso frequenta una scuola di questo tipo è altamente probabile che il codice inputato come 22 in realtà fosse 2) si può attribuire al caso valore 0 ( nella nostra matrice dati corrisponde a “non indica”) sulla variabile sex o, nel caso di variabili cardinali o quasi cardinali si attribuisce il valore medio riscontrato nel campione 14
INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi simona.guglielmi@unimi.it Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 15
Esercitazione 2 Giovedì 22 maggio, 14.30 -16. 30 (Aula 2) Argomenti: Analisi monovariata (variabili nominali, ordinali, cardinali) Statistiche descrittive di base Rappresentazioni grafiche Analisi bivariata (Cenni) Base dati per esercitazione : Scelte postdiploma Lomb2005.sav Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia Testi di riferimento: P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII) Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 16
Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili Le finestre di SPSS Data Editor (Data view,Variable View): contiene la matrice- dati e le informazioni sulle variabili; il file ha come estensione “Nomefile.sav” Output Viewer: mostra i risultati delle elaborazioni statistiche (tabelle, grafici,..); il file ha come estensione Nomefile.spo Syntax File: per salvare i comandi lanciati tramite le finestre di dialogo in linguaggio SPSS e per scriverne di nuovi; il file ha come estensione Nomefile.sps 17
La barra Menù File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out ) Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare tabelle dell’output) View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili, visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili presenti nella matrice dati Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le principali analisi statistiche e alcune rappresentazioni grafiche Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte Help/?: guida in linea, contiene anche esercitazioni Analisi monovariata L’analisi delle frequenze ( in SPSS: Analyze Descriptive Statistics Frequencies) consente di: 1) Verificare che i valori presenti nella matrice dati rientrino nella gamma prevista ( e registrata nel code-book) Cfr. Lezione 1 2) Identificare eventuali casi mancanti sulle singole variabili (Cfr. Lezione 1) 3) Verificare la distribuzione delle risposte di una specifica variabile nel campione 4) Identificare eventuali modalità della variabile sulle quali si collocano pochi casi SPSS consente di : - Costruire una tabella relativa alla distribuzione di frequenza della variabile di interesse ( valori assoluti, valori %) - Ottenere una adeguata rappresentazione grafica della distribuzione di frequenza della variabile - Calcolare gli indici sintetici di ciascuna distribuzione ( misure di tendenza centrale, misure di variazione e dispersione, indice di concentrazione o distribuzione) 18
Analisi delle frequenze/ Menù reset: per annullare tutti i comandi impostati e farne di nuovi Statistics: per avere informazioni sulle statistiche descrittive delle Charts: per realizzare variabili (indici sintetici) rappresentazioni grafiche Analisi delle frequenze/Syntax Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di interesse all’interno di questo comando in un file di sintassi: FREQUENCIES VARIABLES= anno naz scuola classe prov d1 d2 d3 /ORDER= ANALYSIS . NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo ad un file di sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) prima di dare l’OK. 19
Analisi monovariata/variabili nominali/promemoria Con una variabile nominale ( ad. es. il genere ) sono possibili le seguenti operazioni: - creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (quanti sono i maschi e le femmine in valore assoluto ed in percentuale nel campione?) - calcolare un indice sintetico della distribuzione ( solo e soltanto la moda, cioè la modalità che raccoglie il maggior numero di casi) - produrre una adeguata rappresentazione grafica (grafico a torta o grafico a barre) Analisi monovariata/Variabili nominali/Menù 1) Selezionare la variabile nominale di interesse 2) Cliccare su Statistiche (Statistics) e selezionare le statistiche di interesse 3) Cliccare su Grafici (Charts) e selezionare il grafico adeguato ( a torta/ piecharts, a barre/bar chart) 4) Cliccare su Formato; in genere vanno bene le opzioni di default, ma dipende dalle esigenze di ricerca 20
Analisi monovariata/Variabili nominali/Sintassi Di seguito si riportano i comandi di sintassi SPSS per 1) produrre la tabella con la distribuzione di frequenza per la variabile ( o le variabili) di interesse ( nel nostro esempio la variabile d1) 2) calcolare anche alcune statistiche ( nel ns. esempio la moda), o una rappresentazione grafica (nel ns. esempio PIECHART/grafico a torta) della distribuzione della variabile di interesse FREQUENCIES VARIABLES=d1 /STATISTICS=MODE /PIECHART PERCENT /ORDER= ANALYSIS . NB: ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù. Analisi monovariata/Variabili nominali/OUTPUT N.B= cliccando sulla tabella o sul grafico si apre una maschera che consente di modificare l’editing 21
Analisi monovariata/Variabili nominali/OUTPUT Nome/Etichetta della variabile La tabella “Statistiche” riporta: 1) il numero di casi validi (quelli che hanno risposto alla domanda) Statistiche 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna Idea su cosa fare dopo sms? informazione su questa variabile) N Validi 1115 3) Il codice numerico corrispondente alla moda della distribuzione della Mancanti 0 variabile (3, corrispondente a “Mi iscriverò ad un corso di laurea”) Moda 3 Nome/Etichetta della variabile Idea su cosa fare dopo sms? Informazioni presenti in Tabella: Percentuale Percentuale 1) Frequenza: il numero di casi che si colloca Frequenza Percentuale valida cumulata su ciascuna delle modalità della variabile di Validi Non indica 20 1,8 1,8 1,8 interesse Cercherò lavoro 266 23,9 23,9 25,7 Laurea + lavoro 265 23,8 23,8 49,4 2) Percentuale: la frequenza % di ciascuna Laurea 328 29,4 29,4 78,8 modalità della variabile Corso fp post sms 27 2,4 2,4 81,3 3) Percentuale valida: la frequenza % di Non so 209 18,7 18,7 100,0 ciascuna modalità della variabile calcolata Totale 1115 100,0 100,0 solo su casi indicati come validi dal ricercatore/trice ( nel ns. esempio tutti sono Modalità della variabile ritenuti validi) Distribuzione di frequenza (n, %) 4) Percentuale cumulata : utile solo per variabili ordinali/cardinali ( vedi slides realtive) Analisi monovariata/Variabili nominali/Grafici A torta: l’area di ogni sezione rappresenta la % o il A barre/ortogramma: l’altezza delle barre è numero di risposte corrispondenti a ciascun valore della proporzionale alla frequenza di valori della variabile; variabile ( nel ns. esempio %); il grafico è in genere poco l’ordine dei valori per varibili nominali è arbitrario in leggibile se le modalità sono più di 7! base alle esigenze di ricerca, anche se in genere si tende a collocarle in ordine crescente/decrescente di frequenza N.B= cliccando sul grafico si apre una maschera che consente di modificarne l’editing Statistiche Idea su cosa fare dopo sms? N Validi 1115 Mancanti 0 22
Analisi monovariata/variabili ordinali/promemoria Con una variabile ordinale ( ad. es.il titolo di studio) sono possibili le seguenti operazioni: - creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (quanti sono i laureati/diplomati/con licenza elementare/etc in valore assoluto ed in percentuale nel campione?) - calcolare indici sintetici della distribuzione (di tendenza centrale: moda, mediana) - produrre una adeguata rappresentazione grafica (ortogramma) Analisi monovariata/Variabili ordinali/Menù 1) Selezionare la variabile ordinale di interesse 2) Cliccare su Statistiche (Statistics) e selezionare le statistiche di interesse ( media, mediana) 3) Cliccare su Grafici (Charts) e selezionare il grafico adeguato ( a barre) 4) Cliccare su Formato; con una variabile ordinale fondamentale selezionare valori crescenti o decrescenti (default) e non i conteggi! 23
Analisi monovariata/Variabili ordinali/Sintassi Di seguito si riportano i comandi di sintassi SPSS per 1) produrre la tabella con la distribuzione di frequenza per la variabile ordinale ( o le variabili) di interesse ( nel nostro esempio la variabile d6) 2) calcolare anche alcune statistiche (media, mediana), o una rappresentazione grafica (bar charts, grafico a barre) della distribuzione della variabile di interesse FREQUENCIES VARIABLES=d6 /STATISTICS=MEDIAN MODE /BARCHART PERCENT /ORDER= ANALYSIS . NB: I comandi sono identici a quelli usati per le variabili nominali, ma cambiano le statistiche e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù. Analisi monovariata/Variabili ordinali/OUTPUT 24
Analisi monovariata/Variabili ordinali/OUTPUT La tabella “Statistiche” riporta: Statistiche 1) il numero di casi validi (quelli che hanno risposto alla domanda) Quando hai deciso di continuare gli studi? 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna N Validi 740 informazione su questa variabile). Nel ns. esempio si tratta di casi che Mancanti 375 NON dovevano rispondere, perché filtrati alla domanda precedente Mediana 2,00 (definiti da SPSS mancanti di sistema) Moda 1 3) Il codice numerico corrispondente alla mediana (2= nel biennio della scuola media superiore) e alla moda (1 = prima di iniziare la scuola media superiore) della distribuzione della variabile Nome/Etichetta della variabile Informazioni presenti in Tabella: Quando hai deciso di continuare gli studi? 1) Frequenza: il numero di casi che si colloca su Percentuale Percentuale Frequenza Percentuale valida cumulata ciascuna delle modalità della variabile di Validi Prima di iniziare la sms 342 30,7 46,2 46,2 interesse Nel biennio delle sms 69 6,2 9,3 55,5 Durante il 3° anno 2) Percentuale: la frequenza % di ciascuna 91 8,2 12,3 67,8 Durante il 4° anno modalità della variabile 134 12,0 18,1 85,9 Durante il 5° anno 104 9,3 14,1 100,0 3) Percentuale valida: la frequenza % di ciascuna Totale 740 66,4 100,0 modalità della variabile calcolata solo su casi Mancanti Non indica 12 1,1 indicati come validi dal ricercatore/trice ( nel ns. Mancante di sistema 363 32,6 esempio non sono validi i “non indica” e i Totale 375 33,6 Totale 1115 100,0 “mancanti di sistema”) Modalità della variabile 4) Percentuale cumulata : indica la quota % di Distribuzione di casi che si collocano entro determinata frequenza (n, %) posizione della scala ordinale. Analisi monovariata/Variabili ordinali/Grafici A barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della variabile; i valori vanno collocati seguendo l’ordine della scala ordinale. Nel ns. esempio è una scala ordinale temporale che va da prima dell’iscrizione ad una scuola media superiore al quinto anno della scuola media superiore 25
Analisi monovariata/variabili cardinali/promemoria Con una variabile cardinale ( ad. es. numero di esami sostenuti; valutazioni in una scala 1-10) sono possibili le seguenti operazioni: - creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (quanti sono i laureati/diplomati/con licenza elementare/etc in valore assoluto ed in percentuale nel campione?) - calcolare indici sintetici della distribuzione (di tendenza centrale: moda, mediana, media; indici di dispersione: varianza, deviazione standard) - produrre una adeguata rappresentazione grafica (istogramma) Analisi monovariata/variabili cardinali/Menù 1) Selezionare la variabile cardinale di interesse 2) Cliccare su Statistiche (Statistics) e selezionare le statistiche di interesse (media, mediana, moda, deviazione std, valore min-max). Verificare che i casi validi siano solo quelli previsti dalla scala di misura; ad es. escludere dall’analisi i “non indica” o i “non so” codificati con codici numerici (0, 99, etc…) altrimenti SPSS li userà per calcolare la media! 3) Cliccare su Grafici (Charts) e selezionare il grafico adeguato (istogramma) 4) Cliccare su Formato; con una variabile cardinale è importante selezionare valori crescenti o decrescenti (default) e non i conteggi! 26
Analisi monovariata/ variabili cardinali/Sintassi Di seguito si riportano i comandi di sintassi SPSS per 1) produrre la tabella con la distribuzione di frequenza per la variabile cardinale ( o le variabili) di interesse ( nel nostro esempio la variabile d9a) 2) calcolare anche alcune statistiche (media, mediana, moda, deviazione standard, valori minimo e massimo, intervallo), o una rappresentazione grafica (istogramma) della distribuzione della variabile di interesse FREQUENCIES VARIABLES=d9a /STATISTICS=STDDEV RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS . NB: I comandi sono identici a quelli usati per le variabili nominali e ordinali , ma cambiano le statistiche e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù. La variabile d9a corrisponde alla seguente domanda del questionario: 9) Indipendentemente dal voto dato dagli insegnanti e dalla scuola che si frequenta alcune persone si sentono più portate per la matematica, altre per la storia, altre ancora per il disegno. E tu, in una scala da 1 a 10, quanto ti senti portato per le materie elencate ? Posizionati sulla scala considerando che 1 indica che non ti senti per nulla portato per quella materia e 10 che ti senti portato moltissimo Materie matematiche (matematica, statistica…) 1 2 3 4 5 6 7 8 9 10 Analisi monovariata/variabili cardinali/Output 27
Analisi monovariata/variabili cardinali/Output Analisi monovariata/variabili cardinali/Output La tabella “Statistiche” riporta: Statistiche Predisposizione materie: matematiche 1) il numero di casi validi (quelli che hanno risposto alla domanda) N Validi 1114 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna Mancanti 1 informazione su questa variabile). Media 5,63 Mediana 6,00 3) Il codice numerico corrispondente alla media (5,63) alla mediana (6) Moda 6 e alla moda (6) della distribuzione della variabile Deviazione std. 2,372 4) La deviazione standard (scarto quadratico medio): preferibile alla Intervallo 9 Minimo varianza nelle analisi monovariate perché è dello stesso ordine di 1 Massimo 10 grandezza della variabile e media. 5) Valore massimo e minimo assumibile dalla variabile ( 1-10) e relativo Nome/Etichetta della intervallo (9) variabile Predisposizione materie: matematiche Informazioni presenti in Tabella: Percentuale Percentuale Frequenza Percentuale valida cumulata 1) Frequenza: il numero di casi che si colloca su Validi Per nulla portato 84 7,5 7,5 7,5 ciascun valore della variabile di interesse 2 59 5,3 5,3 12,8 2) Percentuale: la frequenza % di ciascun valore 3 90 8,1 8,1 20,9 4 della variabile 96 8,6 8,6 29,5 5 151 13,5 13,6 43,1 3) Percentuale valida: la frequenza % di ciascun 6 187 16,8 16,8 59,9 valore della variabile calcolata solo su casi 7 175 15,7 15,7 75,6 indicati come validi dal ricercatore/trice 8 174 15,6 15,6 91,2 Percentuale cumulata : indica la quota % di 9 59 5,3 5,3 96,5 casi collocati ad una determinata posizione Moltissimo portato 39 3,5 3,5 100,0 Totale 1114 99,9 100,0 della scala cardinale. Mancanti Non indica 1 ,1 Totale 1115 100,0 Modalità della variabile Distribuzione di frequenza (n, %) 28
Analisi monovariata/variabili cardinali/Grafici Gli istogrammi richiesti Se la variabile è una variabile Statistiche tramite la finestra cardinale raggruppata in classi Frequencies forniscono Predisposizione materie: matematiche N Validi 1114 possiamo rappresentarla solo le frequenze assolute e non le % Mancanti 1 graficamente con un istogramma, Media 5,63 collocando su un asse la variabile, sull’altro la frequenza e innalzando dei rettangoli di area proporzionale alle frequenze. NB: Un tipo particolare di istogramma è dato dalla piramide della popolazione; dall’Istogramma è possibile derivare il poligono di frequenza. Per queste rappresentazioni grafiche occorre far riferimento al comando Grafici sulla Barra Menù di SPSS ( vedi SLIDE SUCCESSIVE) Come generare Grafici con SPSS/1 Oltre alle (poche!) rappresentazioni grafiche previste all’interno della finestra Frequencies/Charts , Spss consente di creare numerosi tipi di grafici. Dal comando GRAFICI sulla barra di Menù è possibile scegliere tra Generatore Grafici, Interattivi, Finestre Legacy: ognuno di quesi sottomenù prevede vari tipi di grafici. Per rapporti di ricerca, pubblicazioni, etc…è comunque preferibile usare Excel, che produce grafici esteticamente migliori e più facili da gestire. 29
Come generare Grafici con SPSS/2 2) Trascinare la variabile di interesse sull’asse delle x Istogramma prevede: - Istogrammi semplici e raggruppati - Poligono di frequenza - piramide della 1) Selezionare il tipo di popolazione grafico di interesse Generatore di Grafici/Esempi ISTOGRAMMA (classi %) PIRAMIDE DELLA POPOLAZIONE 30
Missing values: come eliminare dall’analisi i casi? Colonna del foglio variabili da utilizzare per definire i valori mancanti (missing) oltre a quelli di sistema definiti in fase di input Cliccare sulla cella corrispondente alla variabile di interesse ( nel ns.esempio d9a) ed inserire i valori da definire come mancanti. Nel ns. caso 0, che corrisponde a “Non indica” I casi validi: su quale base calcolare le frequenze? 1) Effettuare una distribuzione di frequenza della variabile di interesse prevedendo tutti i valori che essa può assumere (compresi quelli corrispondenti a non so e non indica); 2) Per le variabili cardinali, quando si chiedono le statistiche descrittive (media, mediana, deviazione standard, etc…) ricordarsi sempre di tarsformare in missing i valori che escono dalla scala di misura (in genere i codici numerici associati a “non so” e o “non indica”) 3) La scelta di eliminare o meno i non so dall’analisi dipende dalle esigenze di ricerca, dal tipo di fenomeno che si sta studiando, dall’impostazione metodologica del ricercatore 4) Come trattare i Non so? Si tratta di una informazione importante che il ricercatore deve sempre tenere presente per valutare l’affidabilità dei dati su cui lavora. Nel caso in cui si decida di eliminare i “non so” dall’analisi (in genere quando si tratta di pochi casi, inferiori al 3% del campione) è importante segnalare l’operazione fatta ( nel testo, o in tabella o in una nota metodologica); 5) Come trattare i Non indica (mancate risposte)? In primo luogo occorre controllare che non vi siano errori di input ed eventualmente correggerli nella matrice dati. In genere, a meno che non si tratti di una quota rilevante del campione, si è soliti eliminare dall’analisi i “non indica”. Si tenga presente che se la variabile non prevede la modalità di risposta “non so”è probabile che alcuni intervistati “indecisi” abbiano preferito non rispondere alla domanda ( e quindi sono stati codificati con “non indica”). Anche in questo caso se si decide di trasformare in missing values i “non indica” occorre sempre segnalare l’operazione fatta in fase di presentazione dei dati. 31
Missing values: un esempio Tab. 1 Idea su cosa fare dopo sms? Come si può notare le percentuali valide riportate nella prima tabella (distribuzione di Percentuale Percentuale Frequenza Percentuale valida cumulata frequenza di tutti i valori della variabile) Validi Non indica 20 1,8 1,8 1,8 differiscono notevolmente dalla seconda che Cercherò lavoro 266 23,9 23,9 25,7 esclude Non indica e Non so). Laurea + lavoro 265 23,8 23,8 49,4 Sulla base dei dati presentati in Tab. 1 possiamo Laurea 328 29,4 29,4 78,8 Corso fp post sms dire che su 100 studenti lombardi : circa 20 non 27 2,4 2,4 81,3 Non so 209 18,7 18,7 100,0 sanno cosa fare dopo il diploma (18,7%), 30 Totale 1115 100,0 100,0 pensano di iscriversi all’università (29,4%), 24 vogliono conciliare lavoro e università, 24 cercheranno subito un lavoro. Una quota ridotta ( 2 ,4%) sceglie un corso Formazione Tab. 2 Idea su cosa fare dopo sms? Professionale o non fornisce risposta (1,8%). Percentuale Percentuale Se usiamo i dati presentati in Tab.2 e Frequenza Percentuale valida cumulata Validi Cercherò lavoro 266 23,9 30,0 30,0 consideriamo la sola percentuale valida, le Laurea + lavoro 265 23,8 29,9 59,9 quote variano di molto: circa 37 studenti su 100 Laurea 328 29,4 37,0 97,0 pensano di iscriversi all’università, 30 vogliono Corso fp post sms 27 2,4 3,0 100,0 conciliare lavoro e università, 30 cercheranno Totale 886 79,5 100,0 subito un lavoro. Una quota ridotta ( 3%) Mancanti Non indica 20 1,8 sceglierà un corso Formazione Professionale Non so 209 18,7 Totale 229 20,5 Totale 1115 100,0 Missing values: la matematica è un’opinione? Chi è in possesso dei dati presentati in Tab. 1 potrà legittimamente affermare: “Dai dati emerge una grande difficoltà da parte degli studenti lombardi nel scegliere il proprio futuro. Ben un quinto di essi non è in grado di formulare ipotesi sulle scelte che farà dopo il diploma e la quota rimanente si suddivide quasi equamente tra chi si iscriverà ad un corso di laurea, chi cercherà un lavoro e chi intende conciliare entrambi i percorsi. L’investimento assoluto in un percorso qualificante quale quello universitario raccoglie l’interesse di poco meno di 30 studenti su 100” Chi è in possesso dei dati presentati in Tab. 2 ( percentuale valida) potrà legittimamente affermare: “I dati evidenziano una fortissima tendenza da parte degli studenti di scuola superiore ad investire sul proprio futuro professionale con percorsi di qualità, con l’obiettivo di conseguire un titolo di studio universitario. Infatti, ben due terzi degli studenti intervistati pensa di iscriversi ad un corso di laurea, eventualmente affiancando tale percorso ad un impegno lavorativo.” 32
Le variabili quasi-cardinali Molti fenomeni sociali (religiosità, razzismo, orientamento politico, atteggiamenti verso le istituzioni, coesione sociale, orientamenti valoriali, etc…) possono essere immaginate come proprietà continue che variano in maniera graduale far gli individui. Ma quale unità di misura usare per passare da un concetto di questo tipo ad una variabile cardinale (opertivizzazione)? La “tecnica delle scale” rappresenta un tentativo di superare tale limite. Le variabili prodotte con queste tecniche (variabili quasi-cardinali, Marradi 1993) possono plausibilmente essere trattata con gli strumenti statistici propri delle variabili cardinali, ma è sempre opportuno tenere presente la loro particolare natura. La scala maggiormente utilizzata nelle scienze sociali è la scala Likert. Il formato delle singole domande delle scale Likert è rappresentato da una serie di affermazioni per ognuna delle quali l’intervistato deve dire se e in che misura è d’accordo. La scala può essere a 7 alternative (molto d’accordo, d’accordo, parzialmente d’accordo, incerto,parzialmente in disaccordo, in dissaccordo, molto in disaccordo), a 5 (molto d’accordo, d’accordo, incerto, in disaccordo, molto in disaccordo) o a 4 (molto, abbastanza, poco, per nulla d’accordo). Ad ogni modalità di risposta è associato un valore numerico ( da 1 a 7, o da 1 a 5, o da 1 a 4) con proprietà cardinali. Esempi di scala nel questionario usato per le esercitazioni (Scelte postdiploma Lomb 2005.doc): - Dom 13) Parliamo adesso di un lavoro in particolare, quello di chi fa ricerca scientifica, cioè delle persone che fanno nuove scoperte sul “funzionamento” di vari aspetti del mondo (ad esempio i pianeti, l’atmosfera, il corpo umano…). Le opinioni della gente sulla ricerca scientifica non sono tutte uguali. Tu come la pensi? Di seguito ti elenchiamo una serie di affermazioni: per ognuno di esse ti chiediamo di dirci se sei d’accordo e in che misura. - Dom. 10) Le opinioni degli studenti rispetto alla matematica possono essere molto diverse: tu come la pensi? Ti elenchiamo una serie di affermazioni: per ognuna di esse ti chiediamo di dirci se sei d’accordo e in che misura Atteggiamento verso la ricerca scientifica: analisi monovariata Affermazioni ricerca scientifica: comporta rischi difficili da controllare Percentuale Percentuale Frequenza Percentuale valida cumulata Validi Non indica 3 ,3 ,3 ,3 Per nulla d'accordo 57 5,1 5,1 5,4 Poco d'accordo 320 28,7 28,7 34,1 Abbastanza d'accordo 491 44,0 44,0 78,1 Molto d'accordo 175 15,7 15,7 93,8 Non so 69 6,2 6,2 100,0 Posso chiedere l’analisi Totale 1115 100,0 100,0 Affermazioni ricerca scientifica: difficile da comprendere delle frequenze per ciascuna variabile Percentuale Percentuale Frequenza Percentuale valida cumulata derivata dalla batteria di Validi Non indica 1 ,1 ,1 ,1 Per nulla d'accordo 112 10,0 10,0 10,1 domande, ma la lettura e Poco d'accordo 385 34,5 34,5 44,7 il confronto tra variabili Abbastanza d'accordo 458 41,1 41,1 85,7 Molto d'accordo 122 10,9 10,9 96,7 risulta poco agevole Non so 37 3,3 3,3 100,0 Totale 1115 100,0 100,0 Affermazioni ricerca scientifica: chi la fa è pagato troppo poco Percentuale Percentuale Frequenza Percentuale valida cumulata Validi Non indica 5 ,4 ,4 ,4 Per nulla d'accordo 84 7,5 7,5 8,0 Poco d'accordo 177 15,9 15,9 23,9 Abbastanza d'accordo 290 26,0 26,0 49,9 Molto d'accordo 222 19,9 19,9 69,8 Non so 337 30,2 30,2 100,0 Totale 1115 100,0 100,0 33
Atteggiamento verso la ricerca scientifica: tabelle di frequenza Tabelle di frequenza/Menu 34
Tabelle di Frequenza/output Questo formato agevola il confronto tra variabili ( che rappresentano nel ns. esempio un particolare aspetto associato alla ricerca scientifica) Affermazioni ricerca Affermazioni ricerca scientifica: comporta Affermazioni ricerca Affermazioni ricerca scientifica: indispensabile rischi difficili da scientifica: difficile da scientifica: chi la fa è x qualità della vita controllare comprendere pagato troppo poco Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Non indica 2 ,2 3 ,3 1 ,1 5 ,4 Per nulla d'accordo 9 ,8 57 5,1 112 10,0 84 7,5 Poco d'accordo 51 4,6 320 28,7 385 34,5 177 15,9 Abbastanza d'accordo 394 35,3 491 44,0 458 41,1 290 26,0 Molto d'accordo 652 58,5 175 15,7 122 10,9 222 19,9 Non so 7 ,6 69 6,2 37 3,3 337 30,2 Totale 1115 100,0 1115 100,0 1115 100,0 1115 100,0 INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi simona.guglielmi@unimi.it Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 35
Esercitazione 3 Argomenti Trasformazione delle variabili attraverso i comandi: Ricodifica (RECODE) Calcola (COMPUTE) Conteggia (COUNT) Manipolazione dei casi attraverso i comandi: Seleziona (SELECT cases) Distingui (SPLIT FILE) Base dati per esercitazione : Scelte postdiploma Lomb2005.sav Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia Testi di riferimento: P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII) Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 36
Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili Costruire nuove variabili Spss consente di creare una nuova variabile tramite: Trasformazione di una variabile presente nel data set (es. aggregazione dei valori in classi, comando RECODE) Conteggio di un valore presente in una lista di variabili ( comando COUNT) Combinazione di più variabili (operazioni aritmetiche e/o logiche tra le variabili, comando COMPUTE) 37
L’istruzione RECODE (ricodifica) Consente di assegnare alle variabili valori differenti rispetto a quelli di partenza: Codificare un valore come missing Accorpare in classi i valori della variabile Invertire i valori della variabile in coerenza con la scala usata (ad.es in Scala Likert, 1= per nulla; 4=molto) ed in generale modificare i valori associati alle modalità di risposta Un esempio: accorpamento dei valori in classi Tipo sms frequentata Percentuale Percentuale Frequenza Percentuale valida cumulata Validi Non indica 1 ,1 ,1 ,1 L. classico 88 7,9 7,9 8,0 L. scientifico 233 20,9 20,9 28,9 L. artistico 42 3,8 3,8 32,6 L. 44 3,9 3,9 36,6 socio-psico-pedagogico Ist. prof. industriale e 73 6,5 6,5 43,1 artigianato Ist. prof. per i servizi 94 8,4 8,4 51,6 commerciali e turistici Altri Ist. Prof. e Istituto 40 3,6 3,6 55,2 d'arte Ist. Tecnico commerciale 276 24,8 24,8 79,9 e per geometri Ist. Tecnico industriale 179 16,1 16,1 96,0 Altri ist. Tecnici 45 4,0 4,0 100,0 Totale 1115 100,0 100,0 Come ricodificare la variabile “scuola” passando da 10 modalità a 3? 1 = liceo 2 = ist. professionale 3 = ist. Tecnico 38
Ricodifica in variabili differenti Utilizzeremo l’istruzione RECODE ( in variabili differenti) per creare una nuova variabile “scuola_rec” a tre modalità TRANSFORM RECODE INTO DIFFERENT VARIABLES Posso ricodificare la variabile “scuola” passando da 10 modalità a 3: 1 = liceo ( comprende i “vecchi” valori 1,2,3,4) 2 = ist. professionale ( comprende i “vecchi” valori 5,6,7) 3 = ist. Tecnico (comprende i “vecchi” valori 8,9,10) I “non indica” sono codificati come “missing values” Ricodifica in variabili differenti/Menu 39
Ricodifica: creare una nuova variabile 1. Selezionare la variabile da modificare e spostarla nel box centrale 2. Indicare nome ed etichetta della variabile che si vuole creare e cliccare su Cambia per confermare 3. Cliccare su Valori vecchi e nuovi per dare le istruzioni di ricodifica 4. Cliccare su SE,qualora si voglia applicare la ricodifica solo ai csi che soddisfano una determinata condizione ( ad es. sesso=1) Ricodifica: assegnare nuovi valori 1. Indicare nell’appropriato box a sinistra il valore/i valori da ricodificare (vecchio valore), che possono essere singoli o intervalli di valori ( nel ns. esempio 0, intervallo da 1 a 4, da 5 a7, da 8 a 10) 1. Ib 2. Per ciascun vecchio valore o intervallo di valori indicare ( a destra) la ricodifica scelta: un valore nuovo, mancante di sistema, un valore uguale a quello vecchio. Cliccare su aggiungi per confermare 3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi slide precedente) 40
Ricodifica: la sintassi I comandi di sintassi consentono di creare la nuova variabile, assegnare i valori e le etichette ( tramite Menu le etichette dei valori non possono essere assegnate!). Negli esempi seguenti vengono create due variabili differenti ( scuola_2, scuola_3, a partire dalla variabile iniziale “scuola”) RECODE scuola (0=SYSMIS) (1 thru 4=1) (5 thru 7=2) (8 thru 10=3) INTO scuola_3 . VARIABLE LABELS scuola_3 "Tipo scuola in 3 classi". EXECUTE . VAL LAB scuola_3 1 "Liceo" 2 "Istituto Professionale" 3 "Istituto Tecnico" . RECODE scuola (0=SYSMIS) (1 thru 4=1) (5 thru 10=2) INTO scuola_2 . VARIABLE LABELS scuola_2 "Tipo scuola in 2 classi". EXECUTE . VAL LAB scuola_2 1 "Liceo" 2 "Istituto Professionale o Tecnico " Distribuzione di frequenza delle nuove variabili (ricodificate) Tipo scuola in 2 classi Percentuale Percentuale Frequenza Percentuale valida cumulata Validi Liceo 407 36,5 36,5 36,5 Istituto Professionale 707 63,4 63,5 100,0 o Tecnico Totale 1114 99,9 100,0 Mancanti Mancante di sistema 1 ,1 Totale 1115 100,0 Tipo scuola in 3 classi Percentuale Percentuale Frequenza Percentuale valida cumulata Validi Liceo 407 36,5 36,5 36,5 Istituto Professionale 207 18,6 18,6 55,1 Istituto Tecnico 500 44,8 44,9 100,0 Totale 1114 99,9 100,0 Mancanti Mancante di sistema 1 ,1 Totale 1115 100,0 41
Ricodificare una batteria di domande La batteria seguente produce 10 differenti variabili con uguale scala di risposta ( da 1 a 4, 1=lo escludo, 4= molto probabile) 7) In quale dei seguenti gruppi disciplinari pensi di scegliere la Facoltà o il corso di formazione professionale post-diploma al quale iscriverti? (1 risposta per ogni riga) Lo escludo Poco Abbastanza Molto probabile probabile probabile • Gruppo scientifico (matematica, chimica, biologia…)....................... ................ ................ • Gruppo medico (medicina, veterinaria ecc.)....................................... ................ ................ • Gruppo ingegneria .............................................................................. ................ ................ • Gruppo economico (economia e commercio, ecc.)............................. ................ ................ • Gruppo politico-sociale (scienze politiche, sociologia…).................. ................ ................ • Gruppo psicologico ............................................................................ ................ ................ • Gruppo giuridico................................................................................. ................ ................ • Gruppo umanistico (lettere, storia, filosofia ecc.)............................... ................ ................ • Gruppo architettura............................................................................. ................ ................ • Gruppo agrario.................................................................................... ................ ................ Ricodificare le domande di una batteria/1 Gruppo disciplinare a cui iscriverti: scientifico Percentuale Percentuale Frequenza Percentuale valida cumulata Per semplificare iniziamo Validi Non indica 19 1,7 2,5 2,5 ricodificando la prima variabile Lo escludo 355 31,8 47,2 49,7 Poco probabile 183 16,4 24,3 74,1 (d7a) della batteria, creandone Abbastanza probabile 128 11,5 17,0 91,1 una nuova con 2 modalità. Molto probabile 67 6,0 8,9 100,0 Totale 752 67,4 100,0 Mancanti Mancante di sistema 363 32,6 RECODE d7a Totale 1115 100,0 (0=SYSMIS) (1 thru 2=0) (3 thru 4=1) INTO d7a2 . Iscrizione Gruppo scientifico? VAR LAB d7a2 "Iscrizione Gruppo scientifico?". PercentualePercentuale Frequenza Percentuale valida cumulata VAL LAB var d7a2 Validi non probabile 538 48,3 73,4 73,4 0 "non probabile" probabile 195 17,5 26,6 100,0 1 "probabile". Totale 733 65,7 100,0 MancantiMancante di sistema382 34,3 Totale 1115 100,0 42
Ricodificare le domande di una batteria/2 RECODE d7b d7c d7d d7e d7f d7g d7h d7i d7l (0=SYSMIS) (1 thru 2=0) (3 thru 4=1) INTO d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2. VARIABLE LABELS d7b2 "Gruppo medico?". VARIABLE LABELS d7c2 "Gruppo ingegneria?". VARIABLE LABELS d7d2 "Gruppo economico?". VARIABLE LABELS d7e2 "Gruppo politico-sociale?" . VARIABLE LABELS d7f2 "Gruppo psicologico ?". VARIABLE LABELS d7g2 "Gruppo giuridico?". VARIABLE LABELS d7h2 "Gruppo umanistico ?". VARIABLE LABELS d7i2 "Gruppo architettura?". VARIABLE LABELS d7l2 "Gruppo agrario?" . EXECUTE . VAL LAB d7b2 Tramite i comandi di sintassi ripetiamo 0 "non probabile" 1 "probabile". l’operazione di ricodifica per tutte e 10 le (….) variabili della batteria (Cfr. File di VAL LAB d7i2 sintassi dell’Esercitazione n.3) 0 "non probabile" 1 "probabile". Distribuzione di frequenza delle variabili ricodificate (batteria) Per creare la tabella riassuntiva della distribuzione delle variabili di una batteria tramite menu: Analizza/Tabelle/Tabelle di frequenza non probabile probabile Totale Iscrizione Gruppo Frequenza 538 195 733 scientifico? Percentuale 73,4% 26,6% 100,0% Gruppo medico? Frequenza 564 166 730 Percentuale 77,3% 22,7% 100,0% Gruppo ingegneria? Frequenza 526 206 732 Percentuale 71,9% 28,1% 100,0% Gruppo economico? Frequenza 529 205 734 Percentuale 72,1% 27,9% 100,0% Gruppo politico-sociale? Frequenza 547 185 732 Percentuale 74,7% 25,3% 100,0% Gruppo psicologico ? Frequenza 534 200 734 Percentuale 72,8% 27,2% 100,0% Gruppo giuridico? Frequenza 596 134 730 Percentuale 81,6% 18,4% 100,0% Gruppo umanistico ? Frequenza 570 161 731 Percentuale 78,0% 22,0% 100,0% Gruppo architettura? Frequenza 576 159 735 Percentuale 78,4% 21,6% 100,0% Gruppo agrario? Frequenza 683 51 734 Percentuale 93,1% 6,9% 100,0% 43
L’istruzione COUNT Possiamo costruire un indice che evidenzi la frequenza con cui un determinato valore ricorre in una lista di variabili. Ad esempio, riferendoci alle domande precedenti, possiamo “contare” quante volte è stato scelto il valore 1 (che indica probabile iscrizione universitaria) sul totale delle 10 variabili corrispondenti a diversi gruppi universitari. L’indice potrà variare da 0 (mai indicato) a 10 (indicato per tutte le variabili). Gli intervistati associati a valore 10, sono dunque coloro che hanno dichiarato una probabile iscrizione a tutti i gruppi universitari indicati La nuova variabile, poiché derivata da un CONTEGGIO, è una variabile cardinale L’istruzione COUNT/Menu 44
L’istruzione count/Menu 1. Dare un nome e una etichetta alla nuova variabile 2. Selezionare le variabili, all’interno delle quali SPSS dovrà conteggiare il valore scelto 3. Cliccare su Definisci valori 4. Se il conteggio si applica solo ad alcuni casi ( ad es. solo alle donne) cliccare su SE e definire i criteri di selezione Selezionare i valori da conteggiare 1. Indicare il valore da conteggiare ( nel ns. esempio 1) in un adeguato box a sinistra, cliccare su aggiungi per spostarlo nel box a destra 2. I valori da conteggiare possono essere singoli (come nel ns.esempio) o intervalli di valori. 3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi slide precedente) 45
L’istruzione COUNT/Sintassi e Output COUNT Countd7 = d7a2 d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2 (1) . VARIABLE LABELS Countd7 'Conteggio probabilità di iscrizione a n gruppi universitari' . EXECUTE . Conteggio probabilità di iscrizione a n gruppi universitari La distribuzione di frequenza della Percentuale Percentuale nuova variabile evidenzia che : Frequenza Percentuale valida cumulata - Più di un terzo degli studenti non Validi ,00 403 36,1 36,1 36,1 1,00 168 15,1 15,1 51,2 ha indicato una probabile 2,00 271 24,3 24,3 75,5 iscrizione ad alcun gruppo 3,00 180 16,1 16,1 91,7 4,00 disciplinare 63 5,7 5,7 97,3 5,00 22 2,0 2,0 99,3 - una minoranza ha indicato un 6,00 7 ,6 ,6 99,9 solo gruppo disciplinare come 8,00 1 ,1 ,1 100,0 Totale 1115 100,0 100,0 probabile (15,1%) - circa il 40% è indeciso tra 2 o 3 gruppi disciplinari - una quota marginale (8%) ha indicato più di 4 gruppi disciplinari Ricodificare una variabile creata tramite conteggio La variabile ottenuta può essere ricodificata in base alle esigenze di ricerca (ad. es. successive analisi bivariata o multivariata). Ad esempio possiamo creare una nuova variabile con 3 modalità: studenti non interessati all’iscrizione universitaria studenti interessati ad un solo gruppo disciplinare’ studenti indecisi tra almeno 2 gruppi disciplinari 46
La nuova variabile: sintassi e frequenza Tipologia studenti in base al numero di gruppi disciplinari indicati Percentuale Percentuale Frequenza Percentuale valida cumulata Validi non interessati ad alcun 403 36,1 36,1 36,1 gruppo disciplinare interessati ad un solo 168 15,1 15,1 51,2 gruppo disciplinare indecisi fra almeno 2 544 48,8 48,8 100,0 gruppi disciplinari Totale 1115 100,0 100,0 RECODE Countd7 (0=0) (1=1) (ELSE=2) INTO Countd7_rec . VARIABLE LABELS Countd7_rec 'Tipologia studenti in base al numero di gruppi disciplinari indicati'. EXECUTE . val lab Countd7_rec 0 ' non interessati ad alcun gruppo disciplinare' 1 'interessati ad un solo gruppo disciplinare' 2 'indecisi fra almeno 2 gruppi disciplinari' . L’istruzione COMPUTE: operazioni matematiche con le variabili L’età in anni degli studenti non è disponibile nel data set, ma può essere ricavata da una semplice operazione (anno di rilevazione-anno di nascita) Possiamo calcolare la predisposizione media degli studenti rispetto a tutte le materie insegnate a scuola Possiamo costruire una nuova variabile combinando ( attraverso operatori logici) tra loro 2 o più variabili ( di qualsiasi scala) ….e via di seguito. Con l’istruzione Compute si possono effettuare tutte le operazioni matematiche anche le più complesse (ovviamente le variabili devono essere cardinali o quasi cardinali!) 47
Puoi anche leggere