Franca Agnoli, Patrizio Tressoldi
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
17 - ETÀ EVOLUTIVA Franca Agnoli, Patrizio Tressoldi Dipartimento di Psicologia dello Sviluppo e della Socializzazione - Università di Padova Dipartimento di Psicologia Generale - Università di Padova Riportare i risultati delle ricerche sperimentali: come integrare le informazioni fornite dai test statistici aggiungere titolo abstract The purpose of this work is to alert the child exper- dance with the recommendations of the fifth edition of imental psychology research community in Italy that re- the APA Manual (2001), we indicate how a) the pres- porting the results of Null Hypothesis Significance entation of confidence intervals and b) various indices Testing is insufficient evidence for conclusions about the of Effect Size address the problems indicated above. Fi- experimental effects under study. First, we show some nally, we discuss what “statistical significance“ means common biases of researchers related to the interpreta- and compare it to the meaning of practical and/or clin- tion of Type 1 errors. Second, we identify some misun- ical significance. derstandings in the conclusions that researchers com- monly draw from insufficient information. In accor- Fraintendimenti ed errori importanti della ricerca vengano 15.2, p < 0.00]. L’effetto Sesso nella presentazione dei ri- evidenziati e senza che i dati non è risultato significativo [F sultati vengano impiegati per fornire (1, 54) = 0.23, p > 0.05] indi- una base logica alle conclusioni cando che maschi e femmine Nella presentazione dei risul- da trarre. non sono influenzati in modo tati delle ricerche sperimentali Nella scheda 1 sono rappre- diverso dal trattamento. Anche si verificano comunemente al- sentati alcuni errori di una pre- il fattore Età Sesso risulta si- cuni fraintendimenti ed errori sentazione tipica dei risultati. gnificativo [F (2, 54) = 9.00, p che vanno seriamente a com- Gli errori indicati sono di ca- < 0.01]». promettere l’interpretazione e rattere stilistico, metodolo- Non presentare subito la de- la lettura della ricerca presa in gico/statistico e logico. scrizione dei dati in Tavole e/o analisi. Supponiamo che un ricerca- Figure, ma bensì i risultati delle Scopo del presente lavoro è il- tore di psicologia dello sviluppo analisi statistiche senza ricordare lustrare questi errori e, al con- inizi la sezione dei risultati di al lettore che cosa si sta stu- tempo, offrire una serie di sug- uno studio sperimentale nel diando,non facilita la compren- gerimenti per migliorare questa modo seguente:«È stata eseguita sione di quali questioni teoriche pratica molto diffusa ma poco un’Analisi dellaVarianza sui dati sono affrontate nell’analisi dei appropriata. di un disegno misto: 3 2 5 dati. Nella sezione dei risultati è La sezione riguardante la pre- con i fattori Età (3 livelli) e Sesso quindi opportuno riprendere il sentazione dei risultati molto (2 livelli) come variabili tra sog- quesito teorico e specificare che spesso non è altro che un elenco getti e trattamento (5 livelli) cosa è stato misurato per ri- di analisi statistiche condotte come variabile ripetuta. L’ef- spondere alla domanda teorica. senza che i dati vengano de- fetto dell’età è risultato alta- Il ricercatore lavora come un scritti, senza che gli aspetti più mente significativo [F (2, 54) = detective; se non presenta i dati
ETÀ EVOLUTIVA - 18 Nucleo monotematico Scheda 1 - Un modo frequente di presentare i risultati di una ricerca con alcuni errori di interpretazione dei dati. A 3 2 5 mixed design Analysis 1) Il disegno deve essere specificato nella sezione relativa al me- of Variance was performed with Age todo. and Sex as between subject variables and treatment as a within subject 2) Non vengono presentate le statistiche descrittive (in Tavole variable. e/o Figure). 3) I risultati non possono essere altamente significativi. The effect of age was highly signi- ficant [F (2, 54] = 15.2, p < 0.00]. 4) Non è possibile che p < 0. The effect of sex was not significant [F (1,54) = 0.23, p > 0.05] indicating that boys and girls were not affected 5) Non si può accettare l’ipotesi nulla. differently by the treatment. The age by sex interaction was also sig- La statistica inferenziale non indica né la direzione né l’am- piezza dell’effetto. nificant [F (2, 54) = 9.00, p < 0.01]. descrittivi,il lettore non riesce a guardante i risultati viene,invece, mente adottato nei libri di testo, ricostruire la trama della storia. presentata in modo simile a all’interno degli insegnamenti Le statistiche inferenziali (t, F, quello che abbiamo raffigurato universitari (negli Stati Uniti e ecc.) non si adattano per nulla al nella scheda 1. poi in Europa), e le riviste lo linguaggio narrativo della storia considerarono il metodo per te- ed è per questa ragione che è stare le ipotesi. Per almeno 60 meglio iniziare la sezione dei ri- La Verifica di Ipotesi Nulla: anni quindi il Null Hypothesis sultati con la descrizione dei dati. limiti e controversie Significance Testing (NHST) è Abelson, in un testo intitolato stato parte integrante e fonda- Statistics as principled argument I motivi che hanno condotto mentale della r icerca nelle (1995), suggerisce di sviluppare all’impoverimento e all’auto- scienze del comportamento e la storia secondo 5 criteri: 1) la matizzazione nella presentazione dell’educazione ma, da almeno grandezza dell’effetto,2) il grado dei risultati hanno un’origine 60 anni, è oggetto di contro- in cui si riesce ad articolare i storica. versie. dati, 3) la generalizzazione del- Il metodo comunemente ac- L’affermazione del NHST ha l’effetto, 4) il grado di interesse cettato di analisi statistica nelle sicuramente portato notevoli della storia e 5) il livello di cre- ricerche sperimentali è chia- vantaggi, come la velocissima dibilità. Il compito del ricerca- mato la Verifica di Ipotesi Nulla crescita delle scienze del com- tore consiste nel risolvere un (in inglese si usa l’acronimo portamento a partire dal 1945 e caso interessante:il pattern unico NHST che sta ad indicare Null l’utilizzo di un linguaggio co- dei risultati della nostra ricerca; Hypothesis Significance Testing). mune con un consequenziale al contempo, bisogna escludere Quella che Murray e Dosser avvicinamento a quelli che sono le alternative e mettere in diffi- (1987) chiamarono «the infe- i canoni delle scienze naturali. coltà gli scettici che mettono in rence revolution» in psicologia Come ogni metodo che però discussione i dati raccolti. avvenne tra il 1940 e il 1960, e viene elevato a dogma, l’utilizzo Nella maggior parte delle ri- «the Intro Stats Method» (Dixon del NHST ha subito dei costi cerche pubblicate la sezione ri- e O’Reilly, 1999) venne larga- elevatissimi, e, come hanno ben
Nucleo monotematico 19 - ETÀ EVOLUTIVA Tab. 1 - Interpretazioni solitamente date da 70 ricercatori a p < .01. Affermazione Frequenze % 1) H0 è assolutamente confutata. 1 1.4 2) È stata trovata la probabilità di H0. 32 45.7 3) H1 è assolutamente dimostrata. 2 2.9 4) Si può dedurre la probabilità di H1. 30 42.9 5) Si conosce la probabilità che la decisione presa sia errata. 48 68.6 6) Una replica ha una probabilità di .99 di essere significativa. 24 34.3 7) Si conosce la probabilità che i dati provengano da popolazioni in cui è vera l’ipotesi nulla. 8 11.3 dimostrato Anderson, Burnham della replicabilità (Gigerenzer, p (cioè 1 – p) indica la probabi- e Thompson (2000), soprattutto 1993;Oakes,1986),ma un basso lità di ottenere gli stessi risultati a partire dagli anni ’70,il numero valore di p non implica neces- nella replica dell’esperimento di articoli che mettono in di- sariamente che siamo di fronte (affermazione numero 6). scussione l’utilità dei test è sa- a un risultato importante. Non è difficile trovare errori lito in maniera esponenziale. Ci si può chiedere se i ricer- simili a quelli riportati nella ta- L’applicazione dogmatica del catori sono immuni da errori bella 1 anche nelle pubblica- NHST ha avuto non poche nell’interpretazione del valore p. zioni. Kirk (1996) afferma che conseguenze in psicologia tra In tabella 1 sono riportati i ri- «[…] il cambiamento potrà av- cui la persistente confusione nel- sultati di una ricerca nella quale venire negli anni futuri se ver- l’interpretazione dei risultati da è stato chiesto a 70 ricercatori ranno rettificate le istruzioni parte di studenti, autori di libri universitari di psicologia quale date agli autori degli articoli di testo e ricercatori (Finch, interpretazione essi adottano ge- scientifici nell’ambito della Cumming e Thomason, 2001). neralmente per dare significato psicologia e dell’educazione. Tra i motivi principali di con- a p < .01. Gli interrogati pote- Questa svolta causerà una rea- fusione vi sono l’errata inter- vano dare più di una risposta. zione a catena: i docenti di sta- pretazione del valore p e l’iden- Delle sette affermazioni riportate tistica muteranno i programmi tificazione del livello alpha di nella tabella, solo l’ultima è cor- dei loro corsi, gli autori dei libri .05 come criterio dicotomico di retta, ed è stata indicata appena di testo pubblicheranno delle demarcazione per la valutazione da 8 intervistati su 70 (11%). revisioni e gli autori di articoli della significatività o meno dei Circa il 50% di essi sostiene le pubblicati nelle riviste scienti- risultati (Abelson, 1997; Kline, affermazioni 2 e 4 riportate nella fiche modificheranno le loro 2004). tabella 1: i valori p indichereb- strategie inferenziali». Valori bassi di p sono erro- bero la probabilità condizionata neamente interpretati come de- dell’ipotesi nulla oppure dell’i- terminanti l’improbabilità del- potesi alternativa. La maggio- La dimensione dell’effetto e l’ipotesi nulla (Falk e Green- ranza degli intervistati ha soste- gli intervalli di fiducia: una baum, 1995) e, inoltre, si consi- nuto (erroneamente) che i valori svolta possibile dera spesso il valore p come una p sono probabilità a posteriori sorta di indicatore inverso della dell’Errore di I tipo (afferma- Nel 1996 la sempre maggiore dimensione dell’effetto, del- zione numero 5);inoltre,circa un messa in discussione del NHST l’importanza di un risultato terzo degli intervistati sostiene e le consolidate e diffuse diffi- (Thompson e Snyder, 1998) e che il complemento del valore coltà relative alla presentazione
ETÀ EVOLUTIVA - 20 Nucleo monotematico dei risultati portano il Board of 5) Specificare gli Intervalli di dezza di p sia un indice nume- Scientific Affairs of the American Fiducia per gli indici della di- rico dell’ampiezza di un certo Psychological Association (APA) a mensione dell’effetto; effetto. Una prima conseguenza convocare la Task Force sull’In- 6) Dimostrare che i dati so- è usare frasi come “il risultato è ferenza Statistica (TFSI) per fare stengono effettivamente le ipo- altamente significativo” oppure chiarezza su alcune questioni tesi statistiche. “è estremamente significativo” controverse inerenti all’applica- Con l’ultima edizione del Ma- (si veda scheda 1); una seconda zione della statistica,questioni di nuale APA (2001), quelli che conseguenza riguarda la non cui fanno parte anche la signi- nel 1996 erano soltanto degli comprensione dell’arbitrarietà ficatività statistica e le sue pos- incoraggiamenti diventano linee della scelta di p < .05 (con frasi sibili alternative. guida ufficiali alla luce di que- del tipo “i risultati si avvicinano In quell’occasione viene en- stioni che non possono più es- alla significatività”); una terza fatizzato che il valore p non è un sere ignorate, quali, appunto, conseguenza è confrontare ri- indice adeguato della dimen- l’importanza pratica e “reale” sultati di ricerche diverse sulla sione dell’effetto: per questa ra- dei risultati, la replicabilità e la base dei livelli di probabilità. gione è emersa l’importanza di meta-analisi. Nell’ultima edi- I risultati dei test statistici e i riportare sempre una qualche zione del Manuale APA viene rispettivi valori p dipendono en- misura della dimensione del- ufficialmente sancito che «... af- trambi dalla dimensione del l’effetto (effect size, ES) e di in- finché il lettore possa com- campione e dall’effect size, così dicare gli Intervalli di Fiducia at- prendere completamente l’im- che un effetto non molto ampio torno alle medie. Inoltre viene portanza dei risultati ottenuti può risultare statisticamente si- discusso il ruolo dei test statistici in una ricerca, risulta necessario gnificativo in un campione suf- tradizionali per cercare di dare riportare sempre una qualche ficientemente grande.Se il cam- una svolta al dibattito relativo al- misura indicante la dimensione pione è sufficientemente ampio, l’efficacia del loro utilizzo. dell’effetto o la consistenza della bassi valori di p semplicemente Le indicazioni emerse pos- relazione tra le variabili» e che confermano che il campione sono essere riassunte nel se- riportare sempre le misure degli era ampio; questa però è una guente modo (vedi l’articolo di indici di dimensione dell’effetto tautologia (Thompson, 1992). Wilkinson e della Task Force on accanto al valore di p «aiuta, Quest’ultimo caso può essere Statistical Inference, 1999): grazie ad una rapida osserva- illustrato dall’analisi dei dati pre- 1) Usare il numero minimo zione, a collocare l’effetto spe- sentata in tabella 2 (Keppel,Sau- di analisi necessarie; rimentale in un contesto teorico fley e Tokunaga, 2001). 2) Non riportare i risultati e pratico... Dobbiamo insistere Nella parte superiore sono ri- delle analisi effettuate mediante ancora sul fatto che riportare e portati i risultati di un esperi- software statistici senza cono- interpretare le misure degli in- mento in cui 5 bambini ven- scere il loro significato; dici di dimensione dell’effetto, gono casualmente assegnati a 3) Documentare le ipotesi re- anche nel contesto di studi pre- ciascuna delle tre condizioni lative alla popolazione o alla sentati in passato, è essenziale (lode,critica,oppure condizione stima della potenza statistica per una buona ricerca» (Ma- di controllo). È stata effettuata dello studio. Usare gli Intervalli nuale APA, 2001; per la con- un’Analisi della Varianza ad un di Fiducia per definire i risultati troversia suscitata da queste rac- fattore con F ottenuto = 4.22 ottenuti; comandazioni si veda Fidler, (con 2 e 12 gradi di libertà, p < 4) Riportare sempre le stati- 2002). .05). Nella parte inferiore della stiche descrittive per permet- L’errore che spesso si vede nei tabella 2 il numero dei parteci- tere repliche dello studio e fa- resoconti dei risultati è proprio panti assegnato a ciascuna delle cilitarne la meta-analisi; quello di assumere che la gran- tre diverse condizioni è stato
Nucleo monotematico 21 - ETÀ EVOLUTIVA Tab. 2 - Effetto del raddoppio di N. Condizioni Lode Critica Controllo Dati grezzi 7 9 2 8 4 7 6 6 5 10 9 3 7 8 5 Media 7.6 7.2 4.4 ANOVA SS df MS F A 30.4 2 15.2 4.22∗ S/A 43.2 12 3.6 Totale 73.6 14 Condizioni Lode Critica Controllo Dati grezzi 7 7 9 9 2 2 8 8 4 4 7 7 6 6 6 6 5 5 10 10 9 9 3 3 7 7 8 8 5 5 Media 7.6 7.2 4.4 ANOVA SS df MS F A 60.8 2 30.4 9.5∗ S/A 86.4 27 3.2 Totale 147.2 29 raddoppiato. Le medie sono vece, un indice non influenzato fine creiamo due gruppi,A e B, equivalenti,ma questa volta F ot- direttamente dal numero di sog- formati ciascuno da 50 indi- tenuto (con 2 e 27 gradi di li- getti appartenenti alle condi- vidui. bertà) è uguale a 9.5 (p < .01). zioni sperimentali (vedi l’e- Il gruppo A viene addestrato Da questo semplice esempio si sempio in tabella 2), e quindi ad imparare a memoria del ma- può osservare come la grandezza non può coincidere né col va- teriale con il metodo che stiamo dell’indice F è tanto maggiore lore F, né con la probabilità as- studiando, mentre al gruppo B quanto maggiore è la dimen- sociata al valore ottenuto (il va- non viene insegnato nessun me- sione del campione.Confrontare lore p). todo particolare. Si procede con i risultati sulla base dei livelli di Introduciamo brevemente il la raccolta dei dati e con la ve- probabilità rappresenta un uso significato degli indici di di- rifica statistica delle ipotesi, dal- non appropriato del test delle mensione dell’effetto. Suppo- la quale si ottengono indica- ipotesi. niamo ad esempio di voler stu- zioni sulla probabilità che i no- La stima della dimensione del- diare l’efficacia di una certa stra- stri dati siano conformi all’ipo- l’effetto sperimentale (ES) è,in- tegia di memorizzazione; a tal tesi nulla.
ETÀ EVOLUTIVA - 22 Nucleo monotematico Tab. 3 - Differenze di medie standardizzate per due diversi gruppi di contrasti (Kline, 2004). Studio M1 – M2 stimato d Differenza tra le medie diversa, uguale dimensione dell’effetto 1 75.00 100.00 .75 2 11.25 15 .75 Differenza tra le medie uguale, diversa dimensione dell’effetto 3 75.00 500.00 .15 4 75.00 50.00 1.50 Dopo aver effettuato l’analisi e più utilizzata di effect size (per principio può accadere che d dei dati la domanda che è ne- una maggiore trattazione si veda assuma anche valori molto alti, cessario porsi è: quanto è stato Fern e Monroe, 1996). e dire che d = 4.00 significa che efficace il trattamento al quale L’indice d di Cohen è una dif- tra le medie c’è una differenza sono stati sottoposti i soggetti? ferenza media standardizzata e la di quattro deviazioni standard! Per rispondere a ciò si calcola la sua applicazione è relativa alle si- Ad ogni modo è relativamente misura dell’indice di dimensione tuazioni in cui il fine di una ri- difficile trovare differenze così dell’effetto più appropriata alla si- cerca è comparare le perfor- ampie all’interno delle scienze tuazione sperimentale.L’effect size mance di due gruppi (ad e- del comportamento (Sedlmeier quindi ci fornisce proprio la mi- sempio il gruppo di trattamento e Gigerenzer,1989;Kline,2004). sura di quanto è ampio il cam- vs il gruppo di controllo, uo- La tabella 3 rappresenta i ri- biamento che si è prodotto nel mini vs donne) sulla base di va- sultati di quattro studi ipotetici gruppo di soggetti sottoposti al- riabili di tipo continuo. che mettono in evidenza come l’esperimento,cambiamento che Viene definito come la diffe- il soffermarsi semplicemente è in gran parte dovuto al tratta- renza tra le medie di due gruppi sulla differenza tra le medie di mento sperimentale. divisa dalla deviazione standard due gruppi sia molto spesso È importante che i ricercatori stimata della popolazione di cia- fuorviante e non indicativo di un riportino sempre almeno un in- scun gruppo (assunta essere la effetto sperimentale realmente dice della dimensione dell’ef- medesima): solido e cospicuo. Nella parte fetto ottenuto nei propri espe- superiore della tabella viene mo- rimenti perché solo in questo M1 − M 2 strato come una misura della di- modo è possibile confrontare d= mensione dell’effetto ampia poi i risultati di due o più distinte stimato possa sussistere sia con una dif- ricerche in maniera diretta. ferenza tra le medie elevata che Ad ogni modo non è questa L’interpretazione di d è sem- con una differenza tra le medie la sede appropriata per discu- plice: se, per esempio, d = .50, molto più ridotta; nella parte tere le molteplici tipologie di allora M1 è mezza deviazione inferiore, invece, ad un identico indici di dimensione dell’effetto standard più grande di M2. Il valore della differenza tra le che esistono nella letteratura, segno di d è arbitrario ma bi- medie, che potrebbe far sup- ma, a scopo prettamente esem- sogna sempre spiegare come è porre un’equivalenza tra i due plificativo, riportiamo l’indice d stato derivato, in quanto non studi, corrispondono misure di Cohen (1988) il quale rap- esistono simbologie universali della dimensione dell’effetto presenta la forma più semplice che lo definiscano. In linea di molto diverse.
Nucleo monotematico 23 - ETÀ EVOLUTIVA È per questo motivo che la dalità di presentazione dei ri- di ritenzione gli intervalli di fi- sola differenza tra le medie di sultati per questo tipo di espe- ducia attorno alle medie non si due gruppi non è sintomatica rimento è la seguente: viene il- sovrappongono. Gli effetti sono della presenza di un effetto spe- lustrata una tabella con le medie chiaramente significativi (non c’è rimentale elevato neppure se che corrispondono alle 8 con- bisogno di presentare altre stati- ampia e tanto più se confrontata dizioni sperimentali (2 tipi di stiche t, F, ecc.). fra studi diversi. stimolo e 4 intervalli di riten- Si ipotizzi, invece, che ci sia Una posizione ancora più zione). Poi vengono riassunte ampia variabilità attorno alle estrema (Loftus, 1993; 2002; all’interno del testo le statistiche medie come illustrato dalla fi- Masson e Loftus, 2003) sugge- inferenziali e con molta enfasi si gura 3 (riprodotta come Figura risce:a) di presentare i dati in una riportano i valori p (dando 1c in Loftus e Masson, 1994). In figura in cui vengono illustrate quindi importanza all’errore di questo caso si può osservare che le medie del campione con gli primo tipo). gli intervalli di fiducia attorno appropriati intervalli di fiducia Nel caso in cui si preferisca alle medie si sovrappongono: gli attorno alle medie e b) di non presentare le medie con una fi- effetti sono chiaramente non si- includere un’analisi statistica re- gura non viene solitamente rap- gnificativi dato che la variabilità lativa alla verifica di ipotesi che presentata nessuna misura di va- attorno alle medie è molto ele- sia ridondante rispetto alle infor- riabilità (si veda la figura 1, ri- vata. mazioni già presenti nelle fi- prodotta come Figura 1a da Si possono individuare tre ra- gure. Loftus e Masson, 1994). gioni per seguire le precedenti Per illustrare l’importanza del- Che cosa c’è di errato in questa indicazioni: 1) la presentazione l’uso degli intervalli di fiducia presentazione dei r isultati? grafica delle medie dei cam- Loftus e Masson (1994) ripor- Questo modo di presentare i dati pioni fornisce delle intuizioni tano i dati di uno studio ipote- non fornisce nessuna informa- relative agli andamenti dei dati; tico sulle prestazioni di memoria zione sulla precisione delle medie. 2) con gli intervalli di fiducia si di figure o parole. In questo Si supponga che ci sia poca va- hanno maggiori informazioni studio gli intervalli di ritenzione riabilità attorno alle medie (si riguardo alla posizione delle variano da 0 a 14 giorni dal mo- veda fig. 2, riprodotta come Fi- medie della popolazione; 3) gli mento della presentazione degli gura 1b in Loftus e Masson intervalli di fiducia rispondono stimoli. Normalmente la mo- 1994): in tutti e quattro i livelli a considerazioni sulla potenza Fig. 1 - Rappresentazione dell’andamento delle medie senza Intervalli di Fiducia attorno alle medie. 0.8 0.6 Performance 0.4 0.2 0 0 5 10 15 Intervallo di ritenzione (giorni)
ETÀ EVOLUTIVA - 24 Nucleo monotematico Fig. 2 - Rappresentazione delle medie con i relativi Intervalli di Fiducia che indicano una bassa variabilità attorno alla medie. 0.8 0.6 Performance 0.4 0.2 0 0 5 10 15 Intervallo di ritenzione (giorni) Fig. 3 - Rappresentazione delle medie con i relativi Intervalli di Fiducia che indicano una altissima variabilità attorno alle medie. 0.8 0.6 Performance 0.4 0.2 0 0 5 10 15 Intervallo di ritenzione (giorni) del test statistico e sull’adegua- In questa tabella vengono ri- attorno alle differenze permet- tezza dell’ampiezza del cam- portati i dati di uno studio (Olds, tono di avere una misura della pione usato nell’esperimento. Henderson e Tatelbaum, 1994) stima della differenza nella po- Nella tabella 4 viene indicato che confronta il quoziente in- polazione: possiamo concludere un esempio su come riportare tellettivo a 48 mesi ed il peso alla che la differenza di peso alla na- gli intervalli di fiducia nel caso nascita dei rispettivi figli di madri scita potrebbe essere di soli 167.1 in cui la presentazione dei dati fumatrici e di madri non fuma- grammi oppure di 594.9 gram- sia fatta tramite tabella piuttosto trici.Al di là delle differenze tra mi.In ogni caso si può affermare che figura. le medie, gli intervalli di fiducia che madri fumatrici avranno
Nucleo monotematico 25 - ETÀ EVOLUTIVA Tab. 4 - Modo corretto di presentare gli Intervalli di Fiducia avvalendosi dell’uso di tabelle. Medie 0 Sigarette 10+ Sigarette Differenza (95% IF) Livello di istruzione della madre (in anni di scolarità) 11.57 10.89 .67 (0.15, 1.19) Peso alla nascita 3416 3035 381.0 (167.1, 594.9) Stanford – Binet (QI) 48 mesi 113.28 103.12 10.16 (5.04, 15.30) bambini con un peso inferiore Come abbiamo avuto modo dobbiamo dimenticare che le alla nascita rispetto a madri non di vedere, gli indici di dimen- linee guida interpretative for- fumatrici. sione dell’effetto possiedono nite da Cohen (1988) per de- molte proprietà positive: hanno scrivere qualitativamente la delle convenzioni che consen- grandezza e la portata della di- Significatività pratica e im- tono di definire la loro ampiezza, mensione di un effetto non portanza reale di un effetto possono essere usati per com- hanno una base empirica e non parare quantitativamente i ri- devono quindi essere applicate Nell’ultima parte di questo sultati di due o più ricerche, e rigidamente né, tanto meno, articolo affronteremo il pro- sono utili nell’analisi della po- condurre ad erronei automa- blema dell’importanza reale dei tenza per indirizzare la deci- tismi di ragionamento che sta- risultati statistici. La significati- sione su quanti soggetti sono biliscano una sorta di relazione vità pratica di un risultato è necessari in una determinata ri- bidirezionale tra grandezza di sempre funzione di un’accurata cerca. In sintesi, gli indici di di- un effetto ed importanza dello analisi statistica ma anche di va- mensione dell’effetto sono una stesso.Inoltre non possiamo per- riabili che attengono alla sfera misura quantitativa semplice e di dere di vista il contesto all’in- sociale e di giudizio soggettivo facile comprensione,misura che terno del quale una ricerca viene dalle quali nessun risultato fornsce indicazioni utili sulla condotta in quanto la dimen- scientifico può sottrarsi (Kirk, reale importanza di un effetto sione di un effetto e la sua por- 2001). sperimentale (Prentice e Miller, tata a livello teorico e pratico si Ma la grandezza di un indice 1992); gli indici di dimensione riconducono alla specifica di- di dimensione dell’effetto è dell’effetto dovrebbero essere sciplina di appartenenza (Lenth, sempre proporzionale alla sua sempre riportati sia per risultati 2001). importanza? La risposta a questa significativi che no (Rosnow e Supponiamo che sia stata domanda potrebbe sembrare in- Rosenthal, 1989; Thompson, compiuta una ricerca dalla quale tuitivamente ovvia, ma non è 2000). è emerso che la differenza media così, in quanto una misura di Tuttavia, se ci fermassimo a di altezza fra uomini e donne è dimensione dell’effetto ampia questo punto,cioè applicando gli circa pari a due deviazioni stan- non garantisce necessariamente indici di dimensione dell’effetto dard (d = 2); una differenza così il fatto che siamo di fronte ad un in maniera acritica, commette- ampia ha anche un’importanza risultato importante a livello remmo lo stesso tipo di errore pratica altrettanto elevata? La ri- pratico; del resto è anche vero che molti autori imputano alla sposta, chiaramente, dipende dal che un effetto di modesta gran- pratica del Null Hypothesis Si- contesto di ricerca.In termini di dezza può non essere di scarsa gnificance Testing (NHST ), cioè indagine psicologica una tale importanza (Kline, 2004). di farne un uso ritualistico. Non differenza di genere in altezza è
ETÀ EVOLUTIVA - 26 Nucleo monotematico probabilmente irrilevante, ma, della varianza totale ma questo terrogativi basilari (Kirk, 2001): nel contesto della sicurezza au- risultato diventa molto impor- a) un certo effetto è presente o tomobilistica, invece, potrebbe tante nel momento in cui si- dovrebbe essere attribuito al essere cruciale. gnifica,sul piano reale,salvare un caso? b) se l’effetto è presente, Kline (2004) riporta una que- numero cospicuo di vite. quanto ampio è?; c) l’effetto è stione che era sorta alla fine degli In psicologia il concetto di ampio abbastanza da essere con- anni ’90 sulla strutturazione del- importanza di un effetto si snoda siderato importante? l’air bag anteriore all’interno lungo due strategie di defini- Per rispondere a queste do- delle autovetture: il problema zione diverse spesso in disac- mande gli indici di dimensione riguardava il fatto che, in caso di cordo: l’una statistica e l’altra dell’effetto sono sicuramente la incidente, la forza con cui l’air metodologica.L’approccio stati- componente fondamentale per bag si gonfiava avrebbe potuto stico è molto più adeguato in determinare quanto un effetto ferire, o addirittura soffocare, aree della psicologia in cui l’o- è significativo, importante, sul una persona di bassa statura,cioè perazionalizzazione della varia- piano pratico. Per fare ciò non comportava un grosso rischio bile indipendente e la scelta della possiamo trascurare il fatto che specialmente per le donne. Per variabile dipendente possono es- l’importanza pratica di un effetto le automobili, invece, dotate di sere chiaramente definite dal pro- viene stabilita dallo specifico un sistema “intelligente” di blema stesso, e quindi gli indici contesto di ricerca in cui è ap- scoppio dell’air bag che si re- di dimensione dell’effetto sono plicato e che il concetto di si- golava automaticamente a se- una misura completamente ap- gnificatività pratica dipende co- conda dell’altezza del guidatore, propriata nella definizione di im- munque dal tessuto sociale, da un’ampia differenza di altezza portanza, consentendo, inoltre, considerazioni personali e dal tra uomini e donne sarebbe ri- un’accurata meta-analisi. calcolo dei costi e dei benefici sultata,ovviamente,molto meno L’approccio metodologico (Kirk, 1996). importante. coinvolge invece aree di ricerca Sfortunatamente non esistono La stessa logica sottende il fatto in cui i disegni sperimentali sono analisi statistiche in grado di mi- che effetti ritenuti di piccole di- molto più complessi, e le varia- surare direttamente la significa- mensioni siano invece, sul piano bili in questione sono difficili da tività pratica di un effetto; tut- pratico, importanti, e questo è controllare. Questo tipo di ri- tavia gli indici di dimensione proprio quello che hanno so- cerche, anche se gli indici di di- dell’effetto possono aiutare in stenuto Prentice e Miller (1992) mensione dell’effetto sono di ampia misura il ricercatore a de- argomentando che un effetto modeste dimensioni e condurre cidere se un risultato è signifi- piccolo può essere molto rile- una meta-analisi è difficoltoso, cativo e importante a livello pra- vante sul piano teorico e può di- riescono tuttavia a dimostrare tico (Kirk, 2001). ventare di ampie dimensioni nel effetti importanti,importanti nel Le persone che lavorano nel corso del tempo; inoltre, in certi senso di influenti nel vivere quo- campo della ricerca o della re- contesti come le scelte di poli- tidiano. lativa applicazione pratica de- tica sanitaria, decisioni impor- Queste considerazioni ci con- vono sempre tener conto dei tanti vengono prese sulla base di ducono verso il problema di fattori contestuali relativi sia al effetti che sono quantitativa- come non ci sia accordo nel de- momento dell’esecuzione del- mente insignificanti (Gage, finire cosa rende un effetto real- l’esperimento (o quasi-esperi- 1978), fatto non poco comune mente importante e quali sono mento, o analisi di un caso, …) in ambito medico. Pensiamo ad i criteri, gli standard per arrivare che alla fase applicativa. esempio al ruolo dell’aspirina alla definizione di ciò. Vero è «Non esistono semplici con- nel prevenire l’infarto; il suo ef- che i ricercatori non possono venzioni per determinare l’im- fetto spiega soltanto circa il 2% esimersi dal rispondere a tre in- portanza pratica. Come per i
Nucleo monotematico 27 - ETÀ EVOLUTIVA bambini, vale anche per gli in- dei criteri oggettivi, dei rituali probabilità che abbiamo di ot- dici di dimensione dell’effetto la (Gigerenzer, 1998). In questo tenere un certo effetto se l’ipo- regola che per capirli bene è caso interviene il giudizio per- tesi nulla è vera ma non ci dice meglio studiarli sempre in rife- sonale che, come afferma Kirk quanto un effetto è ampio, im- rimento al loro contesto» (Mc- (1996): portante o utile (Kirk, 2001); Cartney e Rosenthal, 2000). «[...] inevitabilmente implica «the statistical significance test Gigerenzer (1998) afferma che una varietà di considerazioni, does not tell us what we want è importante che chi lavora nel incluso il sistema di valori del ri- to know, and we so much want campo psicologico conosca i di- cercatore, considerazioni sulla to know what we want to know versi strumenti statistici a sua società,sul bilancio tra costi e be- that, out of desperation, we ne- disposizione, per poter così sce- nefici, eccetera. I ricercatori vertheless believe that it does» gliere quelli più adatti ad ogni hanno il compito di prendere (Cohen, 1994). situazione e, inoltre, secondo una complessa serie di decisioni È alla luce di queste conside- l’autore è necessario sviluppare nella progettazione e nell’ese- razioni che, di pari passo con il pensiero statistico (statistical cuzione di un esperimento ma l’esponenziale crescita delle pub- thinking),che è un pensiero crea- è curioso che, in nome dell’og- blicazioni che criticano l’uso in- tivo,artistico,«[...] è un’arte,non gettività, non spetti a loro deci- discriminato dei test statistici, una procedura meccanica». dere se i dati che hanno rac- gli indici di dimensione dell’ef- È chiaro che stiamo uscendo colto ed analizzato hanno vali- fetto hanno assunto un ruolo dal campo propriamente mate- dità pratica». sempre più preponderante come matico, ma ciò si rende neces- Questa ambiguità molto dif- misura in grado di definire sia la sario. Quando un ricercatore fusa (Dixon, 1998) è in realtà grandezza che l’importanza reale prende una decisione sull’im- estremamente fuorviante perché di un effetto (Cohen, 1988; portanza pratica dei suoi risul- un test di significatività dell’i- 1990; Kirk, 1996; 2001;Thom- tati non può utilizzare solamente potesi nulla ci dice soltanto la pson, 1996; 1999; 2002). Bibliografia ABELSON R.P. (1995), Statistics as Journal of Wildlife Management,64, Canadian Journal of Experimental principled argument,Erlbaum,Hills- 913-926. Psychology, 53, 133-149. dale. COHEN J. (1988), Statistical power FALK R.,GREENBAUM C.W.(1995), ABELSON R.P. (1997), «On the sur- analysis for the behavioural sciences «Significance tests die hard:The prising longevity of flogged (2nd ed.), Erlbaum, Hillsdale. amazing persistence of a proba- horses:Why there is a case for the COHEN J. (1990), «Things I have bilistic misconception», Theory significance test»,Psychological Sci- learned (so far)», American Psy- & Psychology, 5, 75-98. ence, 8, 12-15. chologist, 45, 1304-1312. FERN E.F., MONROE K.B. (1996), AMERICAN PSYCHOLOGICAL ASSO- COHEN J. (1994), «The earth is «Effect size estimates: Issues and CIATION (2001),Publication Manual round (p < .05)», American Psy- problems in interpretation», of the American Psychological Asso- chologist, 49, 997-1003. Journal of Consumer Research, 23, ciation (5th ed.),Washington. DIXON P. (1998), «Why scientists 89-105. ANDERSON D.R., BURNHAM K.P. value p values», Psychonomic Bul- FIDLER F. (2002), «The fifth edition THOMPSON W.L. (2000), «Null letin & Review, 5, 390-396. of the APA Publication Manual: hypothesis testing: Problems, DIXON P.,O’REILLY T.(1999),«Sci- Why its statistics recommenda- prevalence, and an alternative», entific versus statistical inference», tions are so controversial», Edu-
ETÀ EVOLUTIVA - 28 Nucleo monotematico cational and Psychological Measure- testing in the computer age», Be- ROSNOW R.L., ROSENTHAL R. ment, 62, 749-770. haviour Research Methods, Instru- (1989),«Statistical procedures and F I N C H S. , C U M M I N G G. , mentation and Computers,25,250- the justification of knowledge in T HOMASON N. (2001), «Re- 256. psychological science», American porting of statistical inference in LOFTUS G.R. (2002), «Analysis, in- Psychologist, 44, 1276-1284. the “Journal of Applied Psy- terpretation, and visual presenta- S EDLMEIER P., G IGERENZER G. chology”: Little evidence of re- tion of data». In Stevens’ hand- (1989), «Do studies of statistical form», Educational and Psycholog- book of experimental psychology, power have an effect on the ical Measurement, 61, 181-210. third edition,John Wiley and Sons, power of studies?», Psychological GAGE N.L.(1978),The scientific basis New York, vol. 4, 339-390. Bulletin, 105, 309-316. of the art of teaching,Teachers Col- L OFTUS G.R., M ASSON M.E.J. THOMPSON B. (1992), «Two and lege Press, New York. (1994), «Using confidence inter- one-half decades of leadership in G IGERENZER G. (1993), «The vals in within-subject designs», measurement and evaluation», superego, the ego and the id in Psychonomic Bulletin & Review, 1, Journal of Counseling and Devel- statistical reasoning».In G.Keren, 476-490. opment, 70, 438-438. C. Lewis (Eds.), A handbook for M ASSON M.E.J., L OFTUS G.R. THOMPSON B. (1996), «AERA ed- data analysis in the behavioural sci- (2003), «Using confidence for itorial policies regarding statis- ences: Methodological issues, Erl- graphically based data interpre- tical significance testing: Three baum, Hillsdale, 311-339. tation», Canadian Journal of Ex- suggested reforms», Educational GIGERENZER G. (1998), «We need perimental Psychology, 57, 203- Researcher, 25 (2), 26-30. statistical thinking, not statistical 220. THOMPSON B. (1999), «Journal ed- rituals», Behavioural and Brain Sci- MCCARTNEY K., ROSENTHAL R. itorial policies regarding Statistical ences, 21, 199-200. (2000), «Effect size, practical im- Significance Tests: Heat is to fire KEPPEL G., SAUFLEY W.H., TOKU- portance, and social policy for as p is to importance»,Educational NAGA H. (2001), Disegno speri- children», Child Development, 71, Psychology Review, 11, 157-169. mentale e analisi dei dati in psi- 173-180. THOMPSON B. (2000), «Reporting cologia, EdiSES S.r.l., Napoli. M U R R AY L.V., D O S S E R D.A. practices and APA editorial poli- KIRK R.E. (1996), «Practical sig- (1998), «How significant is a sig- cies regarding statistical signifi- nificance:A concept whose time nificant difference? Problems cance and effect size», Theory & has come», Educational and Psy- with the measurement of mag- Psychology, 10 (3), 413-425. chological Measurement, 56, 746- nitude of effect», Journal of Coun- THOMPSON B.(2002),« “Statistical”, 759. seling Psychology, 34, 68-72. “practical”, and “clinical”: How KIRK R.E. (2001), «Promotion of OAKES M.(1986),Statistical inference, many kinds of significance do good statistical practices: Some Wiley, New York. counsellors need to consider?», suggestions», Educational and Psy- O LDS D.L., H ENDERSON C.R., Journal of Counseling & Develop- chological Measurement, 61, 213- TATELBAUM R. (1994), «Intellec- ment, 80, 64-71. 218. tual impairment in children of T H O M P S O N B., S N Y D E R P.A. KLINE R.B. (2004), Beyond signifi- women who smoke cigarettes (1998), «Statistical significance cance testing.Reforming data analysis during pregnancy», Pediatrics, 93, and reliability analyses in recent methods in behavioural research, 221-227. Journal of Counseling & Develop- American Psychological Associ- P RENTICE D.A., M ILLER D.T. ment research articles», Journal of ation,Washington. (1992), «When small effects are Counseling & Development, 76, LENTH R.V.(2001),«Some practical impressive», Psychological Bulletin, 436-441. guidelines for effective sample 112, 160-164. WILKINSON L., TASK FORCE ON size determination»,American Sta- ROBINSON D.,LEVIN J.(1997),«Re- STATISTICAL INFERENCE (1999), tistician, 55, 187-193. flection on statistical and sub- «Statistical methods in psycho- LOFTUS G.R. (1993), «A picture is stantive significance, with a slice logical journals: Guidelines and worth a thousand p-values: On of replication», Educational Re- explanations», American Psycho- the irrelevance of hypothesis searcher, 26, 21-26. logist, 54, 594-604.
Puoi anche leggere