Franca Agnoli, Patrizio Tressoldi

Pagina creata da Paola Ruggeri
 
CONTINUA A LEGGERE
17 - ETÀ EVOLUTIVA

Franca Agnoli, Patrizio Tressoldi
Dipartimento di Psicologia dello Sviluppo e della Socializzazione - Università di Padova
Dipartimento di Psicologia Generale - Università di Padova

Riportare i risultati delle ricerche sperimentali: come
integrare le informazioni fornite dai test statistici
 aggiungere titolo abstract
  The purpose of this work is to alert the child exper-       dance with the recommendations of the fifth edition of
imental psychology research community in Italy that re-       the APA Manual (2001), we indicate how a) the pres-
porting the results of Null Hypothesis Significance           entation of confidence intervals and b) various indices
Testing is insufficient evidence for conclusions about the    of Effect Size address the problems indicated above. Fi-
experimental effects under study. First, we show some         nally, we discuss what “statistical significance“ means
common biases of researchers related to the interpreta-       and compare it to the meaning of practical and/or clin-
tion of Type 1 errors. Second, we identify some misun-        ical significance.
derstandings in the conclusions that researchers com-
monly draw from insufficient information. In accor-

Fraintendimenti ed errori                importanti della ricerca vengano        15.2, p < 0.00]. L’effetto Sesso
nella presentazione dei ri-              evidenziati e senza che i dati          non è risultato significativo [F
sultati                                  vengano impiegati per fornire           (1, 54) = 0.23, p > 0.05] indi-
                                         una base logica alle conclusioni        cando che maschi e femmine
   Nella presentazione dei risul-        da trarre.                              non sono influenzati in modo
tati delle ricerche sperimentali           Nella scheda 1 sono rappre-           diverso dal trattamento. Anche
si verificano comunemente al-            sentati alcuni errori di una pre-       il fattore Età  Sesso risulta si-
cuni fraintendimenti ed errori           sentazione tipica dei risultati.        gnificativo [F (2, 54) = 9.00, p
che vanno seriamente a com-              Gli errori indicati sono di ca-         < 0.01]».
promettere l’interpretazione e           rattere stilistico, metodolo-              Non presentare subito la de-
la lettura della ricerca presa in        gico/statistico e logico.               scrizione dei dati in Tavole e/o
analisi.                                   Supponiamo che un ricerca-            Figure, ma bensì i risultati delle
   Scopo del presente lavoro è il-       tore di psicologia dello sviluppo       analisi statistiche senza ricordare
lustrare questi errori e, al con-        inizi la sezione dei risultati di       al lettore che cosa si sta stu-
tempo, offrire una serie di sug-         uno studio sperimentale nel             diando,non facilita la compren-
gerimenti per migliorare questa          modo seguente:«È stata eseguita         sione di quali questioni teoriche
pratica molto diffusa ma poco            un’Analisi dellaVarianza sui dati       sono affrontate nell’analisi dei
appropriata.                             di un disegno misto: 3  2  5          dati. Nella sezione dei risultati è
   La sezione riguardante la pre-        con i fattori Età (3 livelli) e Sesso   quindi opportuno riprendere il
sentazione dei risultati molto           (2 livelli) come variabili tra sog-     quesito teorico e specificare che
spesso non è altro che un elenco         getti e trattamento (5 livelli)         cosa è stato misurato per ri-
di analisi statistiche condotte          come variabile ripetuta. L’ef-          spondere alla domanda teorica.
senza che i dati vengano de-             fetto dell’età è risultato alta-           Il ricercatore lavora come un
scritti, senza che gli aspetti più       mente significativo [F (2, 54) =        detective; se non presenta i dati
ETÀ EVOLUTIVA - 18                                                                                     Nucleo monotematico

Scheda 1 - Un modo frequente di presentare i risultati di una ricerca con alcuni errori di interpretazione dei dati.

  A 3  2  5 mixed design Analysis                      1) Il disegno deve essere specificato nella sezione relativa al me-
  of Variance was performed with Age                        todo.
  and Sex as between subject variables
  and treatment as a within subject                      2) Non vengono presentate le statistiche descrittive (in Tavole
  variable.                                                 e/o Figure).

                                                         3) I risultati non possono essere altamente significativi.
  The effect of age was highly signi-
  ficant [F (2, 54] = 15.2, p < 0.00].                   4) Non è possibile che p < 0.
  The effect of sex was not significant
  [F (1,54) = 0.23, p > 0.05] indicating
  that boys and girls were not affected                  5) Non si può accettare l’ipotesi nulla.
  differently by the treatment.

 The age by sex interaction was also sig-                  La statistica inferenziale non indica né la direzione né l’am-
                                                           piezza dell’effetto.
 nificant [F (2, 54) = 9.00, p < 0.01].

descrittivi,il lettore non riesce a         guardante i risultati viene,invece,      mente adottato nei libri di testo,
ricostruire la trama della storia.          presentata in modo simile a              all’interno degli insegnamenti
Le statistiche inferenziali (t, F,          quello che abbiamo raffigurato           universitari (negli Stati Uniti e
ecc.) non si adattano per nulla al          nella scheda 1.                          poi in Europa), e le riviste lo
linguaggio narrativo della storia                                                    considerarono il metodo per te-
ed è per questa ragione che è                                                        stare le ipotesi. Per almeno 60
meglio iniziare la sezione dei ri-          La Verifica di Ipotesi Nulla:            anni quindi il Null Hypothesis
sultati con la descrizione dei dati.        limiti e controversie                    Significance Testing (NHST) è
   Abelson, in un testo intitolato                                                   stato parte integrante e fonda-
Statistics as principled argument             I motivi che hanno condotto            mentale della r icerca nelle
(1995), suggerisce di sviluppare            all’impoverimento e all’auto-            scienze del comportamento e
la storia secondo 5 criteri: 1) la          matizzazione nella presentazione         dell’educazione ma, da almeno
grandezza dell’effetto,2) il grado          dei risultati hanno un’origine           60 anni, è oggetto di contro-
in cui si riesce ad articolare i            storica.                                 versie.
dati, 3) la generalizzazione del-             Il metodo comunemente ac-                 L’affermazione del NHST ha
l’effetto, 4) il grado di interesse         cettato di analisi statistica nelle      sicuramente portato notevoli
della storia e 5) il livello di cre-        ricerche sperimentali è chia-            vantaggi, come la velocissima
dibilità. Il compito del ricerca-           mato la Verifica di Ipotesi Nulla        crescita delle scienze del com-
tore consiste nel risolvere un              (in inglese si usa l’acronimo            portamento a partire dal 1945 e
caso interessante:il pattern unico          NHST che sta ad indicare Null            l’utilizzo di un linguaggio co-
dei risultati della nostra ricerca;         Hypothesis Significance Testing).        mune con un consequenziale
al contempo, bisogna escludere                Quella che Murray e Dosser             avvicinamento a quelli che sono
le alternative e mettere in diffi-          (1987) chiamarono «the infe-             i canoni delle scienze naturali.
coltà gli scettici che mettono in           rence revolution» in psicologia          Come ogni metodo che però
discussione i dati raccolti.                avvenne tra il 1940 e il 1960, e         viene elevato a dogma, l’utilizzo
   Nella maggior parte delle ri-            «the Intro Stats Method» (Dixon          del NHST ha subito dei costi
cerche pubblicate la sezione ri-            e O’Reilly, 1999) venne larga-           elevatissimi, e, come hanno ben
Nucleo monotematico                                                                    19 - ETÀ EVOLUTIVA

                      Tab. 1 - Interpretazioni solitamente date da 70 ricercatori a p < .01.
  Affermazione                                                                     Frequenze                 %

  1)   H0 è assolutamente confutata.                                                    1                   1.4
  2)   È stata trovata la probabilità di H0.                                           32                  45.7
  3)   H1 è assolutamente dimostrata.                                                   2                   2.9
  4)   Si può dedurre la probabilità di H1.                                            30                  42.9
  5)   Si conosce la probabilità che la decisione presa sia errata.                    48                  68.6
  6)   Una replica ha una probabilità di .99 di essere significativa.                  24                  34.3
  7)   Si conosce la probabilità che i dati provengano da popolazioni
       in cui è vera l’ipotesi nulla.                                                   8                  11.3

dimostrato Anderson, Burnham             della replicabilità (Gigerenzer,       p (cioè 1 – p) indica la probabi-
e Thompson (2000), soprattutto           1993;Oakes,1986),ma un basso           lità di ottenere gli stessi risultati
a partire dagli anni ’70,il numero       valore di p non implica neces-         nella replica dell’esperimento
di articoli che mettono in di-           sariamente che siamo di fronte         (affermazione numero 6).
scussione l’utilità dei test è sa-       a un risultato importante.                Non è difficile trovare errori
lito in maniera esponenziale.               Ci si può chiedere se i ricer-      simili a quelli riportati nella ta-
   L’applicazione dogmatica del          catori sono immuni da errori           bella 1 anche nelle pubblica-
NHST ha avuto non poche                  nell’interpretazione del valore p.     zioni. Kirk (1996) afferma che
conseguenze in psicologia tra               In tabella 1 sono riportati i ri-   «[…] il cambiamento potrà av-
cui la persistente confusione nel-       sultati di una ricerca nella quale     venire negli anni futuri se ver-
l’interpretazione dei risultati da       è stato chiesto a 70 ricercatori       ranno rettificate le istruzioni
parte di studenti, autori di libri       universitari di psicologia quale       date agli autori degli articoli
di testo e ricercatori (Finch,           interpretazione essi adottano ge-      scientifici nell’ambito della
Cumming e Thomason, 2001).               neralmente per dare significato        psicologia e dell’educazione.
   Tra i motivi principali di con-       a p < .01. Gli interrogati pote-       Questa svolta causerà una rea-
fusione vi sono l’errata inter-          vano dare più di una risposta.         zione a catena: i docenti di sta-
pretazione del valore p e l’iden-        Delle sette affermazioni riportate     tistica muteranno i programmi
tificazione del livello alpha di         nella tabella, solo l’ultima è cor-    dei loro corsi, gli autori dei libri
.05 come criterio dicotomico di          retta, ed è stata indicata appena      di testo pubblicheranno delle
demarcazione per la valutazione          da 8 intervistati su 70 (11%).         revisioni e gli autori di articoli
della significatività o meno dei            Circa il 50% di essi sostiene le    pubblicati nelle riviste scienti-
risultati (Abelson, 1997; Kline,         affermazioni 2 e 4 riportate nella     fiche modificheranno le loro
2004).                                   tabella 1: i valori p indichereb-      strategie inferenziali».
   Valori bassi di p sono erro-          bero la probabilità condizionata
neamente interpretati come de-           dell’ipotesi nulla oppure dell’i-
terminanti l’improbabilità del-          potesi alternativa. La maggio-         La dimensione dell’effetto e
l’ipotesi nulla (Falk e Green-           ranza degli intervistati ha soste-     gli intervalli di fiducia: una
baum, 1995) e, inoltre, si consi-        nuto (erroneamente) che i valori       svolta possibile
dera spesso il valore p come una         p sono probabilità a posteriori
sorta di indicatore inverso della        dell’Errore di I tipo (afferma-          Nel 1996 la sempre maggiore
dimensione dell’effetto, del-            zione numero 5);inoltre,circa un       messa in discussione del NHST
l’importanza di un risultato             terzo degli intervistati sostiene      e le consolidate e diffuse diffi-
(Thompson e Snyder, 1998) e              che il complemento del valore          coltà relative alla presentazione
ETÀ EVOLUTIVA - 20                                                                             Nucleo monotematico

dei risultati portano il Board of          5) Specificare gli Intervalli di    dezza di p sia un indice nume-
Scientific Affairs of the American      Fiducia per gli indici della di-       rico dell’ampiezza di un certo
Psychological Association (APA) a       mensione dell’effetto;                 effetto. Una prima conseguenza
convocare la Task Force sull’In-           6) Dimostrare che i dati so-        è usare frasi come “il risultato è
ferenza Statistica (TFSI) per fare      stengono effettivamente le ipo-        altamente significativo” oppure
chiarezza su alcune questioni           tesi statistiche.                      “è estremamente significativo”
controverse inerenti all’applica-          Con l’ultima edizione del Ma-       (si veda scheda 1); una seconda
zione della statistica,questioni di     nuale APA (2001), quelli che           conseguenza riguarda la non
cui fanno parte anche la signi-         nel 1996 erano soltanto degli          comprensione dell’arbitrarietà
ficatività statistica e le sue pos-     incoraggiamenti diventano linee        della scelta di p < .05 (con frasi
sibili alternative.                     guida ufficiali alla luce di que-      del tipo “i risultati si avvicinano
   In quell’occasione viene en-         stioni che non possono più es-         alla significatività”); una terza
fatizzato che il valore p non è un      sere ignorate, quali, appunto,         conseguenza è confrontare ri-
indice adeguato della dimen-            l’importanza pratica e “reale”         sultati di ricerche diverse sulla
sione dell’effetto: per questa ra-      dei risultati, la replicabilità e la   base dei livelli di probabilità.
gione è emersa l’importanza di          meta-analisi. Nell’ultima edi-            I risultati dei test statistici e i
riportare sempre una qualche            zione del Manuale APA viene            rispettivi valori p dipendono en-
misura della dimensione del-            ufficialmente sancito che «... af-     trambi dalla dimensione del
l’effetto (effect size, ES) e di in-    finché il lettore possa com-           campione e dall’effect size, così
dicare gli Intervalli di Fiducia at-    prendere completamente l’im-           che un effetto non molto ampio
torno alle medie. Inoltre viene         portanza dei risultati ottenuti        può risultare statisticamente si-
discusso il ruolo dei test statistici   in una ricerca, risulta necessario     gnificativo in un campione suf-
tradizionali per cercare di dare        riportare sempre una qualche           ficientemente grande.Se il cam-
una svolta al dibattito relativo al-    misura indicante la dimensione         pione è sufficientemente ampio,
l’efficacia del loro utilizzo.          dell’effetto o la consistenza della    bassi valori di p semplicemente
   Le indicazioni emerse pos-           relazione tra le variabili» e che      confermano che il campione
sono essere riassunte nel se-           riportare sempre le misure degli       era ampio; questa però è una
guente modo (vedi l’articolo di         indici di dimensione dell’effetto      tautologia (Thompson, 1992).
Wilkinson e della Task Force on         accanto al valore di p «aiuta,            Quest’ultimo caso può essere
Statistical Inference, 1999):           grazie ad una rapida osserva-          illustrato dall’analisi dei dati pre-
   1) Usare il numero minimo            zione, a collocare l’effetto spe-      sentata in tabella 2 (Keppel,Sau-
di analisi necessarie;                  rimentale in un contesto teorico       fley e Tokunaga, 2001).
   2) Non riportare i risultati         e pratico... Dobbiamo insistere           Nella parte superiore sono ri-
delle analisi effettuate mediante       ancora sul fatto che riportare e       portati i risultati di un esperi-
software statistici senza cono-         interpretare le misure degli in-       mento in cui 5 bambini ven-
scere il loro significato;              dici di dimensione dell’effetto,       gono casualmente assegnati a
   3) Documentare le ipotesi re-        anche nel contesto di studi pre-       ciascuna delle tre condizioni
lative alla popolazione o alla          sentati in passato, è essenziale       (lode,critica,oppure condizione
stima della potenza statistica          per una buona ricerca» (Ma-            di controllo). È stata effettuata
dello studio. Usare gli Intervalli      nuale APA, 2001; per la con-           un’Analisi della Varianza ad un
di Fiducia per definire i risultati     troversia suscitata da queste rac-     fattore con F ottenuto = 4.22
ottenuti;                               comandazioni si veda Fidler,           (con 2 e 12 gradi di libertà, p <
   4) Riportare sempre le stati-        2002).                                 .05). Nella parte inferiore della
stiche descrittive per permet-             L’errore che spesso si vede nei     tabella 2 il numero dei parteci-
tere repliche dello studio e fa-        resoconti dei risultati è proprio      panti assegnato a ciascuna delle
cilitarne la meta-analisi;              quello di assumere che la gran-        tre diverse condizioni è stato
Nucleo monotematico                                                                        21 - ETÀ EVOLUTIVA

                                          Tab. 2 - Effetto del raddoppio di N.

     Condizioni                          Lode                        Critica                       Controllo

     Dati grezzi                          7                            9                               2
                                          8                            4                               7
                                          6                            6                               5
                                         10                            9                               3
                                          7                            8                               5
     Media                                7.6                          7.2                             4.4

                                                           ANOVA
                                          SS                 df                    MS                    F
     A                                   30.4                2                    15.2                 4.22∗
     S/A                                 43.2               12                     3.6
     Totale                              73.6               14

     Condizioni                          Lode                        Critica                       Controllo

     Dati grezzi                         7 7                           9 9                            2 2
                                         8 8                           4 4                            7 7
                                         6 6                           6 6                            5 5
                                        10 10                          9 9                            3 3
                                         7 7                           8 8                            5 5
     Media                               7.6                           7.2                            4.4

                                                           ANOVA
                                          SS                 df                    MS                   F
     A                                   60.8                2                    30.4                 9.5∗
     S/A                                 86.4               27                     3.2
     Totale                             147.2               29

raddoppiato. Le medie sono                 vece, un indice non influenzato          fine creiamo due gruppi,A e B,
equivalenti,ma questa volta F ot-          direttamente dal numero di sog-          formati ciascuno da 50 indi-
tenuto (con 2 e 27 gradi di li-            getti appartenenti alle condi-           vidui.
bertà) è uguale a 9.5 (p < .01).           zioni sperimentali (vedi l’e-               Il gruppo A viene addestrato
Da questo semplice esempio si              sempio in tabella 2), e quindi           ad imparare a memoria del ma-
può osservare come la grandezza            non può coincidere né col va-            teriale con il metodo che stiamo
dell’indice F è tanto maggiore             lore F, né con la probabilità as-        studiando, mentre al gruppo B
quanto maggiore è la dimen-                sociata al valore ottenuto (il va-       non viene insegnato nessun me-
sione del campione.Confrontare             lore p).                                 todo particolare. Si procede con
i risultati sulla base dei livelli di        Introduciamo brevemente il             la raccolta dei dati e con la ve-
probabilità rappresenta un uso             significato degli indici di di-          rifica statistica delle ipotesi, dal-
non appropriato del test delle             mensione dell’effetto. Suppo-            la quale si ottengono indica-
ipotesi.                                   niamo ad esempio di voler stu-           zioni sulla probabilità che i no-
   La stima della dimensione del-          diare l’efficacia di una certa stra-     stri dati siano conformi all’ipo-
l’effetto sperimentale (ES) è,in-          tegia di memorizzazione; a tal           tesi nulla.
ETÀ EVOLUTIVA - 22                                                                               Nucleo monotematico

        Tab. 3 - Differenze di medie standardizzate per due diversi gruppi di contrasti (Kline, 2004).
    Studio                       M1 – M2                           stimato                          d

                              Differenza tra le medie diversa, uguale dimensione dell’effetto
    1                             75.00                           100.00                            .75
    2                             11.25                             15                              .75

                              Differenza tra le medie uguale, diversa dimensione dell’effetto
    3                             75.00                           500.00                           .15
    4                             75.00                            50.00                           1.50

   Dopo aver effettuato l’analisi         e più utilizzata di effect size (per     principio può accadere che d
dei dati la domanda che è ne-             una maggiore trattazione si veda         assuma anche valori molto alti,
cessario porsi è: quanto è stato          Fern e Monroe, 1996).                    e dire che d = 4.00 significa che
efficace il trattamento al quale             L’indice d di Cohen è una dif-        tra le medie c’è una differenza
sono stati sottoposti i soggetti?         ferenza media standardizzata e la        di quattro deviazioni standard!
Per rispondere a ciò si calcola la        sua applicazione è relativa alle si-     Ad ogni modo è relativamente
misura dell’indice di dimensione          tuazioni in cui il fine di una ri-       difficile trovare differenze così
dell’effetto più appropriata alla si-     cerca è comparare le perfor-             ampie all’interno delle scienze
tuazione sperimentale.L’effect size       mance di due gruppi (ad e-               del comportamento (Sedlmeier
quindi ci fornisce proprio la mi-         sempio il gruppo di trattamento          e Gigerenzer,1989;Kline,2004).
sura di quanto è ampio il cam-            vs il gruppo di controllo, uo-              La tabella 3 rappresenta i ri-
biamento che si è prodotto nel            mini vs donne) sulla base di va-         sultati di quattro studi ipotetici
gruppo di soggetti sottoposti al-         riabili di tipo continuo.                che mettono in evidenza come
l’esperimento,cambiamento che                Viene definito come la diffe-         il soffermarsi semplicemente
è in gran parte dovuto al tratta-         renza tra le medie di due gruppi         sulla differenza tra le medie di
mento sperimentale.                       divisa dalla deviazione standard         due gruppi sia molto spesso
   È importante che i ricercatori         stimata della popolazione di cia-        fuorviante e non indicativo di un
riportino sempre almeno un in-            scun gruppo (assunta essere la           effetto sperimentale realmente
dice della dimensione dell’ef-            medesima):                               solido e cospicuo. Nella parte
fetto ottenuto nei propri espe-                                                    superiore della tabella viene mo-
rimenti perché solo in questo                            M1 − M 2                  strato come una misura della di-
modo è possibile confrontare                        d=                             mensione dell’effetto ampia
poi i risultati di due o più distinte                      stimato                possa sussistere sia con una dif-
ricerche in maniera diretta.                                                       ferenza tra le medie elevata che
   Ad ogni modo non è questa                 L’interpretazione di d è sem-         con una differenza tra le medie
la sede appropriata per discu-            plice: se, per esempio, d = .50,         molto più ridotta; nella parte
tere le molteplici tipologie di           allora M1 è mezza deviazione             inferiore, invece, ad un identico
indici di dimensione dell’effetto         standard più grande di M2. Il            valore della differenza tra le
che esistono nella letteratura,           segno di d è arbitrario ma bi-           medie, che potrebbe far sup-
ma, a scopo prettamente esem-             sogna sempre spiegare come è             porre un’equivalenza tra i due
plificativo, riportiamo l’indice d        stato derivato, in quanto non            studi, corrispondono misure
di Cohen (1988) il quale rap-             esistono simbologie universali           della dimensione dell’effetto
presenta la forma più semplice            che lo definiscano. In linea di          molto diverse.
Nucleo monotematico                                                                       23 - ETÀ EVOLUTIVA

   È per questo motivo che la           dalità di presentazione dei ri-            di ritenzione gli intervalli di fi-
sola differenza tra le medie di         sultati per questo tipo di espe-           ducia attorno alle medie non si
due gruppi non è sintomatica            rimento è la seguente: viene il-           sovrappongono. Gli effetti sono
della presenza di un effetto spe-       lustrata una tabella con le medie          chiaramente significativi (non c’è
rimentale elevato neppure se            che corrispondono alle 8 con-              bisogno di presentare altre stati-
ampia e tanto più se confrontata        dizioni sperimentali (2 tipi di            stiche t, F, ecc.).
fra studi diversi.                      stimolo e 4 intervalli di riten-              Si ipotizzi, invece, che ci sia
   Una posizione ancora più             zione). Poi vengono riassunte              ampia variabilità attorno alle
estrema (Loftus, 1993; 2002;            all’interno del testo le statistiche       medie come illustrato dalla fi-
Masson e Loftus, 2003) sugge-           inferenziali e con molta enfasi si         gura 3 (riprodotta come Figura
risce:a) di presentare i dati in una    riportano i valori p (dando                1c in Loftus e Masson, 1994). In
figura in cui vengono illustrate        quindi importanza all’errore di            questo caso si può osservare che
le medie del campione con gli           primo tipo).                               gli intervalli di fiducia attorno
appropriati intervalli di fiducia          Nel caso in cui si preferisca           alle medie si sovrappongono: gli
attorno alle medie e b) di non          presentare le medie con una fi-            effetti sono chiaramente non si-
includere un’analisi statistica re-     gura non viene solitamente rap-            gnificativi dato che la variabilità
lativa alla verifica di ipotesi che     presentata nessuna misura di va-           attorno alle medie è molto ele-
sia ridondante rispetto alle infor-     riabilità (si veda la figura 1, ri-        vata.
mazioni già presenti nelle fi-          prodotta come Figura 1a da                    Si possono individuare tre ra-
gure.                                   Loftus e Masson, 1994).                    gioni per seguire le precedenti
   Per illustrare l’importanza del-        Che cosa c’è di errato in questa        indicazioni: 1) la presentazione
l’uso degli intervalli di fiducia       presentazione dei r isultati?              grafica delle medie dei cam-
Loftus e Masson (1994) ripor-           Questo modo di presentare i dati           pioni fornisce delle intuizioni
tano i dati di uno studio ipote-        non fornisce nessuna informa-              relative agli andamenti dei dati;
tico sulle prestazioni di memoria       zione sulla precisione delle medie.        2) con gli intervalli di fiducia si
di figure o parole. In questo           Si supponga che ci sia poca va-            hanno maggiori informazioni
studio gli intervalli di ritenzione     riabilità attorno alle medie (si           riguardo alla posizione delle
variano da 0 a 14 giorni dal mo-        veda fig. 2, riprodotta come Fi-           medie della popolazione; 3) gli
mento della presentazione degli         gura 1b in Loftus e Masson                 intervalli di fiducia rispondono
stimoli. Normalmente la mo-             1994): in tutti e quattro i livelli        a considerazioni sulla potenza

    Fig. 1 - Rappresentazione dell’andamento delle medie senza Intervalli di Fiducia attorno alle medie.

                              0.8

                              0.6
                Performance

                              0.4

                              0.2

                               0
                                    0               5                        10                     15
                                               Intervallo di ritenzione (giorni)
ETÀ EVOLUTIVA - 24                                                                                                   Nucleo monotematico

            Fig. 2 - Rappresentazione delle medie con i relativi Intervalli di Fiducia che indicano
                                 una bassa variabilità attorno alla medie.

                             0.8

                             0.6
               Performance

                             0.4

                             0.2

                              0
                                                 0                     5                        10                     15
                                                                  Intervallo di ritenzione (giorni)

            Fig. 3 - Rappresentazione delle medie con i relativi Intervalli di Fiducia che indicano
                                una altissima variabilità attorno alle medie.

                                                 0.8

                                                 0.6
                                   Performance

                                                 0.4

                                                 0.2

                                                  0
                                                       0                 5                  10               15
                                                                 Intervallo di ritenzione (giorni)

del test statistico e sull’adegua-                           In questa tabella vengono ri-            attorno alle differenze permet-
tezza dell’ampiezza del cam-                               portati i dati di uno studio (Olds,        tono di avere una misura della
pione usato nell’esperimento.                              Henderson e Tatelbaum, 1994)               stima della differenza nella po-
   Nella tabella 4 viene indicato                          che confronta il quoziente in-             polazione: possiamo concludere
un esempio su come riportare                               tellettivo a 48 mesi ed il peso alla       che la differenza di peso alla na-
gli intervalli di fiducia nel caso                         nascita dei rispettivi figli di madri      scita potrebbe essere di soli 167.1
in cui la presentazione dei dati                           fumatrici e di madri non fuma-             grammi oppure di 594.9 gram-
sia fatta tramite tabella piuttosto                        trici.Al di là delle differenze tra        mi.In ogni caso si può affermare
che figura.                                                le medie, gli intervalli di fiducia        che madri fumatrici avranno
Nucleo monotematico                                                                        25 - ETÀ EVOLUTIVA

          Tab. 4 - Modo corretto di presentare gli Intervalli di Fiducia avvalendosi dell’uso di tabelle.
                                                      Medie
                                        0 Sigarette           10+ Sigarette      Differenza           (95% IF)

    Livello di istruzione della
    madre (in anni di scolarità)          11.57                  10.89               .67            (0.15, 1.19)
    Peso alla nascita                     3416                    3035             381.0           (167.1, 594.9)
    Stanford – Binet (QI) 48 mesi        113.28                  103.12            10.16            (5.04, 15.30)

bambini con un peso inferiore               Come abbiamo avuto modo              dobbiamo dimenticare che le
alla nascita rispetto a madri non         di vedere, gli indici di dimen-        linee guida interpretative for-
fumatrici.                                sione dell’effetto possiedono          nite da Cohen (1988) per de-
                                          molte proprietà positive: hanno        scrivere qualitativamente la
                                          delle convenzioni che consen-          grandezza e la portata della di-
Significatività pratica e im-             tono di definire la loro ampiezza,     mensione di un effetto non
portanza reale di un effetto              possono essere usati per com-          hanno una base empirica e non
                                          parare quantitativamente i ri-         devono quindi essere applicate
   Nell’ultima parte di questo            sultati di due o più ricerche, e       rigidamente né, tanto meno,
articolo affronteremo il pro-             sono utili nell’analisi della po-      condurre ad erronei automa-
blema dell’importanza reale dei           tenza per indirizzare la deci-         tismi di ragionamento che sta-
risultati statistici. La significati-     sione su quanti soggetti sono          biliscano una sorta di relazione
vità pratica di un risultato è            necessari in una determinata ri-       bidirezionale tra grandezza di
sempre funzione di un’accurata            cerca. In sintesi, gli indici di di-   un effetto ed importanza dello
analisi statistica ma anche di va-        mensione dell’effetto sono una         stesso.Inoltre non possiamo per-
riabili che attengono alla sfera          misura quantitativa semplice e di      dere di vista il contesto all’in-
sociale e di giudizio soggettivo          facile comprensione,misura che         terno del quale una ricerca viene
dalle quali nessun risultato              fornsce indicazioni utili sulla        condotta in quanto la dimen-
scientifico può sottrarsi (Kirk,          reale importanza di un effetto         sione di un effetto e la sua por-
2001).                                    sperimentale (Prentice e Miller,       tata a livello teorico e pratico si
   Ma la grandezza di un indice           1992); gli indici di dimensione        riconducono alla specifica di-
di dimensione dell’effetto è              dell’effetto dovrebbero essere         sciplina di appartenenza (Lenth,
sempre proporzionale alla sua             sempre riportati sia per risultati     2001).
importanza? La risposta a questa          significativi che no (Rosnow e            Supponiamo che sia stata
domanda potrebbe sembrare in-             Rosenthal, 1989; Thompson,             compiuta una ricerca dalla quale
tuitivamente ovvia, ma non è              2000).                                 è emerso che la differenza media
così, in quanto una misura di               Tuttavia, se ci fermassimo a         di altezza fra uomini e donne è
dimensione dell’effetto ampia             questo punto,cioè applicando gli       circa pari a due deviazioni stan-
non garantisce necessariamente            indici di dimensione dell’effetto      dard (d = 2); una differenza così
il fatto che siamo di fronte ad un        in maniera acritica, commette-         ampia ha anche un’importanza
risultato importante a livello            remmo lo stesso tipo di errore         pratica altrettanto elevata? La ri-
pratico; del resto è anche vero           che molti autori imputano alla         sposta, chiaramente, dipende dal
che un effetto di modesta gran-           pratica del Null Hypothesis Si-        contesto di ricerca.In termini di
dezza può non essere di scarsa            gnificance Testing (NHST ), cioè       indagine psicologica una tale
importanza (Kline, 2004).                 di farne un uso ritualistico. Non      differenza di genere in altezza è
ETÀ EVOLUTIVA - 26                                                                            Nucleo monotematico

probabilmente irrilevante, ma,          della varianza totale ma questo        terrogativi basilari (Kirk, 2001):
nel contesto della sicurezza au-        risultato diventa molto impor-         a) un certo effetto è presente o
tomobilistica, invece, potrebbe         tante nel momento in cui si-           dovrebbe essere attribuito al
essere cruciale.                        gnifica,sul piano reale,salvare un     caso? b) se l’effetto è presente,
   Kline (2004) riporta una que-        numero cospicuo di vite.               quanto ampio è?; c) l’effetto è
stione che era sorta alla fine degli       In psicologia il concetto di        ampio abbastanza da essere con-
anni ’90 sulla strutturazione del-      importanza di un effetto si snoda      siderato importante?
l’air bag anteriore all’interno         lungo due strategie di defini-            Per rispondere a queste do-
delle autovetture: il problema          zione diverse spesso in disac-         mande gli indici di dimensione
riguardava il fatto che, in caso di     cordo: l’una statistica e l’altra      dell’effetto sono sicuramente la
incidente, la forza con cui l’air       metodologica.L’approccio stati-        componente fondamentale per
bag si gonfiava avrebbe potuto          stico è molto più adeguato in          determinare quanto un effetto
ferire, o addirittura soffocare,        aree della psicologia in cui l’o-      è significativo, importante, sul
una persona di bassa statura,cioè       perazionalizzazione della varia-       piano pratico. Per fare ciò non
comportava un grosso rischio            bile indipendente e la scelta della    possiamo trascurare il fatto che
specialmente per le donne. Per          variabile dipendente possono es-       l’importanza pratica di un effetto
le automobili, invece, dotate di        sere chiaramente definite dal pro-     viene stabilita dallo specifico
un sistema “intelligente” di            blema stesso, e quindi gli indici      contesto di ricerca in cui è ap-
scoppio dell’air bag che si re-         di dimensione dell’effetto sono        plicato e che il concetto di si-
golava automaticamente a se-            una misura completamente ap-           gnificatività pratica dipende co-
conda dell’altezza del guidatore,       propriata nella definizione di im-     munque dal tessuto sociale, da
un’ampia differenza di altezza          portanza, consentendo, inoltre,        considerazioni personali e dal
tra uomini e donne sarebbe ri-          un’accurata meta-analisi.              calcolo dei costi e dei benefici
sultata,ovviamente,molto meno              L’approccio metodologico            (Kirk, 1996).
importante.                             coinvolge invece aree di ricerca          Sfortunatamente non esistono
   La stessa logica sottende il fatto   in cui i disegni sperimentali sono     analisi statistiche in grado di mi-
che effetti ritenuti di piccole di-     molto più complessi, e le varia-       surare direttamente la significa-
mensioni siano invece, sul piano        bili in questione sono difficili da    tività pratica di un effetto; tut-
pratico, importanti, e questo è         controllare. Questo tipo di ri-        tavia gli indici di dimensione
proprio quello che hanno so-            cerche, anche se gli indici di di-     dell’effetto possono aiutare in
stenuto Prentice e Miller (1992)        mensione dell’effetto sono di          ampia misura il ricercatore a de-
argomentando che un effetto             modeste dimensioni e condurre          cidere se un risultato è signifi-
piccolo può essere molto rile-          una meta-analisi è difficoltoso,       cativo e importante a livello pra-
vante sul piano teorico e può di-       riescono tuttavia a dimostrare         tico (Kirk, 2001).
ventare di ampie dimensioni nel         effetti importanti,importanti nel         Le persone che lavorano nel
corso del tempo; inoltre, in certi      senso di influenti nel vivere quo-     campo della ricerca o della re-
contesti come le scelte di poli-        tidiano.                               lativa applicazione pratica de-
tica sanitaria, decisioni impor-           Queste considerazioni ci con-       vono sempre tener conto dei
tanti vengono prese sulla base di       ducono verso il problema di            fattori contestuali relativi sia al
effetti che sono quantitativa-          come non ci sia accordo nel de-        momento dell’esecuzione del-
mente insignificanti (Gage,             finire cosa rende un effetto real-     l’esperimento (o quasi-esperi-
1978), fatto non poco comune            mente importante e quali sono          mento, o analisi di un caso, …)
in ambito medico. Pensiamo ad           i criteri, gli standard per arrivare   che alla fase applicativa.
esempio al ruolo dell’aspirina          alla definizione di ciò. Vero è           «Non esistono semplici con-
nel prevenire l’infarto; il suo ef-     che i ricercatori non possono          venzioni per determinare l’im-
fetto spiega soltanto circa il 2%       esimersi dal rispondere a tre in-      portanza pratica. Come per i
Nucleo monotematico                                                                       27 - ETÀ EVOLUTIVA

bambini, vale anche per gli in-          dei criteri oggettivi, dei rituali        probabilità che abbiamo di ot-
dici di dimensione dell’effetto la       (Gigerenzer, 1998). In questo             tenere un certo effetto se l’ipo-
regola che per capirli bene è            caso interviene il giudizio per-          tesi nulla è vera ma non ci dice
meglio studiarli sempre in rife-         sonale che, come afferma Kirk             quanto un effetto è ampio, im-
rimento al loro contesto» (Mc-           (1996):                                   portante o utile (Kirk, 2001);
Cartney e Rosenthal, 2000).                «[...] inevitabilmente implica          «the statistical significance test
   Gigerenzer (1998) afferma che         una varietà di considerazioni,            does not tell us what we want
è importante che chi lavora nel          incluso il sistema di valori del ri-      to know, and we so much want
campo psicologico conosca i di-          cercatore, considerazioni sulla           to know what we want to know
versi strumenti statistici a sua         società,sul bilancio tra costi e be-      that, out of desperation, we ne-
disposizione, per poter così sce-        nefici, eccetera. I ricercatori           vertheless believe that it does»
gliere quelli più adatti ad ogni         hanno il compito di prendere              (Cohen, 1994).
situazione e, inoltre, secondo           una complessa serie di decisioni             È alla luce di queste conside-
l’autore è necessario sviluppare         nella progettazione e nell’ese-           razioni che, di pari passo con
il pensiero statistico (statistical      cuzione di un esperimento ma              l’esponenziale crescita delle pub-
thinking),che è un pensiero crea-        è curioso che, in nome dell’og-           blicazioni che criticano l’uso in-
tivo,artistico,«[...] è un’arte,non      gettività, non spetti a loro deci-        discriminato dei test statistici,
una procedura meccanica».                dere se i dati che hanno rac-             gli indici di dimensione dell’ef-
   È chiaro che stiamo uscendo           colto ed analizzato hanno vali-           fetto hanno assunto un ruolo
dal campo propriamente mate-             dità pratica».                            sempre più preponderante come
matico, ma ciò si rende neces-             Questa ambiguità molto dif-             misura in grado di definire sia la
sario. Quando un ricercatore             fusa (Dixon, 1998) è in realtà            grandezza che l’importanza reale
prende una decisione sull’im-            estremamente fuorviante perché            di un effetto (Cohen, 1988;
portanza pratica dei suoi risul-         un test di significatività dell’i-        1990; Kirk, 1996; 2001;Thom-
tati non può utilizzare solamente        potesi nulla ci dice soltanto la          pson, 1996; 1999; 2002).

Bibliografia

ABELSON R.P. (1995), Statistics as        Journal of Wildlife Management,64,         Canadian Journal of Experimental
 principled argument,Erlbaum,Hills-       913-926.                                   Psychology, 53, 133-149.
 dale.                                   COHEN J. (1988), Statistical power        FALK R.,GREENBAUM C.W.(1995),
ABELSON R.P. (1997), «On the sur-         analysis for the behavioural sciences      «Significance tests die hard:The
 prising longevity of flogged             (2nd ed.), Erlbaum, Hillsdale.             amazing persistence of a proba-
 horses:Why there is a case for the      COHEN J. (1990), «Things I have             bilistic misconception», Theory
 significance test»,Psychological Sci-    learned (so far)», American Psy-           & Psychology, 5, 75-98.
 ence, 8, 12-15.                          chologist, 45, 1304-1312.                FERN E.F., MONROE K.B. (1996),
AMERICAN PSYCHOLOGICAL ASSO-             COHEN J. (1994), «The earth is              «Effect size estimates: Issues and
 CIATION (2001),Publication Manual        round (p < .05)», American Psy-            problems in interpretation»,
 of the American Psychological Asso-      chologist, 49, 997-1003.                   Journal of Consumer Research, 23,
 ciation (5th ed.),Washington.           DIXON P. (1998), «Why scientists            89-105.
ANDERSON D.R., BURNHAM K.P.               value p values», Psychonomic Bul-        FIDLER F. (2002), «The fifth edition
 THOMPSON W.L. (2000), «Null              letin & Review, 5, 390-396.                of the APA Publication Manual:
 hypothesis testing: Problems,           DIXON P.,O’REILLY T.(1999),«Sci-            Why its statistics recommenda-
 prevalence, and an alternative»,         entific versus statistical inference»,     tions are so controversial», Edu-
ETÀ EVOLUTIVA - 28                                                                                   Nucleo monotematico

   cational and Psychological Measure-       testing in the computer age», Be-      ROSNOW R.L., ROSENTHAL R.
   ment, 62, 749-770.                        haviour Research Methods, Instru-         (1989),«Statistical procedures and
F I N C H S. , C U M M I N G G. ,            mentation and Computers,25,250-           the justification of knowledge in
   T HOMASON N. (2001), «Re-                 256.                                      psychological science», American
   porting of statistical inference in     LOFTUS G.R. (2002), «Analysis, in-          Psychologist, 44, 1276-1284.
   the “Journal of Applied Psy-              terpretation, and visual presenta-     S EDLMEIER P., G IGERENZER G.
   chology”: Little evidence of re-          tion of data». In Stevens’ hand-          (1989), «Do studies of statistical
   form», Educational and Psycholog-         book of experimental psychology,          power have an effect on the
   ical Measurement, 61, 181-210.            third edition,John Wiley and Sons,        power of studies?», Psychological
GAGE N.L.(1978),The scientific basis         New York, vol. 4, 339-390.                Bulletin, 105, 309-316.
   of the art of teaching,Teachers Col-    L OFTUS G.R., M ASSON M.E.J.             THOMPSON B. (1992), «Two and
   lege Press, New York.                     (1994), «Using confidence inter-          one-half decades of leadership in
G IGERENZER G. (1993), «The                  vals in within-subject designs»,          measurement and evaluation»,
   superego, the ego and the id in           Psychonomic Bulletin & Review, 1,         Journal of Counseling and Devel-
   statistical reasoning».In G.Keren,        476-490.                                  opment, 70, 438-438.
   C. Lewis (Eds.), A handbook for         M ASSON M.E.J., L OFTUS G.R.             THOMPSON B. (1996), «AERA ed-
   data analysis in the behavioural sci-     (2003), «Using confidence for             itorial policies regarding statis-
   ences: Methodological issues, Erl-        graphically based data interpre-          tical significance testing: Three
   baum, Hillsdale, 311-339.                 tation», Canadian Journal of Ex-          suggested reforms», Educational
GIGERENZER G. (1998), «We need               perimental Psychology, 57, 203-           Researcher, 25 (2), 26-30.
   statistical thinking, not statistical     220.                                   THOMPSON B. (1999), «Journal ed-
   rituals», Behavioural and Brain Sci-    MCCARTNEY K., ROSENTHAL R.                  itorial policies regarding Statistical
   ences, 21, 199-200.                       (2000), «Effect size, practical im-       Significance Tests: Heat is to fire
KEPPEL G., SAUFLEY W.H., TOKU-               portance, and social policy for           as p is to importance»,Educational
   NAGA H. (2001), Disegno speri-            children», Child Development, 71,         Psychology Review, 11, 157-169.
   mentale e analisi dei dati in psi-        173-180.                               THOMPSON B. (2000), «Reporting
   cologia, EdiSES S.r.l., Napoli.         M U R R AY L.V., D O S S E R D.A.           practices and APA editorial poli-
KIRK R.E. (1996), «Practical sig-            (1998), «How significant is a sig-        cies regarding statistical signifi-
   nificance:A concept whose time            nificant difference? Problems             cance and effect size», Theory &
   has come», Educational and Psy-           with the measurement of mag-              Psychology, 10 (3), 413-425.
   chological Measurement, 56, 746-          nitude of effect», Journal of Coun-    THOMPSON B.(2002),« “Statistical”,
   759.                                      seling Psychology, 34, 68-72.             “practical”, and “clinical”: How
KIRK R.E. (2001), «Promotion of            OAKES M.(1986),Statistical inference,       many kinds of significance do
   good statistical practices: Some          Wiley, New York.                          counsellors need to consider?»,
   suggestions», Educational and Psy-      O LDS D.L., H ENDERSON C.R.,                Journal of Counseling & Develop-
   chological Measurement, 61, 213-          TATELBAUM R. (1994), «Intellec-           ment, 80, 64-71.
   218.                                      tual impairment in children of         T H O M P S O N B., S N Y D E R P.A.
KLINE R.B. (2004), Beyond signifi-           women who smoke cigarettes                (1998), «Statistical significance
   cance testing.Reforming data analysis     during pregnancy», Pediatrics, 93,        and reliability analyses in recent
   methods in behavioural research,          221-227.                                  Journal of Counseling & Develop-
   American Psychological Associ-          P RENTICE D.A., M ILLER D.T.                ment research articles», Journal of
   ation,Washington.                         (1992), «When small effects are           Counseling & Development, 76,
LENTH R.V.(2001),«Some practical             impressive», Psychological Bulletin,      436-441.
   guidelines for effective sample           112, 160-164.                          WILKINSON L., TASK FORCE ON
   size determination»,American Sta-       ROBINSON D.,LEVIN J.(1997),«Re-             STATISTICAL INFERENCE (1999),
   tistician, 55, 187-193.                   flection on statistical and sub-          «Statistical methods in psycho-
LOFTUS G.R. (1993), «A picture is            stantive significance, with a slice       logical journals: Guidelines and
   worth a thousand p-values: On             of replication», Educational Re-          explanations», American Psycho-
   the irrelevance of hypothesis             searcher, 26, 21-26.                      logist, 54, 594-604.
Puoi anche leggere