Analisi statistica delle serie economiche - Il procedimento classico. Le operazioni preliminari
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Analisi statistica delle serie economiche Il procedimento classico. Le operazioni preliminari alessandro polli facoltà di scienze politiche, sociologia, comunicazione
Fasi del procedimento classico In generale, per procedimento − o procedura, ma i due termini non sono esattamente sinonimi − intendiamo il «modo» in cui si conduce una operazione mentale, manuale, tecnica. Per esempio, in matematica il procedimento è la sequenza di passi elementari (indicati nel complesso con il termine algoritmo) che seguiamo per giungere alla soluzione di un dato problema in un tempo finito. Nel nostro caso, l’obiettivo è determinare le proprietà dinamiche del processo generatore di una successione di dati numerici. A tale scopo, è sufficiente individuare un certo numero di componenti separabili attraverso l’applicazione di tecniche di filtraggio. Una volta individuate le componenti, risulterà agevole risalire alle proprietà dinamiche del processo generatore. In linea generale, le fasi in cui si articola il procedimento sono le seguenti: • Ispezione grafica • Interventi preliminari sulla matrice dati • Applicazione di tecniche di filtraggio • Analisi dei residui Una volta stabilite le proprietà dinamiche del processo generatore, potremo utilizzare il processo formalizzato per finalità previsive. Il procedimento classico 03/03/2020 Pagina 2
Ispezione grafica Partiamo da una definizione, che è quella di pattern. Il termine inglese «pattern», nel suo significato originale, è traducibile come «disposizione di oggetti», ma si è diffuso in molte discipline, dall’informatica alle neuroscienze, per indicare, a seconda del contesto, un «disegno, modello, schema, schema ricorrente, struttura ripetitiva». Siamo interessati al concetto di pattern in quanto l’ispezione grafica è giustificata da ben precisi motivi attinenti al funzionamento del cervello umano, che in genere mostra maggiori abilità nel riconoscere pattern che nel trattare informazioni numeriche. E poiché individuare relazioni e tendenze con la sola lettura della matrice dati potrebbe risultare complesso, ci avvaliamo di una rappresentazione grafica, il time plot. Il procedimento classico 03/03/2020 Pagina 3
Ispezione grafica Per chiarire il senso della affermazione precedente, facciamo riferimento alla tabella in basso, dove sono riportati i consumi di energia elettrica in Italia dal 1923 al 2015, espressi in GWh: Consum i Consum i Consum i Anno Anno Anno GWh GWh GWh 1923 5569 1954 34.329 1985 194.973 1924 6401 1955 37.173 1986 199.934 1925 7.205 1956 39.708 1987 209.826 1926 8.552 1957 41.957 1988 220.530 1927 8.876 1958 44.378 1989 228.719 1928 9.798 1959 48.255 1990 235.124 1929 10.550 1960 54.749 1991 240.969 1930 10.764 1961 59.125 1992 244.787 1931 10.576 1962 63.854 1993 246.600 1932 10.689 1963 70.207 1994 253.611 1933 11.751 1964 74.821 1995 261.009 1934 12.728 1965 80.094 1996 262.873 1935 13.929 1966 86.744 1997 271.392 1936 13.773 1967 94.215 1998 279.317 1937 15.518 1968 100.812 1999 285.844 1938 15.659 1969 107.206 2000 298.510 1939 18.465 1970 115.023 2001 304.832 1940 19.507 1971 119.582 2002 310.726 1941 20.813 1972 127.398 2003 320.658 1942 20.291 1973 137.126 2004 325.357 1943 18.272 1974 141.783 2005 330.443 1944 13.476 1975 140.714 2006 337.459 1945 12.572 1976 154.137 2007 339.928 1946 17.428 1977 159.498 2008 339.481 1947 20.527 1978 166.110 2009 320.268 1948 22.675 1979 174.721 2010 330.455 1949 20.642 1980 179.538 2011 334.640 1950 24.564 1981 178.406 2012 328.220 1951 28.867 1982 178.701 2013 318.475 1952 30.487 1983 180.970 2014 310.535 1953 31.830 1984 190.052 2015 316.897 Il procedimento classico 03/03/2020 Pagina 4
Ispezione grafica La lettura dei dati contenuti nella tabella precedente non ci consente di individuare informazioni rilevanti circa l’evoluzione del fenomeno, tranne il fatto che i consumi stessi sono notevolmente aumentati nel tempo. Per sapere qualcosa di più, passiamo all’ispezione grafica tramite time plot. Tipicamente, il time plot riporta in ascissa il tempo e in ordinata i corrispondenti valori assunti dalla variabile . Nella figura è rappresentato il time plot dei consumi elettrici costruito a partire dai dati della tabella. Dall’ispezione grafica del time plot dei consumi di energia elettrica, è immediato desumere alcune interessanti informazioni, che si mostreranno di grande utilità quando procederemo alla scelta delle tecniche di filtraggio della serie analizzata. Il procedimento classico 03/03/2020 Pagina 5
Ispezione grafica La lettura del grafico, in altri termini, ci consente di individuare con facilità le caratteristiche salienti del fenomeno analizzato: • In primo luogo, il consumo di energia elettrica ha mostrato, nell’intervallo 1923-2015, una spiccata dinamica evolutiva, circostanza che è agevolmente interpretabile sia su un piano storico, sia dal punto di vista economico, e che potrebbe indirizzarci verso la scelta di specifiche funzioni per la modellizzazione del trend; • Ad un esame più attento, inoltre, appare evidente che la traiettoria dei consumi elettrici ha subito alcune battute di arresto, in corrispondenza degli ultimi anni della seconda guerra mondiale (1943- 1945) e negli anni immediatamente successivi alle due crisi petrolifere (1975 e 1981). Queste temporanee anomalie nell’andamento del fenomeno possono essere catturate con strumenti ad hoc, quali ad esempio le c.d. variabili dummy; • In ultimo, nell’intervallo compreso tra 2008 e il 2015, la dinamica dei consumi elettrici è caratterizzata da un profilo che replica il double dip manifestatosi nello stesso periodo rispetto alla crescita del Pil. Il termine «double dip» indica una crisi recessiva contraddistinta da un picco negativo seguito da una fase di crescita che prelude a un nuovo crollo. Poiché in questo caso è evidente un vero e proprio cambio di regime, potremmo applicare test per accertare la presenza di un break strutturale. Il procedimento classico 03/03/2020 Pagina 6
Ispezione grafica Ma l’ispezione grafica si dimostra realmente preziosa quando la serie cronologica analizzata è caratterizzata da andamenti ben più complessi, quale ad esempio l’ammontare mensile di prestiti approvati dalle banche del Regno Unito da gennaio 1998 a dicembre 2013, espresso in milioni di sterline correnti, di cui riportiamo il box plot: Fonte: BBA (2014) Il procedimento classico 03/03/2020 Pagina 7
Ispezione grafica L’ispezione grafica del time plot dei prestiti approvati nel Regno Unito, di nuovo, ci consente di notare alcune peculiarità che caratterizzano il fenomeno analizzato, quali ad esempio l’evidente presenza di stagionalità e la probabile esistenza di un break strutturale − cioè una variazione di regime − a partire dal giugno 2007. Per confermare l’ipotesi di stagionalità, possiamo ricorrere al c.d. seasonal plot, che confronta gli andamenti mensili che caratterizzano il fenomeno per un certo numero di anni adiacenti al fine di evidenziare l’esistenza di eventuali pattern comuni. A destra riportiamo il seasonal plot relativo alla serie precedente, con riferimento agli anni 1998-2003. Il procedimento classico 03/03/2020 Pagina 8
Interventi preliminari L’analisi della matrice dati e la successiva ispezione grafica potrebbero evidenziare la presenza di anomalie più o meno gravi. Tali anomalie compromettono la qualità delle informazioni da noi raccolte e di conseguenza possono inficiare la nostra analisi. Si rendono quindi necessari degli interventi preliminari sulla serie cronologica atti a garantire la qualità del dato. Gli interventi preliminari che tratteremo sinteticamente sono i seguenti: • Correzioni di calendario • Correzioni per il diverso numero di giorni lavorativi • Correzioni per la presenza di feste mobili • Imputazione di valori mancanti • Correzione di valori anomali Il procedimento classico 03/03/2020 Pagina 9
Interventi preliminari Correzioni di calendario. Quando analizziamo serie cronologiche mensili, dobbiamo considerare che i dati sono acquisiti in intervalli temporali che non sono uniformi, in quanto, come è noto, i mesi non hanno tutti la stessa durata in giorni. Ipotizziamo di rilevare la produzione mensile di una unità produttiva: a parità di tutte le altre condizioni, è ovvio che la produzione di gennaio o quella di marzo risulteranno superiori alla produzione di febbraio, in quanto febbraio contiene un numero di giorni lavorativi usualmente inferiore a quello degli altri due. Assumiamo adesso di rilevare la produzione mensile per diversi anni: la flessione della produzione che si verifica nel mese di febbraio di tutti gli anni potrebbe essere erroneamente attribuita alla presenza di stagionalità, laddove in realtà la stagionalità è assente. Si rende quindi necessario apportare una correzione ai dati per neutralizzare i c.d. effetti di calendario. Il procedimento classico 03/03/2020 Pagina 10
Interventi preliminari Un semplice metodo per correggere gli effetti di calendario è il seguente: poiché un anno non bisestile ha durata di 365 giorni, la durata media di un mese sarà pari a 365 = = 30,416 12 Indicando con la durata dell’−esimo mese dell’anno, con = 1, … , 12, l’entità della correzione da apportare ai valori della serie analizzata sarà data dal seguente rapporto: à = = à Tuttavia, come vedremo nell’esempio che segue, occorre adottare qualche accorgimento aggiuntivo nell’applicazione di questo semplice procedimento, come risulterà immediatamente chiaro. Il procedimento classico 03/03/2020 Pagina 11
Interventi preliminari Esempio Con riferimento al data set relativo ai prestiti approvati nel Regno Unito tra il 1998 e il 2014, consideriamo per semplicità il solo anno 2011: 2011.1 31 5.380 2011.2 28 7.760 2011.3 31 9.881 2011.4 30 7.383 2011.5 31 8.540 2011.6 30 10.154 2011.7 31 9.507 2011.8 31 9.147 2011.9 30 8.332 2011.10 31 8.675 2011.11 30 8.865 2011.12 31 6.268 365 99.893 Il procedimento classico 03/03/2020 Pagina 12
Interventi preliminari Nella seguente tabella, presentiamo lo sviluppo dei calcoli: = ! ∆% " = ! # ∆& 2011.1 31 5.380 0,9812 5.279,23 -101,25 5.275,4 -105,05 2011.2 28 7.760 1,0863 8.430,01 669,78 8.423,9 663,70 2011.3 31 9.881 0,9812 9.695,11 -185,93 9.688,1 -192,93 2011.4 30 7.383 1,0139 7.485,69 102,54 7.480,3 97,14 2011.5 31 8.540 0,9812 8.379,63 -160,71 8.373,6 -166,75 2011.6 30 10.154 1,0139 10.295,03 141,03 10.287,6 133,60 2011.7 31 9.507 0,9812 9.328,48 -178,90 9.321,7 -185,63 2011.8 31 9.147 0,9812 8.974,79 -172,12 8.968,3 -178,59 2011.9 30 8.332 1,0139 8.447,28 115,72 8.441,2 109,62 2011.10 31 8.675 0,9812 8.511,79 -163,24 8.505,7 -169,38 2011.11 30 8.865 1,0139 8.988,01 123,12 8.981,5 116,64 2011.12 31 6.268 0,9812 6.150,06 -117,95 6.145,6 -122,38 365 99.893 1,0000 99.965,09 72,10 99.893,0 0,00 Nota bene: Media armonica del sistema di coefficienti di correzione Il procedimento classico 03/03/2020 Pagina 13
Interventi preliminari Commentiamo brevemente i precedenti risultati. Il procedimento si articola in due fasi. Nella prima fase abbiamo calcolato i quozienti = Per esempio, con riferimento al mese di gennaio, avremo che 30,416 % = = 0,9812 31 Procediamo a correggere il dato relativo a gennaio moltiplicando il relativo valore per il fattore di correzione: % = % ! ) = 5.380 ! 0,9812 = 5.279,23 È ovvio che nel caso di gennaio, la sua durata in giorni eccede la durata media di un mese nell’anno, che è pari a 30,416 giorni, per cui il dato corretto per l’anomalia di calendario risulterà inferiore a quello rilevato. Da notare che, una volta calcolati i quozienti di correzione, la loro media armonica deve risultare pari all’unità. Il procedimento classico 03/03/2020 Pagina 14
Interventi preliminari A questo punto effettuiamo un controllo di coerenza, nel senso che se la somma dei valori corretti è pari alla somma dei valori originari, e cioè %& %& , = , -% -% allora l’operazione di correzione conduce ad un risultato coerente, mentre in caso contrario dovremo adottare qualche accorgimento per riconciliare i risultati dell’operazione di correzione con il valore complessivamente rilevato. Dalla consultazione della tabella, appare evidente nel nostro caso che la somma dei valori corretti è data da %& , = 99.965,09 -% che è diversa dalla somma dei valori mensili osservati, pari a %& , = 99.893 -% Il procedimento classico 03/03/2020 Pagina 15
Interventi preliminari Dovevamo attenderci un risultato del genere? Sì, ma dovremo scomodare un po’ di algebra per dimostrarlo. Infatti, osservando che = ! allora %& %& %& , = , ! ≠ , -% -% -% Detto altrimenti, la somma dei valori corretti per le anomalie di calendario, per valori non banali dei coefficienti di correzione (ovvero diversi da =1 ∀) risulta necessariamente diversa dalla somma dei valori effettivamente osservati. Il procedimento classico 03/03/2020 Pagina 16
Interventi preliminari Inoltre, definita la differenza ∆% = − e ricordando che in generale %& %& , ≠ , -% -% avremo che %& %& %& %& , ∆% = , ( − ) = , − , ≠ 0 -% -% -% -% L’operazione di correzione quindi condurrebbe a risultati non coerenti con la realtà effettivamente osservata: in particolare, non è rispettato il vincolo sull’invarianza dei totali annui dei valori della serie. Il procedimento classico 03/03/2020 Pagina 17
Interventi preliminari Per ovviare a questo grave inconveniente, il sistema più semplice è riproporzionare i valori corretti al fine di garantire che la loro somma coincida con la somma dei valori di partenza. Come fattore di scala consideriamo la quantità ∑%& -% #= ∑%& -% La quantità costante # non è altro che il rapporto tra la somma dei valori osservati e la somma dei valori corretti per le anomalie di calendario. Introduciamo quindi il valore corretto riproporzionato, definito dalla seguente relazione: ∑ " = ! # = ! ∑ Se effettuiamo un intervento «cosmetico» sulla formula otteniamo ∑ %& " = ! = ! , = ! 8 ∑ ∑ 4 -% -56 -7 dove è un rapporto di composizione che fornisce il contributo del valore corretto al tempo al totale annuo dei valori corretti, 8, che coincide con la somma dei valori originari. Il procedimento classico 03/03/2020 Pagina 18
Interventi preliminari Da notare che , essendo un rapporto di composizione, è caratterizzato dalle seguenti proprietà: • ≥ 0 • ∑ = 1 Se a questo punto sommiamo i valori corretti riproporzionati, otteniamo che %& %& %& %& , " = , ! 8 = 8 ∙ , = 8 = , -% -% -% -% -% Procedendo nella maniera descritta è quindi possibile riconciliare il risultato della correzione delle anomalie di calendario con i valori originari in modo coerente. Le ultime due colonne della precedente tabella di calcolo, infatti, mostrano che 1) la somma dei valori corretti e riproporzionati coincide con la somma dei valori della serie di partenza e 2) la somma delle differenze fra valori corretti e riproporzionati e valori originari è pari a zero. Il procedimento classico 03/03/2020 Pagina 19
Interventi preliminari Alla luce delle precedenti considerazioni, l’organizzazione della tabella di calcolo di una semplice procedura di correzione delle anomalie di calendario potrebbe essere così strutturata: = ! = =, " = ! K 2011.1 31 5.380 0,9812 5.279,23 0,0528 5.275,4 2011.2 28 7.760 1,0863 8.430,01 0,0843 8.423,9 2011.3 31 9.881 0,9812 9.695,11 0,0970 9.688,1 2011.4 30 7.383 1,0139 7.485,69 0,0749 7.480,3 2011.5 31 8.540 0,9812 8.379,63 0,0838 8.373,6 2011.6 30 10.154 1,0139 10.295,03 0,1030 10.287,6 2011.7 31 9.507 0,9812 9.328,48 0,0933 9.321,7 2011.8 31 9.147 0,9812 8.974,79 0,0898 8.968,3 2011.9 30 8.332 1,0139 8.447,28 0,0845 8.441,2 2011.10 31 8.675 0,9812 8.511,79 0,0851 8.505,7 2011.11 30 8.865 1,0139 8.988,01 0,0899 8.981,5 2011.12 31 6.268 0,9812 6.150,06 0,0615 6.145,6 365 99.893 99.965,09 1,0000 99.893,0 Il procedimento classico 03/03/2020 Pagina 20
Interventi preliminari Correzioni di calendario per anni bisestili. Il nostro schema deve essere leggermente modificato in caso di anno bisestile. Nel caso di anno bisestile, infatti, la durata media di un mese dell’anno è pari a 366 = = 30,5 12 mentre il resto dello schema rimane inalterato. Come nel caso precedente, i coefficienti per la correzione delle anomalie di calendario, anche in caso di anno bisestile, saranno definiti dal rapporto: = Da ricordare che gli anni bisestili sono gli anni che • risultano divisibili per 4 o per 400 (per esempio il 2012 o il 2000 sono stati anni bisestili), ma • non sono bisestili gli anni che sono multipli di 4 e di 100, ma non sono multipli di 400 (per esempio, l’anno 1800 è divisibile per 4 e per 100, ma non è stato bisestile, in quanto non è multiplo di 400). Il procedimento classico 03/03/2020 Pagina 21
Interventi preliminari Nella seguente tabella, sempre con riferimento alla serie mensile dei prestiti approvati dalle banche del Regno Unito, mostriamo l’organizzazione dei calcoli con riferimento all’anno bisestile 2012: = ! = =, " = ! K 2012.1 31 6.328 0,9839 6.226,41 0,0649 6.224,2 2012.2 29 7.630 1,0517 8.024,74 0,0836 8.021,8 2012.3 31 9.073 0,9839 8.926,17 0,0930 8.922,9 2012.4 30 8.454 1,0167 8.594,78 0,0896 8.591,7 2012.5 31 9.260 0,9839 9.111,07 0,0950 9.107,8 2012.6 30 7.692 1,0167 7.819,89 0,0815 7.817,1 2012.7 31 7.987 0,9839 7.858,59 0,0819 7.855,7 2012.8 31 8.223 0,9839 8.090,13 0,0843 8.087,2 2012.9 30 7.708 1,0167 7.836,09 0,0817 7.833,3 2012.10 31 9.176 0,9839 9.028,16 0,0941 9.024,9 2012.11 30 8.586 1,0167 8.728,60 0,0910 8.725,4 2012.12 31 5.786 0,9839 5.693,10 0,0593 5.691,0 366 95.903 95.937,72 1,0000 95.903,0 Il procedimento classico 03/03/2020 Pagina 22
Interventi preliminari Correzioni delle variazioni dovute al differente numero di giorni lavorativi. Tali variazioni possono essere ricondotte a quelle dovute a effetti di calendario e, anzi, rappresentano la più importante fonte di variazioni sistematiche, influenzando pesantemente i confronti fra i diversi mesi o fra mesi omologhi di anni diversi, quindi devono essere rimosse. Ipotizziamo che un impianto produttivo sia attivo 5 giorni la settimana. Con riferimento al mese di gennaio di un certo anno, assumiamo che vi siano stati 4 sabati e 4 domeniche e quindi i giorni lavorativi siano stati 23. Una situazione del genere si è verificata nel 2014. Nel 2016 − e cioè due anni dopo − a gennaio vi sono stati 5 sabati e 5 domeniche, quindi vi sono stati solo 21 giorni lavorativi. In altri termini avremo che 23 − 21 ∙ 100 ≅ 9,52 21 cioè nel 2014 il numero di giorni lavorativi − e quindi il periodo di operatività dell’impianto − è risultato maggiore del 9,52% rispetto al 2016. È ovvio che qualsiasi confronto fra la produzione dell’impianto nel 2014 e quella registrata nel 2016 dovrà essere depurato dalle variazioni dovute al diverso periodo di operatività dell’impianto, e cioè al differente numero di giorni lavorativi. Il procedimento classico 03/03/2020 Pagina 23
Interventi preliminari Per introdurre la procedura di depurazione delle variazioni dovute ai giorni lavorativi, è opportuno svolgere una riflessione sulla composizione del calendario. Infatti l’effetto giorni lavorativi è dovuto al numero di occorrenze dei giorni della settimana, che cambia di anno in anno e ne influenza il numero nel mese. Utilizzando la funzione «crea calendario» di Gennaio 2018 Excel, generiamo il calendario del mese di LUNEDÌ MARTEDÌ MERCOLEDÌ GIOVEDÌ VENERDÌ SABATO DOMENICA gennaio 2018, che è iniziato con un lunedì. 1 2 3 4 5 6 7 Premesso che le attuali metodologie 8 9 10 11 12 13 14 trascurano le festività, ad eccezione delle c.d. feste mobili, quali la Pasqua, dalla 15 16 17 18 19 20 21 consultazione del calendario si evince che gennaio 2018 ha avuto 4 sabati e 4 22 23 24 25 26 27 28 domeniche, quindi 23 giorni lavorativi, di cui 5 lunedì, 5 martedì, 5 mercoledì, 4 giovedì e 29 30 31 1 2 3 4 4 venerdì. 5 6 NOTE Questa sequenza di giorni nel mese costituisce una tipologia, indicata come tipologia 1. Questa Il procedimento classico 03/03/2020 Pagina 24
Interventi preliminari Estendendo il ragionamento appena seguito, vediamo cosa succede nel caso di un mese di 31 giorni di tipologia 2, che inizia con un martedì, come ad esempio il gennaio 2019. Anche in questo caso, dalla consultazione Gennaio 2019 del calendario appare chiaro che gennaio LUNEDÌ MARTEDÌ MERCOLEDÌ GIOVEDÌ VENERDÌ SABATO DOMENICA 2019 ha avuto 4 sabati e 4 domeniche, 31 1 2 3 4 5 6 quindi 23 giorni lavorativi, di cui 4 lunedì, 5 martedì, 5 mercoledì, 5 giovedì e 4 venerdì. 7 8 9 10 11 12 13 Di conseguenza, in un ipotetico confronto 14 15 16 17 18 19 20 fra i due mesi, non è necessario apportare correzioni. 21 22 23 24 25 26 27 Ovviamente, in altri casi, il numero di giorni 28 29 30 31 1 2 3 lavorativi potrebbe differire, come vedremo immediatamente. 4 5 NOTE Il procedimento classico 03/03/2020 Pagina 25
Interventi preliminari Nel seguente prospetto sono riportate le 22 tipologie che possono manifestarsi, rispettivamente per mesi di 31 giorni, 30 giorni e per febbraio, rispettivamente bisestile e non bisestile: Primo Numero di Tipologia giorno del Lunedì Martedì Mercoledì Giovedì Venerdì Sabato Domenica giorni mese lavorativi Mesi di 31 giorni 1 Lunedì 5 5 5 4 4 4 4 23 2 Martedì 4 5 5 5 4 4 4 23 3 Mercoledì 4 4 5 5 5 4 4 23 4 Giovedì 4 4 4 5 5 5 4 22 5 Venerdì 4 4 4 4 5 5 5 21 6 Sabato 5 4 4 4 4 5 5 21 7 Domenica 5 5 4 4 4 4 5 22 Mesi di 30 giorni 8 Lunedì 5 5 4 4 4 4 4 22 9 Martedì 4 5 5 4 4 4 4 22 10 Mercoledì 4 4 5 5 4 4 4 22 11 Giovedì 4 4 4 5 5 4 4 22 12 Venerdì 4 4 4 4 5 5 4 21 13 Sabato 4 4 4 4 4 5 5 20 14 Domenica 5 4 4 4 4 4 5 21 Febbraio bisestile 15 Lunedì 5 4 4 4 4 4 4 21 16 Martedì 4 5 4 4 4 4 4 21 17 Mercoledì 4 4 5 4 4 4 4 21 18 Giovedì 4 4 4 5 4 4 4 21 19 Venerdì 4 4 4 4 5 4 4 21 20 Sabato 4 4 4 4 4 5 4 20 21 Domenica 4 4 4 4 4 4 5 20 Febbraio non bisestile 22 Qualsiasi 4 4 4 4 4 4 4 20 Il procedimento classico 03/03/2020 Pagina 26
Interventi preliminari Nella tabella che segue, infine, è riportata, per ciascun mese, la successione delle tipologie mensili, una struttura che si ripete ogni 28 anni: Anno Gennaio Febbraio Marzo Aprile Maggio Giugno Luglio Agosto Settembre Ottobre Novembre Dicembre Anno 2000 6 16 3 13 1 11 6 2 12 7 10 5 1972 2001 1 22 4 14 2 12 7 3 13 1 11 6 1973 2002 2 22 5 8 3 13 1 4 14 2 12 7 1974 2003 3 22 6 9 4 14 2 5 8 3 13 1 1975 2004 4 21 1 11 6 9 4 7 10 5 8 3 1976 2005 6 22 2 12 7 10 5 1 11 6 9 4 1977 2006 7 22 3 13 1 11 6 2 12 7 10 5 1978 2007 1 22 4 14 2 12 7 3 13 1 11 6 1979 2008 2 19 6 9 4 14 2 5 8 3 13 1 1980 2009 4 22 7 10 5 8 3 6 9 4 14 2 1981 2010 5 22 1 11 6 9 4 7 10 5 8 3 1982 2011 6 22 2 12 7 10 5 1 11 6 9 4 1983 2012 7 17 4 14 2 12 7 3 13 1 11 6 1984 2013 2 22 5 8 3 13 1 4 14 2 12 7 1985 2014 3 22 6 9 4 14 2 5 8 3 13 1 1986 2015 4 22 7 10 5 8 3 6 9 4 14 2 1987 2016 5 15 2 12 7 10 5 1 11 6 9 4 1988 2017 7 22 3 13 1 11 6 2 12 7 10 5 1989 2018 1 22 4 14 2 12 7 3 13 1 11 6 1990 2019 2 22 5 8 3 13 1 4 14 2 12 7 1991 2020 3 20 7 10 5 8 3 6 9 4 14 2 1992 2021 5 22 1 11 6 9 4 7 10 5 8 3 1993 2022 6 22 2 12 7 10 5 1 11 6 9 4 1994 2023 7 22 3 13 1 11 6 2 12 7 10 5 1995 2024 1 16 5 8 3 13 1 4 14 2 12 7 1996 2025 3 22 6 9 4 14 2 5 8 3 13 1 1997 2026 4 22 7 10 5 8 3 6 9 4 14 2 1998 2027 5 22 1 11 6 9 4 7 10 5 8 3 1999 Il procedimento classico 03/03/2020 Pagina 27
Interventi preliminari Giunti a questo punto, abbiamo tutti gli elementi per effettuare confronti fra elementi della serie al netto del diverso numero di giorni lavorativi. Nella seguente tabella è riportata la serie mensile dei prestiti erogati dal sistema bancario inglese, di cui consideriamo il triennio 2010-2012: 2010.1 5.648,97 2011.1 5.380,47 2012.1 6.328,48 2010.2 7.650,46 2011.2 7.760,23 2012.2 7.630,08 2010.3 10.614,76 2011.3 9.881,05 2012.3 9.072,50 2010.4 9.237,66 2011.4 7.383,14 2012.4 8.453,88 2010.5 9.476,92 2011.5 8.540,33 2012.5 9.260,43 2010.6 10.386,52 2011.6 10.154,01 2012.6 7.691,70 2010.7 9.325,98 2011.7 9.507,38 2012.7 7.987,42 2010.8 7.680,36 2011.8 9.146,91 2012.8 8.222,76 2010.9 8.274,02 2011.9 8.331,56 2012.9 7.707,63 2010.10 7.941,91 2011.10 8.675,03 2012.10 9.176,17 2010.11 8.480,22 2011.11 8.864,89 2012.11 8.585,51 2010.12 6.059,13 2011.12 6.268,01 2012.12 5.786,43 Il procedimento classico 03/03/2020 Pagina 28
Interventi preliminari Ipotizziamo di essere interessati al confronto fra il dato registrato nel febbraio 2012 e quello relativo al febbraio dell’anno precedente. Dalla consultazione del prospetto che riporta la successione delle tipologie mensili, sappiamo che febbraio 2011 − e più in generale il febbraio di ogni anno non bisestile − ha avuto 20 giorni lavorativi, mentre febbraio 2012 − anno bisestile − ha avuto 21 giorni lavorativi, quindi dobbiamo procedere alla correzione. L’ammontare di prestiti erogati dal sistema bancario inglese nel febbraio 2011 è risultato pari a 7.760,23 milioni di sterline, contro i 7.630,08 milioni di sterline erogati nel febbraio 2012. Se non procedessimo alla correzione, avremmo che 7.630,08 − 1 ! 100 = 0,983 − 1 ! 100 = −1,677 7.760,23 e cioè che, rispetto al dato registrato nel febbraio 2011, l’ammontare di prestiti erogati nel febbraio dell’anno successivo si è contratto dell’1,677% − una contrazione abbastanza contenuta, si potrebbe pensare. Il procedimento classico 03/03/2020 Pagina 29
Interventi preliminari In realtà, il febbraio del 2012 ha avuto un giorno lavorativo in più, quindi correggiamo il dato di febbraio 2012 per ricondurlo ad un mese di 20 giorni lavorativi, utilizzando un semplice fattore di correzione: 20 7.630,08 ! = 7.266,74 21 Il confronto effettuato al netto del diverso numero di giorni lavorativi 7.266,74 − 1 ! 100 = 0,936 − 1 ! 100 = −6,4 7.760,23 ci dice una cosa ben diversa, e cioè che rispetto all’anno precedente la flessione nell’ammontare dei prestiti concessi sarebbe stata del 6,4%, a parità di giorni lavorativi. L’esempio appena svolto ci fa comprendere a pieno l’utilità della correzione, in quanto ci consente di individuare andamenti che altrimenti non sarebbero evidenziati dai confronti svolti sulla serie grezza. Il procedimento classico 03/03/2020 Pagina 30
Interventi preliminari Naturalmente, se volessimo depurare la serie osservata dalle variazioni dovute al diverso numero di giorni lavorativi, il procedimento potrebbe rivelarsi eccessivamente farraginoso, senza contare che si renderebbe di nuovo necessario un controllo di coerenza fra dati grezzi e dati corretti, al fine di eliminare eventuali distorsioni. È per tale motivo che nella pratica si applicano metodi di regressione, presenti nei principali software econometrici: • nella procedura Census X11, Arima X11 e Arima X12 si utilizza un metodo deterministico proposto da Young (1965); • in altre procedure si applica un metodo stocastico sviluppato da Dagum, Quenneville e Sutradhar (1992). Ovviamente, una trattazione approfondita di tali metodologie esula dalle finalità del nostro corso, quindi rinviamo a testi specialistici − quali E. Bee Dagum (2001) − per eventuali approfondimenti. Il procedimento classico 03/03/2020 Pagina 31
Interventi preliminari Correzioni per la presenza di feste mobili. La presenza di festività all’interno della settimana può rappresentare una fonte di variazioni di natura occasionale, ma non è chiaro come tenerne conto nella correzione del dato mensile. Spesso, infatti, le festività sono strettamente connesse alla composizione di calendario. Per esempio, se il mese di dicembre di un certo anno inizia di venerdì, il mese contiene 5 sabati e 5 domeniche e il Natale cade di lunedì. Del resto, la presenza di due festività nel mese non ha necessariamente il doppio dell’effetto di una singola festività. Per tale motivo, tali effetti tendono ad essere ignorati. Diverso è il caso delle feste mobili, cioè quelle feste che non cadono nello stesso giorno nei diversi anni. Il procedimento classico 03/03/2020 Pagina 32
Interventi preliminari Nei paesi occidentali il più importante caso di festa mobile è la Pasqua, che si può presentare in un periodo compreso tra il 22 marzo e il 25 aprile: Giorno in cui Giorno in cui Giorno in cui Anno cade la Anno cade la Anno cade la Pasqua Pasqua Pasqua 1970 29 marzo 1989 26 marzo 2008 23 marzo 1971 11 aprile 1990 15 aprile 2009 12 aprile 1972 2 aprile 1991 31 marzo 2010 4 aprile 1973 22 aprile 1992 19 aprile 2011 24 aprile 1974 14 aprile 1993 11 aprile 2012 8 aprile 1975 30 marzo 1994 3 aprile 2013 31 marzo 1976 18 aprile 1995 16 aprile 2014 20 aprile 1977 10 aprile 1996 7 aprile 2015 5 aprile 1978 26 marzo 1997 30 marzo 2016 27 marzo 1979 15 aprile 1998 12 aprile 2017 16 aprile 1980 6 aprile 1999 4 aprile 2018 1 aprile 1981 19 aprile 2000 23 aprile 2019 21 aprile 1982 11 aprile 2001 15 aprile 2020 12 aprile 1983 3 aprile 2002 31 marzo 2021 4 aprile 1984 22 aprile 2003 20 aprile 2022 17 aprile 1985 7 aprile 2004 11 aprile 2023 9 aprile 1986 30 marzo 2005 27 marzo 2024 31 marzo 1987 19 aprile 2006 16 aprile 2025 20 aprile 1988 3 aprile 2007 8 aprile 2026 5 aprile Il procedimento classico 03/03/2020 Pagina 33
Interventi preliminari Per una serie di flusso, quando una Pasqua cade in marzo può causare sia un aumento, sia una diminuzione dei livelli del mese di marzo, compensati da una diminuzione o un aumento nel successivo mese di aprile. Per esempio, se la Pasqua cade in marzo si registra una diminuzione dei dati relativi al commercio internazionale, in modo particolare le importazioni, decremento seguito da un aumento in aprile, dovuto alla registrazione in aprile delle fatture di fine marzo, fatture non registrate a causa della chiusura degli uffici doganali. Un effetto analogo può essere osservato nelle vendite di auto nuove, a causa della chiusura dei concessionari in occasione delle festività pasquali. L’effetto opposto caratterizza altre attività, quali le prenotazioni alberghiere. Il procedimento classico 03/03/2020 Pagina 34
Interventi preliminari Indipendentemente dal segno dell’impatto, positivo o negativo, l’impatto stesso può essere: • immediato, nel senso che solo durante il periodo della festa si verifica una variazione nel livello di attività; • graduale, se si manifesta anche nei giorni o nelle settimane che precedono la festa mobile. In particolare, l’effetto graduale si riscontra nelle vendite di capi di abbigliamento femminile o per l’infanzia, cioccolata, prodotti da forno, fiori, ecc. In questi casi, l’effetto della festa mobile non dipenderà solo dal mese in cui cade, ma anche dal giorno. Per esempio, se Pasqua cade il 2 aprile, l’effetto influenza anche i dati relativi al mese di marzo, se il periodo di preparazione della Pasqua si svolge anche durante tale mese. Il procedimento classico 03/03/2020 Pagina 35
Interventi preliminari Analogamente al caso precedente, le feste mobili possono essere trattate con metodi sia deterministici, sia stocastici. Gli interventi usualmente applicati sono: • Nel caso in cui si utilizzino serie grezze, il modello applicato è deterministico e include una variabile dummy per marzo e aprile e variabili dummy per l’effetto giorni lavorativi; • Nel casi in cui si utilizzino serie depurate dalle altre variazioni sistematiche, di solito il modello applicato è stocastico, ma la metodologie di trattamento delle feste mobili è diversa, a seconda che si ipotizzi un effetto immediato o un effetto graduale. Come nel caso dell’effetto giorni lavorativi, il trattamento dei dati è svolto tramite procedure automatizzate, presenti nei principali software econometrici. Per eventuali approfondimenti il lettore può fare riferimento a testi specialistici. Il procedimento classico 03/03/2020 Pagina 36
Interventi preliminari Integrazione di valori mancanti. A volte può verificarsi che, per un qualsiasi motivo, la serie storica analizzata sia caratterizzata da lacune. Tali lacune possono in qualche modo pregiudicare l’affidabilità delle stime e addirittura oscurare la percezione di dinamiche importanti. Si determina quindi la necessità di intervenire sulla serie analizzata al fine di colmare tali vuoti. L’ipotesi di fondo è che si interviene per integrare i valori mancanti quando il lack informativo è dovuto a fattori casuali e non sistematici − ipotesi che è spesso indicata come MCAR, cioè missing completely at random − ovvero quando essi non abbiano ragioni sistematiche per essere assenti. Chiariamo meglio questo concetto: in occasione di eventi eccezionali, quali una guerra o una calamità naturale, potrebbe verificarsi che il fenomeno analizzato non abbia luogo, il che determina un’interruzione nella serie cronologica. Per esempio, se stiamo analizzando la spesa mensile per spettacoli musicali all’aperto, potrebbe determinarsi un lack informativo se nel periodo considerato è in corso di svolgimento un conflitto bellico. Tale fattore è sistematico, quindi in questi casi non si interviene con tecniche di integrazione, ma si controlla il vuoto informativo tramite variabili dummy. Il procedimento classico 03/03/2020 Pagina 37
Interventi preliminari Il problema è quindi di intervenire sulla serie osservata per ricostruire i dati mancanti, una volta sicuri che la mancanza del dato non sia dovuta a un fattore sistematico, importante per la conoscenza del fenomeno che stiamo considerando. Premesso che molti software econometrici integrano automaticamente i dati mancanti, le tecniche più diffuse sono riconducibili a: • Metodi basati su misure di centralità • Metodo della mediana di Hodges-Lehmann • Metodo tabellare (su dati mensili) • Interpolazione lineare • Livellamento proporzionale o media ponderata tra valori nell’intorno Il procedimento classico 03/03/2020 Pagina 38
Interventi preliminari Metodi basati su misure di centralità Si sceglie una misura di centralità, come la media aritmetica, la mediana o la metà dello scarto interquartilico (differenza tra terzo e primo quantile) e si attribuisce ai valori mancanti questo valore centrale. Vantaggi: • La stima del valore mancante è all’interno del range dei valori effettivamente osservati. Svantaggi: • Non si considera l’ordinamento temporale dei valori della serie • Si sottostima la variabilità Il procedimento classico 03/03/2020 Pagina 39
Interventi preliminari Metodo della mediana di Hodges-Lehmann L’idea è sempre quella di imputare al dato mancante un valore centrale calcolato sull’intera distribuzione, utilizzando però come stimatore di tendenza centrale la mediana di Hodges e Lehmann. Data una serie storica composta da n osservazioni, si considerano tutte le possibili @(@AB) C coppie e D , con t
Interventi preliminari Metodo tabellare (su dati mensili) In questo caso, come tendenza centrale si considera o la media dei valori osservati nell’anno o la media dei valori osservati nello stesso mese del dato mancante nei vari anni o la media tra le due. In pratica, si dispongono in una tabella a doppia entrata (in riga gli anni, in colonna i mesi) i dati osservati. Ad es. consideriamo l’indice della produzione industriale (dati destagionalizzati, 2015=100): Anno Gen Feb Mar Apr Mag Giu Lug Ago Set Ott Nov Dic 2016 102 100,7 100,7 102,3 100,4 99,3 101,2 102,1 101,9 102,5 103,3 104,9 2017 102,5 103,3 104,1 103,9 104,3 105,5 108,3 105,1 105,7 107,3 110,5 2018 107 106 107,4 106,2 106,3 106,6 105 106,6 106,5 106,4 104,5 104,9 2019 106,2 106,8 105,5 104,7 105,5 105,2 104,3 104,5 104,1 103,7 103,7 100,9 Il procedimento classico 03/03/2020 Pagina 41
Interventi preliminari Metodo tabellare (su dati mensili) Ipotizziamo che il dato di luglio 2017 sia mancante. Applicando il metodo, possiamo imputare il valore: • 105,5 media dei valori osservati da gennaio a dicembre 2017 • 103,8 media dei valori osservati a luglio 2016, luglio 2018, luglio 2019 • 104,7 media dei due precedenti Nota: Se avessimo applicato i metodi che utilizzano la tendenza centrale, avremmo avuto: 104,5 media di tutte le osservazioni; 104,7 mediana delle osservazioni 104,4 metà della differenza interquartilica Il procedimento classico 03/03/2020 Pagina 42
Interventi preliminari Interpolazione lineare Si ipotizza che l’andamento della serie nell’intervallo temporale centrato sul dato mancante sia lineare. Pertanto, il valore mancante può essere stimato con: H6AB GH6IB F =G% + & Per l’esercizio precedente, il dato mancante di luglio 2017 viene stimato come: %JK,L G%JM,M 105,5 + = 106,9 & Contrariamente ai precedenti, questo metodo rispetta l’ordinamento temporale della serie. Il procedimento classico 03/03/2020 Pagina 43
Interventi preliminari Livellamento proporzionale o media ponderata tra valori nell’intorno In questo caso, che comprende come caso particolare per k=0,5 il precedente, si ipotizza che il valore mancante possa essere stimato come: F =G% + k (O% − G% ) con k>0 Per l’esercizio precedente, il dato mancante di luglio 2017 viene stimato ad esempio con: per k= 0,6 105,5 + 0,6(108,3 −105,5) = 107,2 per k= 0,4 105,5 + 0,4(108,3 −105,5) = 106,6 per k= 0,2 105,5 + 0,2(108,3 −105,5) = 106,1 Anche questo metodo rispetta l’ordinamento temporale della serie. Curiosità: il dato effettivamente registrato per l’indice della produzione industriale nel mese di luglio 2017 è stato 106,1. Il procedimento classico 03/03/2020 Pagina 44
Interventi preliminari Dati anomali o valori influenti Nello studiare le serie storiche il nostro interesse è rintracciare nei dati comportamenti generali o tendenze. Tuttavia, esistono eccezioni a queste tendenze. Se un dato risulta molto più alto/basso dei valori immediatamente precedenti o seguenti viene definito dato anomalo o outlier. In alcuni casi, i valori anomali possono essere dovuti ad errori di misura, o ad eventi particolari, quali condizioni climatiche particolarmente avverse nel caso delle produzioni agricole, catastrofi naturali, ecc. In queste situazioni, è importante individuare e «correggere» i dati anomali per evitare di inficiare l’interpretazione della serie storica complessiva. In altri casi, trovare quale variabile/periodo non rispetti lo schema di comportamento generale può essere perfino più interessante che trovare il modello di comportamento stesso. Il procedimento classico 03/03/2020 Pagina 45
Interventi preliminari Classificazione degli outlier con effetti transitori: • outlier additivo: si manifesta con una brusca variazione della serie in un dato momento, il cui effetto però è immediatamente riassorbito. In questo caso il dato anomalo si sostituisce con una media di valori immediatamente precedenti e successivi • cambiamento temporaneo: il cambiamento viene riassorbito gradualmente nel tempo; con effetti permanenti: • cambiamento di livello: è un cambiamento brusco in un dato istante temporale che perdura nel tempo; • cambiamento di pendenza: è un cambiamento brusco della tendenza della serie, permanente nel tempo (break strutturale). Il procedimento classico 03/03/2020 Pagina 46
Interventi preliminari Esempi di serie con valori anomali 1,8 1,6 1,4 1,2 1 Serie1 0,8 0,6 0,4 0,2 0 0 5 10 15 20 25 Il procedimento classico 03/03/2020 Pagina 47
Puoi anche leggere