Modelli statistici di diffusione dell'epidemia COVID-19 - Scienze ...
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Modelli statistici di diffusione dell'epidemia COVID-19 Renato Guseo, 3-05-2020 Dipartimento di Scienze Statistiche, Università degli Studi di Padova 1 Introduzione L'epidemia di Covid-19 in Italia ha presentato i suoi primi casi, rilevati tecnicamente, il 20 febbraio 2020 in particolari aree della Lombardia, Cologno e altre città della provincia di Lodi. Oggi ci sono prove concrete della presenza locale di almeno un contatto positivo senza sintomi espliciti proveniente da Monaco (Germania), evento accaduto intorno al 25 gennaio. Alcune risultanze recenti segnalano un possibile "primo contagio" già agli inizi di gennaio. Il dati salienti sono comunque la latenza del fenomeno, la sua scarsa conoscenza in Italia ed in Europa, il ritardo nell'acquisizione scientifica e di igiene pubblica delle esperienze cinesi, e sud coreane. Il contagio si è quindi auto-implementato in modo latente per settimane creando una distribuzione policentrica. Questo aspetto ha caratterizzato la rapida esplosione dell'epidemia in Lombardia, come evidenziato dai casi positivi osservati mediante successivi test validati intorno al 20 febbraio. Anche in Veneto si sono avuti i primi casi rilevati di Covid-19 a Vò nei Colli Euganei. Questo problema è stato immediatamente trattato dalla Regione Veneto con una quarantena per tutti i residenti della cittadina, circa 3.300 soggetti. Gli appartenenti a questo cluster sono stati testati per evidenziare una possibile positività alla Covid-19. I risultati hanno dimostrato che l'attività di contagio di soggetti positivi senza sintomi dilata la velocità complessiva del contagio stesso, velocità che quindi non è alimentata dai soli casi sintomatici. L'asimmetria distributiva dei casi rilevati nelle prime tre settimane, della Lombardia rispetto al Veneto, è stata confermata empiricamente e questo ha determinato specifici livelli nei parametri della dinamica, parametri che possono essere correttamente interpretati. Il picco della Lombardia anticipava, in quella logica iniziale, quello corrispondente in Veneto di circa due settimane. Ciò è probabilmente dovuto a un controllo efficiente dei residenti di Vò e alle successive strategie di isolamento volontario e di distanziamento sociale per tutti i residenti della regione Veneto. Questa azione sistematica ha prodotto successivamente, in funzione delle politiche di contenimento nazionali e regionali, una contrazione distributiva della curva dei casi in Veneto ed un suo abbassamento assoluto. 2 Dinamica dei casi al di fuori della Cina continentale (fonte di dati: Worldometer). La diffusione di un'epidemia, di un'informazione, di una moda, di un prodotto commerciale, di un farmaco ecc. può essere espressa nell'ambito di un sistema complesso costituito da agenti. Questi ultimi hanno una forte capacità di auto-orientamento, di decisione, di condivisione auto-organizzata che spesso non dipende dalle condizioni del profilo individuale e non richiede una guida centralizzata. Le reti di relazioni e la loro formazione tematica su vari piani rendono il sistema complesso una struttura macroscopica rilevante sotto il profilo evolutivo. Sociologi, fisici, biologi, esperti di marketing quantitativo, statistici e matematici hanno dato notevoli contributi allo sviluppo di questi temi interdisciplinari. 1
Il modello iniziale proposto per la diffusione dei casi di Covid-19 fuori della Cina appartiene alla famiglia delle metodologie di diffusione di innovazioni. Si tratta di un modello di Bass generalizzato, GBM, (Bass et al, 1994) dotato di una funzione di controllo e migliorato con l'introduzione di effetti asimmetrici dovuti a Bemmaor (Bemmaor, Lee, 2004), effetti atti a spiegare fenomeni di mistura distributiva a livello aggregato. Tale modello assume una carrying capacity - ovvero un potenziale dei suscettibili nel caso specifico - costante durante il ciclo evolutivo. Questa assunzione può essere un'evidente limitazione. E' opportuno ricordare che i modelli di Bass, e le loro varianti nei modelli di diffusione di innovazioni, differiscono sostanzialmente dal modello logistico (Verhulst, 1838) e dai paralleli modelli SIR per un punto fondamentale che riguarda il processo di inizializzazione. La condizione iniziale dell'equazione logistica determina un'inizializzazione localizzata temporalmente nel processo. Il modello di Bass utilizza invece un sottomodello monomolecolare per descrivere un'inizializzazione esogena dei casi distribuita nel tempo. In parallelo, entrambi sviluppano il meccanismo di contagio o passaparola (word-of-mouth). Con riferimento ai casi fuori della Cina, il primo shock esponenziale incluso nel modello di diffusione di Bass generalizzato, GBM, è stato identificato intorno al 29 febbraio ed è riassorbibile. L'intervento iniziale del governo italiano, ad esempio con il blocco delle attività educative standard, può essere datato con il 24 febbraio. Il ritardo degli effetti, stimato in circa 14 giorni, è stato cruciale. L'utilità di tali interventi, non solo per l'Italia, può essere evidenziata ed era verificabile intorno al 9 marzo. Si osserva tuttavia, un effetto di mascheramento in Europa dovuto alle politiche dilatorie di Francia e Germania. Questi paesi hanno riscontrato il problema, per primi in Europa e molto prima dell'Italia, ma hanno introdotto alcuni interventi pertinenti solo intorno al 4 marzo. Un secondo shock esponenziale crescente è stato identificato il 14 marzo. Si tratta di uno shock assorbibile nella diffusione ed è dovuto alla ritardata espansione del contagio al di fuori della Cina nei paesi e nelle regioni con diverse politiche di sanità pubblica. Un terzo shock è stato identificato intorno al 19 marzo probabilmente a causa dell'espansione esponenziale dell'epidemia negli Stati Uniti. Come si può vedere ora nelle figure in coda, si è successivamente adottato un modello più flessibile (GGM) che assorbe bene le dinamiche osservate in forza delle sue caratteristiche. Tale modello è presentato qualitativamente nella sezione che segue. 3 Un modello dinamico con potenziale variabile. Un modello alternativo, basato su un potenziale dinamico - funzione di una rete latente di relazioni in crescita -, GGM (Guseo, Guidolin, 2009), può essere preso in considerazione per valutare la presenza, al di fuori della Cina, di nuove ondate di casi rilevati nell'epidemia di Covid-19. Questo modello si basa su due driver, uno latente che descrive un potenziale variabile di carattere crescente basato su una rete di relazioni interpersonali e un secondo, nidificato nel precedente, che implementa gli eventi di contagio. Tale modello è caratterizzato da un'inizializzazione distribuita e può presentare uno o due picchi modali in funzione dei parametri coinvolti: due parametri per il controllo della dinamica del potenziale qui assunto crescente, due parametri per il controllo della dinamica dei contagi ed uno di scala. Si noti che la possibile bimodalità distributiva si è resa evidente in alcune situazioni ad esempio in: Piemonte, Belgio, Olanda, Germania, USA, Canada. 2
Queste nuove direzioni di indagine potevano essere riconosciute o meno dopo il 15 marzo in presenza di un'informazione sufficiente sulle caratteristiche empiriche dei cicli osservati. Come è noto, Corea del Sud, Iran e Italia sono stati i primi tre paesi in cui è emersa l'epidemia, probabilmente a causa delle intense attività commerciali e turistiche dirette con la Cina. Il primo paese che ha raggiunto il picco unimodale di nuovi casi Covid-19 nella prima settimana di marzo, è stata la Corea del Sud che ha implementato politiche innovative per il rilevamento dei vettori asintomatici. A partire dal 14 marzo, la stessa Corea del Sud è stata caratterizzata da un basso livello stazionario di Covid-19. Tale effetto endemico si identifica facilmente con l'integrazione, nel ciclo principale, di un modello di diffusione locale specifico, un sottomodello di Bass. In alternativa si è adottato un semplice modello GGM che è in grado di esprimere anche l'effetto endemico a destra. L'Iran ha avuto un primo picco locale nella prima settimana di marzo. Sulla base dei dati del 12/3 e utilizzando un modello GGM, un secondo picco sarebbe potuto apparire nella terza settimana di marzo. Questa previsione non è stata confermata il 24 marzo. Di fatto, quattro grandi incrementi successivi di nuovi casi hanno rinviato l'evento di una settimana. L'inserimento di un solo shock esponenziale che realizza il cambio di regime, GGM + e1P, ha consentito successivamente una descrizione quasi senza errore dei nuovi casi di Covid-19 degli ultimi 25 giorni. 4 Modellistica statistica dei casi di COVID-19 in Italia, Lombardia, Veneto, provincia di Padova, Piemonte, Puglia e altri paesi. Il modello iniziale proposto per i casi italiani di Covid-19 - basato sui dati del Ministero della Salute - è stato un modello di diffusione Bass-like con l'inclusione degli effetti di Bemmaor (Bemmaor, Lee, 2004). In questo caso, la coda destra più lunga è dovuta ad un effetto delle politiche attuate per contrastare la diffusione. Ciò implica quindi un ritardo distribuito. A causa di un grande aumento di casi in Lombardia, il governo italiano ha introdotto l'8 marzo un nuovo decreto legge con forti restrizioni della mobilità individuale per quanto riguarda la Lombardia e altre 14 province. Un successivo decreto del 9 marzo ha esteso le restrizioni a tutte le regioni d'Italia fino al 3 aprile. Ulteriori misure hanno inasprito i vincoli con controlli crescenti sul territorio. Intorno al 16 marzo, l'Italia avrebbe potuto raggiungere il suo picco sulla base delle dinamiche precedenti non ancora soggette agli effetti delle iniziative di contenimento. Questa ipotesi poteva essere confermata l'11-13 marzo se le precedenti restrizioni fossero state applicate sistematicamente della popolazione. Sfortunatamente, a partire dal 16 marzo, ci sono state evidenze sulla diffusione geografica al di fuori delle regioni della Lombardia e del Veneto con un'espansione dinamica del potenziale nazionale. Questa nuova situazione ha suggerito, dal punto di vista tecnico, l'introduzione di un GGM con due shock esponenziali per recuperare i significativi cambi di regime dovuti alle principali azioni politiche di contenimento. Nello stesso periodo, la Lombardia ha raggiunto livelli elevatissimi di crescita dei casi soprattutto a Bergamo, Brescia e in altre città collegate. La distribuzione GGM dei casi nel tempo (Guseo, Guidolin, 2011) presenta due fattori distributivi che agiscono congiuntamente sul processo di diffusione: la "Comunicazione", C e l' "Adozione", A. 3
I picchi di tempo corrispondenti sono indicati con tC e tA, rispettivamente. Nell'epidemia di Covid-19 l'"Adozione" rappresenta principalmente la capacità individuale di sviluppare la patologia, l'infettività. La "Comunicazione" indica invece la predisposizione al contagio, la trasmissibilità. I tempi di picco precedenti sono indipendenti dalla scala assoluta del fenomeno. Il 22 marzo, i tempi stimati per il Veneto (in giorni dall'origine dei dati) sono stati tA = 18 e tC = 46. La Lombardia ha avuto un comportamento ben differente: tA = 23 e tC = 34. In altre parole, il Veneto ha una minore resistenza all'infettività (frazione della popolazione anziana più elevata?), ha tuttavia sviluppato un'efficace resistenza al contagio con un tempo più lungo tC rispetto alla Lombardia. Il 30 di marzo diviene evidente nella modellazione dei dati a livello nazionale e nelle regioni del nord Italia il pieno effetto delle misure governative e regionali. Risultano ben evidenziati intorno al 23/3 i picchi medi dei casi in Lombardia e Veneto. In particolare, il Veneto ottiene una contrazione della distribuzione temporale dei casi con una parallela riduzione degli eventi assoluti. A livello nazionale la dinamica dell'epidemia è più complessa e bimodale. Si tratta della mistura di due eventi principali imputabili, da un lato, all'espansione nel nord Italia con il picco del 22/3, e dall'altro, alla successiva espansione nella restante parte d'Italia, con il picco del 28/3. La versione attuale del modello dei casi giornalieri di Covid-19 per l'Italia si basa su un semplice GGM. Le deviazioni casuali e/o stagionali (settimanali) sono di fatto trascurabili in una valutazione prospettica. 5 Mortalità in Italia Il processo che descrive la mortalità nel tempo per l'epidemia di Covid-19 è, per sua natura, più regolare e dipende dal ciclo temporale dei casi rilevati ex-ante ed ex-post. Tale dinamica è naturalmente funzione della capacità corrente delle strutture sanitarie e delle caratteristiche della popolazione. La rilevazione del dato è sicuramente più precisa e documentata. Il modello evolutivo iniziale proposto per le morti italiane di Covid-19 è stato un modello di Bass con la correzione di Bemmaor basato sui dati del Ministero della Salute. L'evoluzione dinamica è stata abbastanza regolare ove si combinavano dinamiche naturali, politiche di contrasto e la presenza, a livello aggregato, di un miscuglio di sottopopolazioni specifiche Bass-like a livello territoriale. Una ragionevole stabilità delle stime potrebbe essere stata raggiunta intorno al 18-20 marzo. Dopo questa fase esplorativa iniziale si è adottato un più flessibile modello GGM che ben interpreta le asimmetrie distributive rispetto al picco. Le ragioni del migliore adattamento dipendono dalle caratteristiche analitiche e di merito del modello stesso. 6 Alcune modellazioni dell'epidemia Covid-19 nei paesi più colpiti La modellazione dei casi rilevati in Cina è stata condotta mediante un GBM aggiustato con l'effetto di Bemmaor per tener conto della mistura di sottopopolazioni. I dati utilizzati sono stati ottenuti da Worldometer. Ci si avvale ovviamente del solo dato ufficiale la cui qualità dipende dal paese fornitore. In questo caso l'evidente cambio di regime tecnico di rilevazione dei casi ha prodotto un'impennata contabile che è stata opportunamente isolata, mediante uno shock esponenziale calibrato, consentendo una valutazione depurata della dinamica. Si è applicato successivamente un modello ARMAX - non necessario per il lungo termine - per affinare localmente le previsioni. In questo momento la Cina presenta una coda stazionaria di basso livello di tipo endemico. Mediamente 50 nuovi casi al giorno. 4
Australia, Austria, Belgio, Olanda, Svezia, Turchia, Francia, Spagna, Germania e Svizzera sono state modellate con un GGM e presentano spesso la necessità dell'introduzione di un cambio di regime localmente esponenziale, e1P, per tener conto di variazioni sistematiche dell'evoluzione media dovuta alle politiche via via introdotte. Cambiano poi, nei vari paesi, le politiche locali di definizione dei casi rilevati. Queste fonti di variabilità determinano fluttuazioni locali dei residui talvolta non stazionarie. UK, USA e Canada non hanno prodotto interventi di contenimento tempestivi e l'evoluzione è ora esplosiva come evidenziato dai modelli GGM applicati alle serie dei casi rilevati. 7 Situazione corrente: aprile 28 I casi al di fuori della Cina hanno probabilmente raggiunto il picco intorno al 24 di aprile. L'Italia ha raggiunto una buona posizione mediante le politiche di contenimento. Il 95% dei casi cumulati si dovrebbe raggiungere il 15 di maggio. Il numero di riproduzione corrente è R(t)=0.120. Lombardia e Veneto hanno comportamenti dinamici differenziati con R(t) pari a 0.182 e 0.063, rispettivamente. Il Veneto dovrebbe raggiungere il 95% dei casi cumulati il 5 di maggio. La Lombardia presenta una coda molto più lunga dovuta ad una situazione più complessa. L'Emilia-Romagna sta raggiungendo una buona posizione. Gli stati che presentano un controllo ottimale dell'epidemia con una coda endemica di livello contenuto sono: Cina, Corea del Sud, Australia, Austria, Svizzera. Entro due settimane la Germania sarà nella stessa condizione: R(t)=0.068. La Francia non ha presentato in questo caso un sistema amministrativo efficiente per la raccolta dei dati. Frequenti e consistenti sono state le revisioni dell'informazione pubblica. Questo comportamento può rendere poco significativa la modellazione statistica. UK, Canada, Spagna e gli USA si trovano intorno ai rispettivi picchi. In molte situazioni si è molto lontani da un comportamento stazionario endemico di livello contenuto. 5
Alcuni riferimenti Bass, F.M. (1969). A new product growth model for consumer durables, em Management Science, 15, 215-227. Bass, F.M., Krishnan, T.V., Jain, D.C. (1994). Why the Bass model fits without decision variables, Marketing Science, 13, 203-223. Bemmaor, A.C., Lee, J. (2002). The Impact of Heterogeneity and Ill-Conditioning on Diffusion Model Parameter Estimates. Marketing Science, 21(2), 209-220. Boccara, N. (2004). Modeling Complex Systems, Springer-Verlag, New York. Fibich, G., Gibori, R. (2010). Aggregate Diffusion Dynamics in Agent-Based Models with a Spatial Structure. Operations Research, 58(5), 1450-1468. Guidolin, M., Guseo, R. (2014). Modelling Seasonality in Innovation Diffusion. Technological Forecasting and Social Change, 86, 33-40. Guseo, R. (2016). Diffusion of innovations dynamics, biological growth and catenary function. Physica A: Statistical Mechanics and its Applications, 464, 1-10. Guseo, R., Guidolin, M. (2008). Cellular Automata and Riccati Equation Models for Diffusion of Innovations. Statistical Methods and Applications, 17(3), 291-308. Guseo, R., Guidolin, M. (2009). Modelling a Dynamic Market Potential: A Class of Automata Networks for Diffusion of Innovations. Technological Forecasting and Social Change, 76(6), 806- 820. Guseo, R., Guidolin, M. (2010). Cellular Automata with Network Incubation in Information Technology Diffusion. Physica A: Statistical Mechanics and its Applications, 389(12), 2422-2433. Guseo, R., Guidolin, M. (2011). Market potential dynamics in innovation diffusion: modelling the synergy between two driving forces. Technological Forecasting and Social Change, 78(1), 13-24. Guseo, R., Mortarino, C. (2012). Sequential Market Entries and Competition Modelling in Multi- Innovation Diffusions. European Journal of Operational Research, 216, 658-667. Guseo, R., Mortarino, C. (2015). Modeling competition between two pharmaceutical drugs using innovation diffusion models, The Annals of Applied Statistics, 9(4), 2073-2089. Meade, N., Islam, T. (2006). Modelling and forecasting the diffusion of innovation - a 25-year review. Int. Journal of Forecasting, 22(3), 519-545. Norton, J.A., Bass, F.M. (1987). A diffusion theory model adoption and substitution for successive generations of high technology products, Management Science, 33, 1069-86. Peres, R., Muller, E., Mahajan, V. (2010). Innovation diffusion and new product growth models: a critical review and research directions, Inter. Journal of Research in Marketing, 27(2), 91-106. Verhulst, P.F. (1838). Notice sur la loi qui la population suit dans son accroissement, Corres. Math. et Physique, 10, 113-121. Volterra, V. (1926). Fluctuations in the abundance of a species considered mathematically, Nature, 118(2972), 558-60. 6
11
12
13
14
15
16
17
18
19
20
21
22
23
COVID-19: daily Reproduction number of GGM, R(t) Switzerland Lombardia Romagna Piemonte Germany Emilia- Veneto Puglia USA Italy 4/27 0.110 0.085 0.029 4/28 0.098 0.088 0.026 4/29 0.298 0.088 0.162 0.090 0.263 0.024 4/30 0.250 0.081 0.149 0.083 0.278 0.021 5/1 0.124 0.237 0.075 0.181 0.096 0.141 0.083 0.321 0.019 5/2 0.128 0.205 0.072 0.164 0.088 0.133 0.076 0.308 0.017 5/3 0.112 0.182 0.063 0.147 0.074 0.120 0.068 0.272 0.011 5/4 5/5 5/6 5/7 5/8 5/9 5/10 5/11 5/12 5/13 5/14 5/15 5/16 5/17 5/18 24
Puoi anche leggere