Open data e intelligenza artificiale: le opportunità per la gestione della finanza locale

Pagina creata da Raffaele Franchini

Varie

Italiano

Piace
Condividi
Incorpora
Schermo intero
Diapositive
Scarica HTML
Scarica PDF
Abuso

←

CONTINUA A LEGGERE

→

Trascrizione del contenuto della pagina

Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù

Open data e intelligenza artificiale: le opportunità per la gestione della finanza locale

Progetto IFEL

 Interventi di supporto e prevenzione delle crisi finanziarie nei comuni

Open data e intelligenza artificiale: le opportunità per la gestione della finanza locale

Relatore Prof. Giuliano Resce, Università degli Studi del Molise

 24 gennaio 2023

Trarre valore dagli Open-data

Machine Learning (ML) su Google

Finalità ML

 Limitare le ipotesi a priori
 Limitare l’uso dei modelli
 Basato sul calcolo dell'algoritmo
 Principalmente focalizzato sulla previsione più che sull'inferenza
 Mirato alla riduzione della complessità
 Idoneo per i Big Data

Outcome Outcome No Outcome
Categorical Continuous

Il gergo ML

 STATISTICS MACHINE LEARNING
 Statistical model Learner
 Estimation sample Training dataset
 Out-of-sample observations Test dataset
 Estimation method Algorithm
 Observation Instance (or sample)
 Predictor Feature
 Dependent variable Target

Esempi di applicazioni di Machine Learning

 Identificare i fattori di rischio per il cancro
 Previsione dell'attacco cardiaco mediante misurazioni demografiche, dietetiche e cliniche
 Personalizzazione del sistema di rilevamento dello spam e-mail
 Prevedi la variazione del prezzo del mercato azionario
 Auto a guida autonoma
 Classificazione dei pixel in un'immagine terra-satellite
 Traduttori automatici di lingue (Google Translate)
 Sistemi di riconoscimento vocale (Amazon Alexa)

In Economia?

 La maggior parte del lavoro politico empirico si concentra sull'inferenza causale.
 Un'importante classe di problemi politici non richiede l'inferenza causale ma richiede invece l'inferenza predittiva.
 La risoluzione di questi "problemi di politica di previsione" richiede più delle semplici tecniche di regressione, poiché queste sono
 sintonizzate per generare stime imparziali dei coefficienti piuttosto che minimizzare l'errore di previsione.
 I nuovi sviluppi nel campo del Machine Learning sono particolarmente utili per affrontare questi problemi di previsione.

Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan, and Ziad Obermeyer. 2015. "Prediction Policy
Problems." American Economic Review, 105 (5): 491-95.

Problemi politici simili a quelli della danza della pioggia

 Un politico che affronta una siccità deve decidere se investire in una danza della pioggia per aumentare le possibilità di pioggia.
 Un altro vedendo le nuvole deve decidere se portare un ombrello al lavoro per evitare di bagnarsi sulla strada di casa.
 Entrambe le decisioni potrebbero beneficiare di uno studio empirico della pioggia.
 Ma ognuno ha requisiti diversi dello stimatore.
 Uno richiede la causalità: le danze della pioggia causano la pioggia?
 L'altro no, necessita solo di previsione: la possibilità di pioggia è abbastanza alta da meritare un ombrello?
 Spesso ci concentriamo su problemi politici simili a quelli della danza della pioggia.
 Ma ci sono anche molti problemi politici simili ad ombrelli.

Esempi in letteratura

 Nel sistema di giustizia penale, i giudici devono decidere se detenere o rilasciare gli arrestati mentre attendono l'aggiudicazione del loro caso, una
 decisione che dipende da una previsione sulla probabilità dell'arrestato di commettere un crimine (Kleinberg, Lakkaraju, Leskovec, Ludwig e Mullainathan,
 2015 )
 Nell'istruzione, prevedere quale insegnante avrà il maggior valore aggiunto (Rockoff et al. 2011)
 Nella politica del mercato del lavoro, prevedere la durata del periodo di disoccupazione per aiutare i lavoratori a decidere sui tassi di risparmio e sulle
 strategie di ricerca del lavoro
 Nella regolamentazione, guidare le ispezioni (Kang etal. 2013)
 Nella politica sociale, prevedere i giovani a più alto rischio per gli interventi mirati (Chandler, Levitt e List 2011)
 Nel settore finanziario, istituti di credito che identificano il merito di credito sottostante dei potenziali mutuatari
 In economia pubblica prevedere i default del governo locale (Antulov, Lagravinese, Resce 2021)
 In economia sanitaria prevedere l'esitazione vaccinale (Carrieri, Lagravinese, Resce 2021)
 In epidemiologia che prevede i casi di COVID-19 (Brunori, Resce, Serlenga, 2020)
 In economia agraria prevedere il riconoscimento del Gis (Resce, Vaquero-Pineiro, 2022)
 In istruzione per prevedere il Drop-out (Delogu, Lagravinese, Paolini, Resce, 2022)
 Nella politica della ricerca per la previsione della rete di collaborazione accademica (Resce, Zinilli, Cerulli, 2022)

Stime della mortalità in eccesso attraverso ML

Formalmente

 = ƒ(X) + 

 Outcome
 Function depending Error
 (or response)
 on X term
 variable

Machine Learning

 Tecnica per stimare f con l’obiettivo di
 ridurre al minimo l’errore riducibile

 f(X) = E(Y|X)

Errore di addestramento vs errore di test

Training dataset Testing dataset
N in-sample available observations M out-of-sample observations

Valutazione dell'accuratezza predittiva del modello

 Valutazione delle prestazioni di un metodo di apprendimento statistico su un dato set di dati
 Quantificare se il valore di risposta previsto per una data osservazione è vicino al vero valore di risposta per quell'osservazione
 La misura comunemente usata è l'errore quadratico medio (MSE), dato da:

MAPE

 Le previsioni accurate hanno MAPE

L’accuratezza nella classificazione

 Nei problemi di CLASSIFICAZIONE, la variabile di risposta Y è qualitativa (o categorica)
  Esempi: Un'e-mail è una di H = (spam, ham) (dove ham = buona e-mail)
  Un cancro può essere di uno dei cinque tipi H = (T1, T2, T3, T4, T5)
 Abbiamo X = (X1, X2, … , Xp) predittori per Y
 I nostri obiettivi sono:
  costruire un classificatore C(X) che assegna un'etichetta di classe da H a una futura osservazione senza etichetta X
  valutare l'incertezza in ciascuna classificazione
  comprendere i ruoli dei diversi predittori tra X = (X1, X2, … , Xp).

Errore di classificazione errata

 Tipicamente misuriamo la performance di un classificatore con il Misclasification Error Rate (Errore di classificazione errata)

Accuracy =

La curva ROC

Due metodi per la stima dell'errore di test

o Validation set
 Random split
 Non-random split
o K-fold cross-validation

Validation set

 Divido il mio database in due parti, una la utilizzo per allenare il modello l’altra
 la utilizzo per testare le performance del modello

Limiti del Validation set

 Può dipendere in larga misura da quali osservazioni sono incluse nel set di addestramento e quali osservazioni sono incluse nel set di
 convalida
 Solo un sottoinsieme delle osservazioni, quelle incluse nel set di addestramento piuttosto che nel set di convalida, viene utilizzato per
 adattare il modello.

Validation set non casuale

 È un design più forte per valutare le prestazioni del modello perché consente variazioni non casuali tra la stima e il campione di controllo
 (la suddivisione casuale significa che le caratteristiche osservate e non osservate sarebbero bilanciate tra la stima e il campione di
 controllo).
 Esempi:
  Nei dati panel è possibile addestrare il modello o t-k (k>0) e testare in t
  Nei dati con risultati simili (ad esempio dati su sette vaccini separati), un modo per implementare la suddivisione non casuale è utilizzare uno dei
 risultati come campione di controllo (o utilizzare ciascuno come controllo iterativo)

K-fold cross-validation

 Dividi i dati in 5 gruppi (folds) approssimativamente uguali
 Usa il primo fold come valitaion set e i rimanenti 2-5
 come train set
 Stima il modello su 2-5 e valuta le sue performance su 1
 Ripeti gli step 2_3 usando come test set 2 poi 3…poi 5
 Scegli il modello che ha la migliore performance sul
 validation set

Repeated k-Fold Cross-Validation

 Una singola esecuzione della procedura di convalida incrociata k-fold può comportare una stima non accurata delle prestazioni del
 modello.
 Diverse suddivisioni dei dati possono portare a risultati molto diversi.
 La convalida incrociata k-fold ripetuta fornisce un modo per migliorare le prestazioni stimate di un modello di machine learning.
 Ciò implica semplicemente ripetere più volte la procedura di convalida incrociata e riportare il risultato medio in tutte le pieghe di tutte le
 esecuzioni.
 Questo risultato medio dovrebbe essere una stima più accurata della vera prestazione media sottostante sconosciuta del modello sul set
 di dati.

Una combinazione dei due

Motivazioni e domanda di ricerca

 Le difficoltà finanziarie dei governi locali possono avere forti ripercussioni sia per la finanza pubblica sia per i sistemi
 economici nel loro complesso.
  Il default del 2013 di Detroit – la più grande città nella storia degli Stati Uniti ad aver dichiarato bancarotta – è probabilmente il più
 famoso, ma in Europa si sono registrati altri casi di inadempienza di bilancio delle autorità subnazionali, in particolare in
 Catalogna, in Portogallo e in Italia
 In Italia, per rispondere ai crescenti problemi finanziari degli enti locali, la Legge n. 66 del 1989 ha introdotto una procedura
 speciale di insolvenza per il caso dei comuni.

 Tale insolvenza è prevedibile?

I numeri

Le regioni più colpite

Il problema predittivo

Ogni comune nell'anno è caratterizzato di seguenti gruppi di
caratteristiche:
 : Indicatori di bilancio
 : Variabili istituzionali
 : Variabili geografiche e socio-demografiche
A ogni comune nell'anno è associata una variabile binaria
target , che assume valore "1" se si è verificato un dissesto e
valore "0" in caso contrario

23 indicatori di bilancio da ISTAT

1. grado di autonomia impositiva
2. grado di dipendenza da contributi e trasferimenti correnti
3. grado di finanziamento interno
4. grado di autonomia finanziaria
5. rigidità della spesa
6. incidenza spese personale su spese correnti
7. grado di dipendenza da finanziamento esterno
8. incidenza spese personale su entrate correnti
9. incidenza spese per rimborso prestiti su entrate correnti
10. indice di consistenza iniziale dei residui passivi
11. grado di copertura delle spese correnti e dei rimborsi prestiti con entrate correnti
12. incidenza delle spese in c. capitale finanziate tramite mutui e prestiti obbligazionari
13. capacità di riscossione
14. capacità di spesa
15. indice di smaltimento dei residui passivi
16. avanzo / disavanzo di amministrazione in relazione alle entrate correnti
17. debiti fuori bilancio / entrate correnti
18. rapporto tra i debiti di finanziamento finali e iniziali
19. trasferimenti correnti / spese correnti
20. trasferimenti in conto capitale / spese in conto capitale
21. flussi finanziari per unità di spesa per il personale
22. alienazione beni patrimoniali / spese correnti
23. spese esterne per unità di risorse finanziarie

Variabili istituzionali da Ministero dell’Interno

 età del sindaco
 sesso del sindaco
 sindaco con o senza laurea
 età media dei consiglieri comunali
 quota di donne nel consiglio comunale
 sindaco da lista civica
 sindaco di centrosinistra
 sindaco di centrodestra
 sindaco del Movimento Cinque Stelle (M5S)

Variabili Geografiche e Socio-demografiche da
ISTAT e Ministero dell’Economia e Finanze

 popolazione
 superficie
 densità
 altitudine
 indice di povertà
 indice di disuguaglianza dei redditi
 reddito pro capite
 regione del Sud
 regione a statuto speciale

4 algoritmi

 LASSO Gradient Boosting
 Random Forest Neural Network

LASSO

Dove:

 Rappresenta la penalizzazione,
 è equivalente alla regressione lineare OLS
 equivale a non considerare nessuna variabile

Random Forest

 Dipendenza da finanziamenti esterni > 0.1

 Altitudine > 500 Regione del Sud
 =1

 Età del Sindaco < 50

Gradient Boosting

 Dipendenza da finanziamenti esterni > 0.1

 Altitudine > 500 Regione del Sud
 =1

 Età del Sindaco < 50

Neural
Network

Neuroni
Pesi
Attivazioni

Stima

 Dividiamo il database assegnando il 70% delle Repetated Cross validation su 27,452 osservazioni.
osservazioni al training set e il 30% delle osservazioni
 al test set. Number of folds = 10.
 Anni considerati: 2008-2016. Ripetizioni = 5

Dissesti nel training e nel test set nel 2011

Lavorare con dati sbilanciati

 Class weights: Impone pesi maggiori ai comuni in dissesto
 Up-sampling: aumenta artificialmente il numero di dissesti replicando i comuni nel dato
 Random Over-Sampling Examples (ROSE): aumenta artificialmente il numero di dissesti nel dato sulla base della combinazione lineare
 di più comuni in dissesto

Precision Recall Curve

Misurare la performance dei modelli predittivi mediante
l’area sotto le curve (AUC) per: precision recall curve
(PRC) e receiver operating characteristic (ROC)

 Tutti I modelli sono sviluppati sul training set (70%) e valutati sul test set (30%).
 GBM = Gradient Boosting Machine
 NN = Neural Network

Variabili più importanti nel modello finale (GBM)
Grado di dipendenza
da finanziamenti
esterni
Prestiti/Entrate
Avanzo (disavanzo) di
amministrazione in
relazione
alle entrate correnti
Incidenza spese per
rimborso
prestiti su entrate
correnti Note: (t-1) = un anno prima del dissesto; (t-2) = due anni prima
 del dissesto; (t-3) = tre anni prima del dissesto
Indice di smaltimento
dei residui passivi

Conclusioni

 Il processo di open-government può favorire la produzione di conoscenza
 Il dissesto dei comuni può essere previsto sfruttando dati istituzionali liberamente accessibili
 Il modelli di Machine Learning possono essere un valido supporto per tale fine
 Le opportunità ci sono, gli incentivi per la politica?

Possibili scenari futuri

 Dati da Mezzi di informazione Dati da Social Media

Sfruttare i nuovi dati

 Text mining dei regolamenti comunali
 Visual analysis e text mining di informazioni desumibili dai siti
 Text mining di articoli
 Uso dei social media
 Interazioni con i cittadini

Analisi di dati non convenzionali

 Text mining Visual analysis

Per una partecipazione efficace e sostenibile
all'economia digitale

 Accesso a Internet Competenze Infrastrutture

Grazie per l’attenzione!

 Giuliano.resce@unimol.it
 www.giulianoresce.it

Puoi anche leggere

Convegno "La Consulenza Tecnica d'Ufficio nel contenzioso tributario: lo stato dell'arte" - Dott. Pierpaolo Abbate

INSEGNAMENTO: LABORATORIO LINGUA INGLESE - Corso di Laurea in "Metodi e tecniche delle interazioni educative" - IUL

DELIBERE ASSUNTE DALL'ASSEMBLEA ORDINARIA DEL 30 APRILE 2015

NEWS - ProfessioneFinanza

SIT archivia il semestre "pandemico": business Heating resiliente e marginalità in tenuta. Seconda parte dell'anno prevede ricavi consolidati in ...

SIT, in deciso rialzo la performance del primo trimestre: ricavi consolidati a 92,7 milioni (+26% rispetto al Q12020), EBITDA +69% a 15,1 milioni ...

SIT, EBITDA in crescita del +91%, utile netto a 9,5 milioni: incremento delle vendite in tutte le aree geografiche

REGOLAMENTO PER LE SEGNALAZIONI (WHISTLEBLOWING) - AZIENDA REGIONALE TERRITORIALE PER L'EDILIZIA DELLA PROVINCIA DI SAVONA - Arte Savona

L'APPRENDIMENTO DEI PROCESSI DI LETTO -SCRITTURA - Modelli evolutivi di riferimento

ROMA SPACES LAURENTINA - SIPMEL

CERTIFICAZIONE UNICA 2020: LE NOVITÀ - CIRCOLARE MONOGRAFICA - MYSOLUTION

Sede legale: Piazzetta G. Marconi 3 - 33033 Codroipo (UD) Sede amministrativa e operativa: Via C. Colombo, 210 - 33037 Pasian di Prato (UD) Sito ...

Le Banche in evoluzione: il ruolo del controllo strategico in UBI Banca - Ivano Traina

Lavoro & Previdenza N. 216 La circolare su temi previdenziali e di lavoro - Fiscal Focus

S.p.a. Auto - Autovie Venete

MYSQL ORACLE SQL SERVER - BACKUP, RIPRISTINO, MANUTENZIONE E AUTOMAZIONE GRUPPO 6 - SEBASTIANO VASCON

CATALOGO CALZE MEDICALI CALZE SOSTEGNO - orthoservice ag

FAQ COMUNITA' SOLIDALI 2020 - Regione Lazio

La prova INVALSI di Matematica al termine del secondo ciclo di istruzione - UDINE 14 gennaio 2019 Aurelia Orlandoni

Fahrländer Partner Raumentwicklung - Sistema per l'analisi e la valutazione di immobili in Svizzera

Raccomandazione per anticipare la contaminazione da norovirus mediante l'uso di antidiarroici - CCA 2022-05

REALIZZAZIONE E MONTAGGIO DEI PULSANTI PER L'UTILIZZO DELLA STAMPANTE 3D - MANUALE DELL'INSEGNANTE

2021 Programma Italiano Modelli dettagliati per modellisti esigenti

Povertà a livello locale - Analisi Statistica del Reddito e delle Condizioni di Vita

Aggiornamento Piano Strategico 2016-2020 Accelerare le priorità strategiche - Genova, 28 febbraio 2017 - eMarket Storage

MODELLO IVA BASE 2020 - Periodo d'imposta 2019 - Agenzia delle Entrate

Soluzioni Audio-Video-Navi per Volkswagen - GapAudio

ROMA MODEL SHOW 2018 Regolamento di concorso - 19/21 OTTOBRE 2018 - Roma Model Group

MANUALE DI RIPARTIZIONE DELLE SPESE DI MANUTENZIONE - AbitA cooperativa sociale

Efficienza a favore dei membri Rapporto di gestione 2017 della Cassa di compensazione MOBIL

110%110% SUPERBONUS ECOBONUS - Arpae Emilia-Romagna

AUDIZIONE DELLA CONFERENZA DELLE REGIONI E DELLE PROVINCE AUTONOME - Senato

COMUNE DI PADRIA (Provincia di Sassari)

MINISTERO DELLO SVILUPPO ECONOMICO - ACS ENEA

27/01/2021 "Ecobonus 110% - Facciamo il punto" AESS Agenzia per l'Energia e lo Sviluppo Sostenibile Ing. Piergabriele Andreoli - Ing. Giulia ...

Rimborso Spese Mediche - Fabi Lecco

FOGLIO INFORMATIVO SERVIZIO POS (PagoBANCOMAT) - Banca ...

Interreg MED 2014-2020 - Lazio Europa

Relazione del Consigliere Tesoriere - 00193 Roma - Geol. Domenico Sessa

ASSISTENZA ALLA PERSONA PER I DIRIGENTI IN SERVIZIO DEI GRUPPI FCA E CNH INDUSTRIAL E ALTRE SOCIETA' ADERENTI ALLA COPERTURA INTEGRATIVA

AVVISO PUBBLICO Emergenza epidemiologica COVID 19 - Misure di sostegno per l'esecuzione del test antigenico per gli operatori degli Enti del Terzo ...

Informazioni Europee di Base sul Credito ai Consumatori Carta Explora American Express

Informazioni Europee di Base sul Credito ai Consumatori Carta Blu American Express - Banca Popolare di Bari

Il bilancio sociale del Giudice di pace di Trieste

COMUNE DI VARALLO - Dipartimento delle Finanze

Clavister Aurora Security Framework Portafoglio Prodotti - GFO Europe

Dal 5 al 9 maggio torna in streaming il festival Michael che celebra l'Arcangelo e i due Siti UNESCO di Monte Sant'Angelo - I Borghi più ...

COMUNE DI OSASCO - Amazon AWS

Comune di Cadoneghe martedì, 02 aprile 2019 - Comune di ...

"INTO THE FUTURE" LA SCIENZA DEL GUSTO - SENIGALLIA - I Prodotti Nobili Marchigiani ed Italiani