Evidenza e incertezza - Prologo alle lezioni - Dipartimento di ...
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Evidenza e incertezza Prologo alle lezioni Luca La Rocca1 Dipartimento di Scienze Fisiche, Informatiche e Matematiche Università degli Studi di Modena e Reggio Emilia Insegnamento di Statistica ed Elementi di Probabilità Corso di Laurea in Informatica Anno Accademico 2019/2020 1 http://personale.unimore.it/rubrica/dettaglio/llarocca L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 1 / 16
The sexy job. . . Hal Varian, chief economist at Google & emeritus professor at UC Berkeley, intervistato da McKinsey & Company nell’ottobre 2008: I keep saying the sexy job in the next ten years will be statisti- cians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s? ... Because now we really do have essentially free and ubiqui- tous data. So the complementary scarce factor is the ability to understand that data and extract value from it. ... I think statisticians are part of it, but it’s just a part. You also want to be able to visualize the data, communicate the data, and utilize it effectively. L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 2 / 16
. . . data scientists! Eric Schmidt, Chairman of Google: “We are in the era of big data, and big data needs statisticians to make sense of it. The democratization of data means that those who can ana- lyze it well will win. Data is the sword of the twenty-first century, those who wield it well, the samurai” Eric Schmidt & Jonathan Rosenberg (2014). How Google Works. Grand Central Publishing, New York. immagine da Wikipedia (http://it.wikipedia.org/wiki/Samurai) L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 3 / 16
The data deluge Nel 2013 IBM (http://en.wikipedia.org/wiki/Big_data) stimava che: Every day, 2.5 billion gigabytes of high-velocity data are crea- ted in a variety of forms, such as social media posts, infor- mation gathered in sensors and medical devices, videos and transaction records. La nostra capacità di memoria è circa un milionesimo di questo valore (http://www.sizes.com/people/brain.htm): Robert Birge (Syracuse University) who studies the storage of data in proteins, estimated in 1996 that the memory capacity of the brain was between one and ten terabytes, with a most likely value of 3 terabytes. Siamo però abili a riconoscere (interruzioni di) regolarità nei dati. . . L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 4 / 16
Terremoti 45.0 + + 44.9 + + + + + + 44.8 + Latitudine + + 44.7 + + + + 44.6 + + + 44.5 + + 9.0 9.2 9.4 9.6 9.8 10.0 Longitudine L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 5 / 16
Una regione sicura 45.0 + + 44.9 + + + + + + 44.8 + Latitudine + + 44.7 + + + + 44.6 + + + 44.5 + + 9.0 9.2 9.4 9.6 9.8 10.0 Longitudine L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 6 / 16
Cluster Dendrogram 1.0 0.8 0.6 # hierarchical clustering Height X=cbind(Longitude,Latitude) 0.4 Tree=hclust(dist(X)) plot(Tree) 0.2 15 14 13 20 0.0 3 8 7 18 9 10 4 11 1 6 5 16 2 17 12 19 Data Points hclust (*, "complete") L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 7 / 16
Quattro sorgenti sismiche 45.0 44.9 44.8 Latitudine 44.7 44.6 44.5 9.0 9.2 9.4 9.6 9.8 10.0 Longitudine L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 8 / 16
La tigre. . . Tyger! Tyger! burning bright In the forests of the night, What immortal hand or eye Could frame thy fearful symmetry? William Blake (Songs of Experience, 1794) L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 9 / 16
. . . che non c’è # set.seed(1709) Latitude = 44.5+0.5*runif(20) Longitude = 9+1*runif(20) Chance! Some argue, plausibly, that we evolved to see a single cause even when there is none, on the basis that it is better to be safe than sorry, better to identify that pattern in the trees as a tiger, better to run—far better—than to assume that what we see is a chance effect of scattered light and shifting leaves in the breeze, creating an illusion of stripes. Michael Blastland & Andrew Dilnot (2008). The Tiger That Isn’t (Expanded Edition). Profile Books, London. L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 10 / 16
Segnale e rumore Nate Silver2 è uno “statistico” americano divenuto celebre nel 2008 per avere previsto correttamente 49 stati su 50 nelle elezioni presidenziali: Biologically, we are not very different from our ancestors. But some stone-age strengths have become information-age weaknesses. ... Meanwhile, if the quantity of information is increasing by 2.5 quintil- lion bytes per day, the amount of useful information almost certainly isn’t. Most of it is just noise, and the noise is increasing faster than the signal. ... We must become more comfortable with probability and uncertainty. We must think more carefully about the assumptions and beliefs that we bring to a problem. 2 Nate Silver (2012). The Signal and the Noise. Penguin, London. Edizione italiana: Il Segnale e il Rumore, Fandango Libri (2013). L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 11 / 16
Morale Siamo geneticamente predisposti per scavare nei dati ed estrarne informazioni (un talento che ovviamente possiamo sviluppare con lo studio e la pratica) ma se vogliamo dare il giusto peso all’evidenza che i dati forniscono dobbiamo riconoscerne la natura incerta e imparare a ragionare in termini probabilistici (un’attività per la quale l’intuizione non basta e che dunque necessita di formalizzazione) ⇒ un’introduzione prima alla probabilità e poi alla statistica, basata sui primi sei capitoli del testo di riferimento: Marco Boella (2010). Probabilità e Statistica per Ingegneria e Scienze. Pearson Italia, Milano-Torino. Dettagli nella pagina dedicata ai contenuti delle lezioni http://www-dimat.unipv.it/luca/sep1920.htm dove saranno disponibili anche le presenti diapositive. L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 12 / 16
Punti di vista Ritengo3 che un approccio basato sulla stima di parametri sia più utile di un approccio basato sulla verifica di ipotesi e questo, nei limiti di questo insegnamento, si traduce in un taglio netto: nonostante i test di ipotesi siano molto diffusi, preferisco aggirare un argomento ampio e controverso piuttosto che sfiorarlo. Chi non gradisse il testo di riferimento (es. lo trovasse troppo stringato) può aiutarsi con altri testi “per l’ingegneria e le scienze” (vale a dire “calculus based”) come per esempio William Navidi (2006). Probabilità e Statistica per l’Ingegneria e le Scienze. McGraw-Hill Italia, Milano. Sia questo testo (SALA MATEM A.17/811) che il testo di riferimento (SALA MATEM A.17/807) sono disponibili presso la BSI di UniMoRe. 3 in buona compagnia: Alan Agresti & Barbara Finlay (2009). Statistica per le Scienze Sociali (edizione italiana basata sulla quarta edizione inglese). Pearson. L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 13 / 16
Practice, practice, practice! Fondamentale (anche) per l’esame è la risoluzione di esercizi: soluzioni a quelli del testo di riferimento sono disponibili online http://www.pearson.it/opera/pearson/21-4121-probabilita_e_statistica_per_ingegneria_e_scienze nella pagina del libro a cura dell’editore (assieme ad altre risorse); necessari gli strumenti di base dell’analisi matematica. Chi fosse interessato a un eserciziario, dove trovare altri esercizi, svolti per esteso, può fare riferimento al testo Manuela Cazzaro & Francesca Greselin (2017). Modelli Statistici per l’Analisi di Problemi Economici e Finanziari. Pearson Italia, Milano-Torino. pure disponibile (SALA MATEM A.17/ 870) presso la BSI di UniMoRe. L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 14 / 16
It takes two to tango! Trovale da te le tue drizze, le tue scotte quelle che in barca non si chiamano mai corde. Impara da te o con qualche consiglio amico come si imbriglia un velame antico e sappi che puoi dare un colpo deciso a quella barra che arriva al timone e volger così la tua prua in direzione di quel vento che ti nega un sorriso. . . L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 15 / 16
Per chi non si accontenta. . . . . . di orientare lo studio all’esame: R Core Team (2018). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.r-project.org. RStudio (https://www.rstudio.com) Tra le risorse online del testo di riferimento (nella pagina del libro a cura dell’editore) c’è anche un’appendice sull’utilizzo di R. Seconda lezione: funzionalità di base del software statistico R nel contesto di un semplice problema statistico. L. La Rocca (UNIMORE) Evidenza e incertezza SEP 2019/2020 16 / 16
Puoi anche leggere