Introduzione ad Rcmdr - Ilaria Gandin - Moodle@Units
←
→
Trascrizione del contenuto della pagina
Se il tuo browser non visualizza correttamente la pagina, ti preghiamo di leggere il contenuto della pagina quaggiù
Raccolta dei dati Lo strumento più utilizzato per la raccolta dati sono i fogli di calcolo (es. MS Excel), che possono essere direttamente letti con Rcmdr. Accorgimenti importanti: ● Le righe corrispondono all’unità di osservazione – Tipicamente le persone, ma non sempre (es. misurazioni multiple per persona) ● Le colonne corrispondono alle variabili – Stabilire fin da subito le variabili importanti per lo studio ● Le colonne sono omogenee, ossia contengono variabili dello stesso tipo 2 / 14 ● Riportare la legenda per l’interpretazione delle variabili
Raccolta dei dati Errori frequenti: ● Utilizzo di separatori diversi per i numeri decimali ● Valori categoriali scritti in modo diverso ● Forme non tabellari ● “Uso improprio” dei colori ● Codifica valori mancanti: le celle vanno lasciate vuote 3 / 14
Tipi di file Tratteremo dati in forma tabellare. Caricheremo i dati in R principalmente dai seguenti 3 tipi di file: ● .xlsx → fogli di calcolo (es. MS Excel) ● .csv → “Comma Separated Values”, file di testo che contengono dati tabellari dove le colonne sono definite dal separatore “,” o “;” ● .Rdata → dati in formato R 4 / 14
Tipi di file Foglio di calcolo CSV 5 / 14
Dataset: diabetes Contiene i dati di un campione di pazienti diabetici, tra cui età, sesso, body mass index, pressione sanguigna, parametri ematologici. Fonte: Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) "Least Angle Regression". Il file .xlsx include: ● Tabella dei dati ● Legenda 6 / 14
Dataset: diabetes 1) Leggere il file in Rcmdr ● Visualizzare la tabella di dati ● Ottenere la lista delle variabili 2) Ottenere media e mediana per BP 3) Ottenere media e mediana per le prime 3 variabili 4) Ottenere informazioni riassuntive rapide su tutte le variabili del dataset 5) Ricodificare SEX (assegnando nomi ai livelli) e ID (senza assegnare nomi ai livelli) 7 / 14
Dataset: diabetes 6) Creare delle nuove categorie in base al BMI: ● ≤18.5 sottopeso ● (18.5, 25] normopeso ● (25, 30] sovrappeso ● > 30 obeso 7) Ottenere la distribuzione di frequenze ● riordinare i livelli 8 / 14
Dataset: diabetes 8) Il rapporto LDL/HDL può essere un indicatore del rischio per malattie cardiovascolari: ● LDL/HDL < 3 : non a rischio ● LDL/HDL >= 3 : a rischio Assegnare gli individui a una delle due categorie e calcolare la distribuzione di frequenza 9 / 14
Dataset: diabetes 9) Rappresentare le classi di peso con una diagramma a torta e con un diagramma a barre 10) Salvare il grafico 11) Creare un istogramma per la variabile l’età ● Ottenere la distribuzione delle classi di frequenze ● Rappresentare la densità 12) Creare grafico a dispersione per BMI e BP 10 / 14
Dataset: diabetes 13) Estrarre il sottoinsieme di individui con dati presenti per tutte le variabili 14) Salvare il dataset 15) Salvare i comandi 16) Creare un report con Rmarkdown 17) Chiudere Rcmdr e R 11 / 14
Abbiamo visto ● Leggere un dataset ● Salvare l’output ● Calcolare indici riassuntivi su una o più variabili ● Calcolare nuove variabili ● Ricodificare in fattori e ordinarne i livelli ● Produrre grafici ● Identificare valori mancanti ● Estrarre un sottoinsieme di dati 12 / 14
Promemoria comandi ● Leggere un file Excel Dati > Importa dati > Da file Excel ● Informazioni riassuntive rapide Statistiche > Informazioni riassuntive > set di dati attivo ● Ottenere indici su una o più variabili Statistiche > Informazioni riassuntive > indici riassuntivi numerici ● Ricodificare un variabile da numeric a factor Dati > Gestione variabili del set di dati attivo > Converti variabili numeriche in fattori ● Identificare dati mancanti Statistiche > Informazioni riassuntive > conta le osservazioni mancanti 13 / 14
Promemoria comandi ● Creare nuova variabile Dati > Gestione variabili del set di dati attivo > Ricodifica le variabili Esempio 10:20=”gruppo 1” 20:30=”gruppo 2” … Dati > Gestione variabili del set di dati attivo > Calcola una nuova variabile Esempio ldl/hdl ● Creare un grafico a barre Grafici > Grafico a barra 14 / 14
Puoi anche leggere