Introduzione ad Rcmdr - Ilaria Gandin - Moodle@Units

Pagina creata da Giulio Bertini
 
CONTINUA A LEGGERE
Introduzione ad Rcmdr - Ilaria Gandin - Moodle@Units
Introduzione ad Rcmdr
  Chimica e Tecnologie Farmaceutiche AA 2020/2021

                                        Ilaria Gandin
                                                    1 / 14
Introduzione ad Rcmdr - Ilaria Gandin - Moodle@Units
Raccolta dei dati
    Lo strumento più utilizzato per la raccolta dati sono i fogli di calcolo (es.
    MS Excel), che possono essere direttamente letti con Rcmdr.
    Accorgimenti importanti:
●
    Le righe corrispondono all’unità di osservazione
    –   Tipicamente le persone, ma non sempre (es. misurazioni multiple per
        persona)
●
    Le colonne corrispondono alle variabili
    –   Stabilire fin da subito le variabili importanti per lo studio
●
    Le colonne sono omogenee, ossia contengono variabili dello stesso tipo
                                                                             2 / 14
●
    Riportare la legenda per l’interpretazione delle variabili
Introduzione ad Rcmdr - Ilaria Gandin - Moodle@Units
Raccolta dei dati

    Errori frequenti:
●
    Utilizzo di separatori diversi per i numeri decimali
●
    Valori categoriali scritti in modo diverso
●
    Forme non tabellari
●
    “Uso improprio” dei colori
●
    Codifica valori mancanti: le celle vanno lasciate vuote
                                                              3 / 14
Tipi di file

    Tratteremo dati in forma tabellare. Caricheremo i dati in R
    principalmente dai seguenti 3 tipi di file:
●
    .xlsx → fogli di calcolo (es. MS Excel)
●
    .csv → “Comma Separated Values”, file di testo che contengono dati
    tabellari dove le colonne sono definite dal separatore “,” o “;”
●
    .Rdata → dati in formato R

                                                                         4 / 14
Tipi di file

 Foglio di calcolo
                     CSV

                           5 / 14
Dataset: diabetes

    Contiene i dati di un campione di pazienti diabetici, tra cui età, sesso, body
    mass index, pressione sanguigna, parametri ematologici.
    Fonte: Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani
    (2004) "Least Angle Regression".
    Il file .xlsx include:
●
    Tabella dei dati
●
    Legenda

                                                                            6 / 14
Dataset: diabetes

1) Leggere il file in Rcmdr
   ●
       Visualizzare la tabella di dati
   ●
       Ottenere la lista delle variabili
2) Ottenere media e mediana per BP
3) Ottenere media e mediana per le prime 3 variabili
4) Ottenere informazioni riassuntive rapide su tutte le variabili del dataset
5) Ricodificare SEX (assegnando nomi ai livelli) e ID (senza assegnare nomi
     ai livelli)
                                                                         7 / 14
Dataset: diabetes

6) Creare delle nuove categorie in base al BMI:
●
    ≤18.5 sottopeso
●
    (18.5, 25] normopeso
●
    (25, 30] sovrappeso
●
    > 30 obeso
7) Ottenere la distribuzione di frequenze
●
    riordinare i livelli

                                                  8 / 14
Dataset: diabetes

8) Il rapporto LDL/HDL può essere un indicatore del rischio per malattie
   cardiovascolari:
●
    LDL/HDL < 3 : non a rischio
●
    LDL/HDL >= 3 : a rischio
    Assegnare gli individui a una delle due categorie e calcolare la
    distribuzione di frequenza

                                                                           9 / 14
Dataset: diabetes

9) Rappresentare le classi di peso con una diagramma a torta e con un
    diagramma a barre
10) Salvare il grafico
11) Creare un istogramma per la variabile l’età
   ●
       Ottenere la distribuzione delle classi di frequenze
   ●
       Rappresentare la densità
12) Creare grafico a dispersione per BMI e BP

                                                                   10 / 14
Dataset: diabetes

13) Estrarre il sottoinsieme di individui con dati presenti per tutte le variabili
14) Salvare il dataset
15) Salvare i comandi
16) Creare un report con Rmarkdown
17) Chiudere Rcmdr e R

                                                                           11 / 14
Abbiamo visto

●
    Leggere un dataset
●
    Salvare l’output
●
    Calcolare indici riassuntivi su una o più variabili
●
    Calcolare nuove variabili
●
    Ricodificare in fattori e ordinarne i livelli
●
    Produrre grafici
●
    Identificare valori mancanti
●
    Estrarre un sottoinsieme di dati
                                                          12 / 14
Promemoria comandi

●
    Leggere un file Excel
    Dati > Importa dati > Da file Excel
●
    Informazioni riassuntive rapide
    Statistiche > Informazioni riassuntive > set di dati attivo
●
    Ottenere indici su una o più variabili
    Statistiche > Informazioni riassuntive > indici riassuntivi numerici
●
    Ricodificare un variabile da numeric a factor
    Dati > Gestione variabili del set di dati attivo > Converti variabili numeriche in fattori
●
    Identificare dati mancanti
    Statistiche > Informazioni riassuntive > conta le osservazioni mancanti

                                                                                             13 / 14
Promemoria comandi

●
    Creare nuova variabile
    Dati >    Gestione variabili del set di dati attivo > Ricodifica le variabili

    Esempio
    10:20=”gruppo 1”
    20:30=”gruppo 2”
    …

    Dati >    Gestione variabili del set di dati attivo > Calcola una nuova variabile

    Esempio
    ldl/hdl
●
    Creare un grafico a barre
    Grafici > Grafico a barra

                                                                                        14 / 14
Puoi anche leggere