1 Introduzione ad alcuni argomenti del corso
Gli esempi sono tratti dai seguenti dataset del mio package MLANP
:
*antropometric
*children.rid
*fraud1
*buildings1
Le versioni dei data set e del package della versione più recente potrebbero differire leggermente da quelli utilizzati nel materiale didattico che state leggendo
2 Primo data set
Vengono caricati i packages necessari per realizzare questo documento
2.1 Esempio con 7 variabili
Utilizziamo il data frame antropometric
e prendiamo 7 variabili, di cui riportiamo ancora delle statistiche e grafici descrittivi, insieme con la matrice dei grafici a coppia.
2.1.1 Summary dei dati
Data Frame Summary
dati
Dimensions: 1427 x 7Duplicates: 0
No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Valid | Missing |
---|---|---|---|---|---|---|
1 | Altezza [numeric] | Mean (sd) : 151.9 (10.1) min < med < max: 127 < 151 < 183 IQR (CV) : 15 (0.1) | 54 distinct values | 1427 (100%) | 0 (0%) | |
2 | Peso [numeric] | Mean (sd) : 45 (10.7) min < med < max: 21 < 43 < 100 IQR (CV) : 14 (0.2) | 65 distinct values | 1427 (100%) | 0 (0%) | |
3 | Torace [numeric] | Mean (sd) : 75.6 (7.8) min < med < max: 57 < 74 < 104 IQR (CV) : 10 (0.1) | 44 distinct values | 1427 (100%) | 0 (0%) | |
4 | Cranio [numeric] | Mean (sd) : 54.8 (1.6) min < med < max: 50 < 55 < 60 IQR (CV) : 2 (0) | 11 distinct values | 1427 (100%) | 0 (0%) | |
5 | Bisacrom [numeric] | Mean (sd) : 34.5 (3) min < med < max: 23 < 34 < 46 IQR (CV) : 4 (0.1) | 21 distinct values | 1427 (100%) | 0 (0%) | |
6 | Bitrocan [numeric] | Mean (sd) : 26.3 (2.8) min < med < max: 20 < 26 < 38 IQR (CV) : 4 (0.1) | 18 distinct values | 1427 (100%) | 0 (0%) | |
7 | Span [numeric] | Mean (sd) : 153.6 (11.2) min < med < max: 123 < 153 < 184 IQR (CV) : 16 (0.1) | 60 distinct values | 1427 (100%) | 0 (0%) |
Generated by summarytools 0.9.6 (R version 4.0.2)
2020-09-12
2.1.2 Alcune righe del data frame
Altezza | Peso | Torace | Cranio | Bisacrom | Bitrocan | Span | |
---|---|---|---|---|---|---|---|
1 | 143 | 36 | 67 | 53 | 30 | 23 | 138 |
2 | 144 | 34 | 66 | 54 | 33 | 23 | 149 |
3 | 142 | 35 | 69 | 54 | 30 | 24 | 139 |
712 | 158 | 62 | 86 | 58 | 37 | 29 | 161 |
713 | 154 | 36 | 65 | 54 | 33 | 24 | 148 |
714 | 153 | 41 | 71 | 55 | 31 | 26 | 148 |
1425 | 142 | 35 | 63 | 54 | 32 | 22 | 144 |
1426 | 164 | 49 | 82 | 55 | 39 | 29 | 163 |
1427 | 152 | 40 | 67 | 54 | 32 | 25 | 150 |
2.1.3 Matrice dei grafici a due a due
2.1.4 Matrice di correlazione
Altezza | Peso | Torace | Cranio | Bisacrom | Bitrocan | Span | |
---|---|---|---|---|---|---|---|
Altezza | 1.00 | 0.72 | 0.59 | 0.48 | 0.75 | 0.74 | 0.89 |
Peso | 0.72 | 1.00 | 0.91 | 0.54 | 0.75 | 0.84 | 0.69 |
Torace | 0.59 | 0.91 | 1.00 | 0.48 | 0.69 | 0.77 | 0.58 |
Cranio | 0.48 | 0.54 | 0.48 | 1.00 | 0.50 | 0.49 | 0.47 |
Bisacrom | 0.75 | 0.75 | 0.69 | 0.50 | 1.00 | 0.76 | 0.78 |
Bitrocan | 0.74 | 0.84 | 0.77 | 0.49 | 0.76 | 1.00 | 0.71 |
Span | 0.89 | 0.69 | 0.58 | 0.47 | 0.78 | 0.71 | 1.00 |
Ovviamente con più di tre variabili non possiamo rappresentarle graficamente simultaneamente.
Inoltre le variabili sono a due a due correlate, alcune anche molto correlate: ci chiediamo se è possibile trovare un modo di riassumere queste informazioni e se è possibile misurare questa forma di correlazione complessiva che sembra esserci fra tutte le variabili
L’argomento è affrontato nell’analisi delle componenti principali
3 Secondo data set di esempio
3.1 Statistiche descrittive e grafici del data set children.rid
Data Frame Summary
children.rid
Dimensions: 24553 x 6Duplicates: 2352
No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Valid | Missing | ||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | gestazione [integer] | Mean (sd) : 38.7 (2.1) min < med < max: 25 < 39 < 43 IQR (CV) : 2 (0.1) | 19 distinct values | 24553 (100%) | 0 (0%) | |||||||||||||||||||||||||||||||||||||
2 | lunghezza [integer] | Mean (sd) : 491.8 (30) min < med < max: 255 < 500 < 580 IQR (CV) : 30 (0.1) | 123 distinct values | 24553 (100%) | 0 (0%) | |||||||||||||||||||||||||||||||||||||
3 | peso [integer] | Mean (sd) : 3207.6 (580.9) min < med < max: 300 < 3250 < 5600 IQR (CV) : 640 (0.2) | 472 distinct values | 24553 (100%) | 0 (0%) | |||||||||||||||||||||||||||||||||||||
4 | Fumatrici [integer] | Mean (sd) : 0.1 (0.3) min < med < max: 0 < 0 < 3 IQR (CV) : 0 (5.3) |
|
24553 (100%) | 0 (0%) | |||||||||||||||||||||||||||||||||||||
5 | parti.pretermine [integer] | Mean (sd) : 0 (0.1) min < med < max: 0 < 0 < 5 IQR (CV) : 0 (13) |
|
24553 (100%) | 0 (0%) | |||||||||||||||||||||||||||||||||||||
6 | cranio [integer] | Mean (sd) : 338.1 (18.1) min < med < max: 165 < 340 < 400 IQR (CV) : 20 (0.1) | 170 distinct values | 24553 (100%) | 0 (0%) |
Generated by summarytools 0.9.6 (R version 4.0.2)
2020-09-12
3.1.1 Alcune righe del data frame
gestazione | lunghezza | peso | Fumatrici | parti.pretermine | cranio | |
---|---|---|---|---|---|---|
1 | 41 | 495 | 3360 | 0 | 0 | 335 |
2 | 36 | 430 | 1900 | 1 | 0 | 305 |
3 | 32 | 430 | 1750 | 2 | 0 | 300 |
12275 | 39 | 510 | 3650 | 0 | 0 | 340 |
12276 | 38 | 490 | 3280 | 0 | 0 | 337 |
12277 | 37 | 515 | 3890 | 0 | 0 | 350 |
24551 | 38 | 505 | 3220 | 0 | 0 | 355 |
24552 | 38 | 515 | 3440 | 0 | 0 | 330 |
24553 | 41 | 500 | 2920 | 0 | 0 | 360 |
3.2 retta di regressione e curve di regressione
Warning in smooth.spline(y ~ x, cv = TRUE): cross-validation with non-unique 'x' values seems doubtful
Warning in smooth.spline(y ~ x, cv = TRUE): cross-validation with non-unique 'x' values seems doubtful
3.3 Data set ridotto eliminando le osservazioni con valori non plausibili
sel=gestazione>24&gestazione<45&lunghezza<650&lunghezza>250