Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
R mette a disposizione una vasta gamma di funzioni per ottenere un analisi descrittiva dei dati. L’analisi descrittiva dei dati è una tecnica statistica utilizzata per descrivere e riassumere i dati raccolti in un determinato set di osservazioni. L’obiettivo dell’analisi descrittiva dei dati è di fornire un’immagine chiara e concisa dei dati, evidenziando le loro caratteristiche principali, come la distribuzione dei dati, la loro media, varianza, deviazione standard e eventuali relazioni tra le variabili. In questo modo, l’analisi descrittiva dei dati fornisce una base solida per ulteriori analisi statistiche e per comprendere il comportamento dei dati in modo più approfondito.
Una di queste funzioni è sapply()
# ottenere la media del dataframe mydata
# escludendo i valori mancanti
sapply(mydata, mean, na.rm=TRUE)
Le funzioni che si possono usare con sapply(), per un analisi descrittiva, sono:
mean (media)
sd (deviazione standard)
var (variabilità )
min (minimo)
max (massimo)
median (mediana)
range (campo di variazione)
quantile (quantile)
Vediamo altre funzioni che permettono un analisi descrittiva completa:
Per avere media, mediana 25th e 75th quartile, minimo e massimo
Per i numeri di Tukey (minimo, hinge inferiore, mediana, hinge superiore, massimo)
fivenum(x)
Vediamo altri package per l’ analisi descrittiva in R
Hmisc package
library(Hmisc)
describe(mtcars$carb)
mtcars$carb
n missing distinct Info Mean Gmd
32 0 6 0.929 2.812 1.718
Value 1 2 3 4 6 8
Frequency 7 10 3 10 1 1
Proportion 0.219 0.312 0.094 0.312 0.031 0.031
pastecs package
library(pastecs)
stat.desc(mtcars$carb)
nbr.val nbr.null nbr.na min max range sum median
32.0000000 0.0000000 0.0000000 1.0000000 8.0000000 7.0000000 90.0000000 2.0000000
mean SE.mean CI.mean.0.95 var std.dev coef.var
2.8125000 0.2855297 0.5823417 2.6088710 1.6152000 0.5742933
psych package
library(psych)
describe(mtcars$carb)
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 32 2.81 1.62 2 2.65 1.48 1 8 7 1.05 1.26 0.29
Un modo semplice per generare statistiche riassuntive raggruppando le variabili è disponibile nel package psych.
library(psych)
describe.by(mydata, group,...)
Il package doBy fornisce alcune funzioni di SAS PROC SUMMARY.
Ecco come utilizzarla
library(doBy)
summaryBy(mpg + wt ~ cyl + vs, data = mtcars,
FUN = function(x) { c(m = mean(x), s = sd(x))})
Guarda tutti i tutorial di Statistica oppure torna su R tutorial.
Immagine di Freepik