R中的統計分析通過使用許多內建函式來執行的。這些函式大部分是R基礎包的一部分。這些函式將R向量與引數一起作為輸入,並在執行計算後給出結果。
我們在本章中討論的是如何求平均值,中位數和眾數。下面將分別一個個演示和講解 -
平均值是通過取數值的總和並除以資料序列中的值的數量來計算。函式mean()
用於在R中計算平均值。
語法
R中計算平均值的基本語法是 -
mean(x, trim = 0, na.rm = FALSE, ...)
以下是使用的引數的描述 -
範例
# Create a vector.
x <- c(17,8,6,4.12,11,8,54,-11,18,-7)
# Find Mean.
result.mean <- mean(x)
print(result.mean)
當我們執行上述程式碼時,會產生以下結果 -
[1] 10.812
當提供trim
引數時,向量中的值進行排序,然後從計算平均值中刪除所需數量的觀察值。
例如,當trim = 0.3
時,每一端的3
個值將從計算中刪除以找到均值。
在這種情況下,排序的向量為(-21,-5,2,3,42,7,8,12,18,54)
,從用於計算平均值的向量中從左邊刪除:(-21,-5,2)
和從右邊刪除:(12,18,54)
這幾個值。
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find Mean.
result.mean <- mean(x,trim = 0.3)
print(result.mean)
當我們執行上述程式碼時,會產生以下結果 -
[1] 5.55
如果缺少值,則平均函式返回NA
。要從計算中刪除缺少的值,請使用na.rm = TRUE
。 這意味著刪除NA
值。參考以下範例程式碼 -
# Create a vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5,NA)
# Find mean.
result.mean <- mean(x)
print(result.mean)
# Find mean dropping NA values.
result.mean <- mean(x,na.rm = TRUE)
print(result.mean)
當我們執行上述程式碼時,會產生以下結果 -
[1] NA
[1] 8.22
資料系列中的中間值被稱為中位數。R中使用median()
函式來計算中位數。
語法
R中計算位數的基本語法是 -
median(x, na.rm = FALSE)
以下是使用的引數的描述 -
範例
# Create the vector.
x <- c(12,7,3,4.2,18,2,54,-21,8,-5)
# Find the median.
median.result <- median(x)
print(median.result)
當我們執行上述程式碼時,會產生以下結果 -
[1] 5.6
眾數是指給定的一組資料集合中出現次數最多的值。不同於平均值和中位數,眾數可以同時具有數位和字元資料。
R沒有標準的內建函式來計算眾數。因此,我們將建立一個使用者自定義函式來計算R中的資料集的眾數。該函式將向量作為輸入,並將眾數值作為輸出。
範例
# Create the function.
getmode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
# Create the vector with numbers.
v <- c(2,1,2,3,1,2,3,4,1,5,5,3,2,3)
# Calculate the mode using the user function.
result <- getmode(v)
print(result)
# Create the vector with characters.
charv <- c("baidu.com","tmall.com","tw511.com","qq.com","tw511.com")
# Calculate the mode using the user function.
result <- getmode(charv)
print(result)
當我們執行上述程式碼時,會產生以下結果 -
[1] 2
[1] "tw511.com"