原文链接:https://blog.csdn.net/qq_44884577/article/details/89202950?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allsobaiduend~default-6-89202950.nonecase&utm_term=r%E8%AF%AD%E8%A8%80%E5%88%86%E7%BB%84%E7%BB%9F%E8%AE%A1
1. 使用tapply函数
1 2
| tapply(salarys$SALARY, INDEX=salarys$SEX, FUN=sum)
|
如果出现参数的长度不一致的错误,如下:
1
| Error in tapply(salarys$SALARY, INDEX = salarys$SEX, FUN = max) : 参数的长度必需相同
|
请仔细检查salarysSEX的长度是否相等,尤其是检查INDEX的类型,如果是list类型,请务必转换为向量:
1 2 3
| LISTsalarys$SEX <- lapply(salarys$SEX, function(x) switch(x, FEMALE='女', MALE='男')) salarys$SEX <- c(salarys$SEX, recursive = TRUE)1234
|
2. 使用by函数
使用by函数可以达到同样的效果,唯一需要注意的是,引用的数据必须全是数据列,例如在本例中,数据最多也只能是salarys[c(‘SALARY’, ‘ID’)]。
1
| by(salarys[c('SALARY')], INDICES = list(salarys$SEX), FUN=max)
|
3. 使用aggregate函数
1
| aggregate(x=salarys[c('SALARY')], by = list(salarys$SEX, salarys$ID), FUN=max)
|
聚合函数与group by更相似,例如以上语句就表示按SEX、ID进行分组,结果如下:
1 2 3 4 5
| Group.1 Group.2 SALARY1 男 1 300002 男 2 2003 女 3 12004 女 4 3500123451
|
从以上的数据可以看出,分组的唯一性由(SEX,ID)决定,所以跟SQL一模一样。