R语言笔记3:提取R对象的子集

2018 年 7 月 2 日 R语言中文社区


作者:圈圈

来源公众号:宏基因组


前文传送门:

R语言笔记1:数据类型(向量、数组、矩阵、 列表和数据框)

R语言笔记2:读写数据所需的主要函数、与外部环境交互

Subsetting R Objects

取子集的三种基本方法

  • [ :“单方括号”返回的对象和原来相同,如向量的子集还是向量;也可用于在对象中选择多个元素

  • [ [:“双方括号”仅可用于提取单一元素,并且用来提取列表或者数据框中的元素,但是,由于列表或者数据框中的元素类别不唯一,因此它返回对象的类型不一定是列表或者数据框

  • $ :“美元符号”是提取有名字的列表或数据框中的一个元素

(一)向量取子集

举例

  1. 单括号+数字索引:

      
      
        

  1. > x <- c("a", "b", "c", "c", "d", "a")  



  2. > x[2]            ## 提取第二个元素



  3. [1] "b"



  4. > x[1:4]          ## 提取连续多个元素



  5. [1] "a" "b" "c" "c"



  6. > x[c(1, 3, 4)]   ## 提取不连续的多个元素



  7. [1] "a" "c" "c"


2.单括号+逻辑索引(按字母排序):

      
      
        

  1. > x <- c("a", "b", "c", "c", "d", "a")  



  2. > x[x > "a"]      ## 提取首字母排序大于a的元素



  3. [1] "b" "c" "c" "d"


3.创建逻辑向量

      
      
        

  1. > u <- x > "a"



  2. > u



  3. [1] FALSE  TRUE  TRUE  TRUE  TRUE FALSE



  4. > x[u]



  5. [1] "b" "c" "c" "d"


(二)矩阵取子集

矩阵取子集可通过行索引和列索引来完成。

例如以下2*3的矩阵

      
      
        

  1. > x <- matrix(1:6, 2, 3)



  2. > x



  3.     [,1] [,2] [,3]



  4. [1,]    1    3    5



  5. [2,]    2    4    6



  6. > x[1, 2]            



  7. [1] 3



  8. > x[, 1]



  9. [1] 1 2



  10. > x[1, 2, drop = FALSE]   ## 修改drop参数,返回矩阵形式



  11.     [,1]



  12. [1,]    3



  13. > x[, 1, drop = FALSE]



  14.     [,1]



  15. [1,]    1



  16. [2,]    2


(三)列表取子集

列表取子集既可以使用“[”,"[[",也可以使用“$”

      
      
        

  1. > ## 创建一个含有两个元素的列表



  2. > x <- list(foo = 1:4, bar = 0.6)



  3. > x



  4. $foo



  5. [1] 1 2 3 4




  6. $bar



  7. [1] 0.6



  8. > ## 三种方法提取第一个元素



  9. > x[1]            ## 单方括号返回的也是一个列表



  10. $foo



  11. [1] 1 2 3 4



  12. > x[[1]]



  13. [1] 1 2 3 4



  14. > x$foo



  15. [1] 1 2 3 4


列表取子集方法的好处是不需要记住顺序,只要有名字就可以。

但是如果要从列表中提取多个元素,只能使用单方括号(双方括号和美元符号只能提取单个元素),并且知道顺序。

      
      
        

  1. > x <- list(foo = 1:4, bar = 0.6, baz = "hello")



  2. > x[c(1, 3)]



  3. $foo



  4. [1] 1 2 3 4




  5. $baz



  6. [1] "hello"


双方括号和美元符号的区别

美元符号必须是列表中存在的元素名;

双方括号可以是后续再次赋值变量之后的

      
      
        

  1. > x <- list(foo = 1:4, bar = 0.6, baz = "hello")



  2. > name <- "foo"



  3. >



  4. > ## computed index for "foo"



  5. > x[[name]]  



  6. [1] 1 2 3 4



  7. >



  8. > ## element "name" doesn’t exist! (but no error here)



  9. > x$name    



  10. NULL



  11. >



  12. > ## element "foo" does exist



  13. > x$foo      



  14. [1] 1 2 3 4


另外双方括号可以取一个整数数列,不仅仅是一个数字

      
      
        

  1. > x <- list(a = list(10, 12, 14), b = c(3.14, 2.81))



  2. >



  3. > ## Get the 3rd element of the 1st element



  4. > x[[c(1, 3)]]  



  5. [1] 14



  6. >



  7. > ## Same as above



  8. > x[[1]][[3]]  



  9. [1] 14



  10. >



  11. > ## 1st element of the 2nd element



  12. > x[[c(2, 1)]]  



  13. [1] 3.14


(四)模糊匹配

美元符号$和双方括号[[有模糊匹配的功能。可以通过这种方法在命令行快速查找元素。

例:

      
      
        

  1. > x <- list(aardvark = 1:5)



  2. > x$a



  3. [1] 1 2 3 4 5



  4. > x[["a"]]                 ## 参数默认为精确匹配



  5. NULL



  6. > x[["a", exact = FALSE]]  ## 参数设置为不精确匹配



  7. [1] 1 2 3 4 5


(五)删除缺失数据和缺失值(NA)

大部分真实数据中包含大量缺失数据,不管是向量、矩阵还是数据框,通过创建一个能够告诉你哪里有缺失值的逻辑向量,从而创建子集来删除它们

is.na() 函数可以找到某个向量中的缺失值,例:

      
      
        

  1. > x <- c(1, 2, NA, 4, NA, 5)



  2. > bad <- is.na(x)



  3. > print(bad)



  4. [1] FALSE FALSE  TRUE FALSE  TRUE FALSE



  5. > x[!bad]         ## !bad表示非缺失值



  6. [1] 1 2 4 5


如果有多个向量、多个对象,NA分布在各个不同地方,目的是去除所有缺失值建立新的子集,可以使用 complete.cases() 函数,如下例:

      
      
        

  1. > x <- c(1, 2, NA, 4, NA, 5)



  2. > y <- c("a", "b", NA, "d", NA, "f")



  3. > good <- complete.cases(x, y)



  4. > good



  5. [1]  TRUE  TRUE FALSE  TRUE FALSE  TRUE



  6. > x[good]



  7. [1] 1 2 4 5



  8. > y[good]



  9. [1] "a" "b" "d" "f"


类似地,如果x,y两个向量的缺失值位置不同, complete.cases() 函数则取并集判断缺失位置:

      
      
        

  1. > x <- c(1, 2, NA, 4, NA, 5)



  2. > y <- c("a", "b", NA, NA, "d", "f")



  3. > good <- complete.cases(x, y)



  4. > good



  5. [1]  TRUE  TRUE FALSE FALSE FALSE  TRUE



  6. >



  7. > x[good]



  8. [1] 1 2 5



  9. > y[good]



  10. [1] "a" "b" "f"


complete.cases() 函数也可以用于从数据框中移除缺失值

      
      
        

  1. > ## 创建数据框airquality



  2. > Ozone <- c(41, 36, 12, 18, NA, 28, 13, 15)



  3. > Solar.R <- c(190, 118, 149, 313, NA, NA, 244, 222)



  4. > Wind <- c (7.4, 8.0, 12.1, 11.2, 14.3, 13.9, 14.1, 15.2)



  5. > Temp <- c(67, 72, 74, 62, 56, 66, 22, 33)



  6. > Month <- c(5, 5, 5, 5, 5, 5, 5, 5)



  7. > Day <- c(1, 2, 3, 4, 5, 6, 7, 8)



  8. > airquality <- data.frame(Ozone, Solar.R, Wind, Temp, Month, Day)



  9. > airquality



  10.  Ozone Solar.R Wind Temp Month Day



  11. 1    41     190  7.4   67     5   1



  12. 2    36     118  8.0   72     5   2



  13. 3    12     149 12.1   74     5   3



  14. 4    18     313 11.2   62     5   4



  15. 5    NA      NA 14.3   56     5   5



  16. 6    28      NA 13.9   66     5   6



  17. 7    13     244 14.1   22     5   7



  18. 8    15     222 15.2   33     5   8



  19. >



  20. > ## 取数据框中的前六行数据



  21. > head(airquality)



  22.  Ozone Solar.R Wind Temp Month Day



  23. 1    41     190  7.4   67     5   1



  24. 2    36     118  8.0   72     5   2



  25. 3    12     149 12.6   74     5   3



  26. 4    18     313 11.5   62     5   4



  27. 5    NA      NA 14.3   56     5   5



  28. 6    28      NA 14.9   66     5   6



  29. >



  30. > ## 通过创建逻辑向量找到没有缺失数据的行



  31. > good <- complete.cases(airquality)



  32. > head(airquality[good, ])



  33.  Ozone Solar.R Wind Temp Month Day



  34. 1    41     190  7.4   67     5   1



  35. 2    36     118  8.0   72     5   2



  36. 3    12     149 12.6   74     5   3



  37. 4    18     313 11.5   62     5   4



  38. 7    23     299  8.6   65     5   7



  39. 8    19      99 13.8   59     5   8


(六)提取某种条件下数据框的子集

如上例:

挑取Ozone列中数值大于18,且Temp数值大于60的数据子集,从该子集中计算Wind数据的平均值

      
      
        

  1. > Ozone <- c(41, 36, 12, 18, NA, 28, 13, 15)



  2. > Solar.R <- c(190, 118, 149, 313, NA, NA, 244, 222)



  3. > Wind <- c (7.4, 8.0, 12.1, 11.2, 14.3, 13.9, 14.1, 15.2)



  4. > Temp <- c(67, 72, 74, 62, 56, 66, 22, 33)



  5. > Month <- c(5, 5, 5, 5, 5, 5, 5, 5)



  6. > Day <- c(1, 2, 3, 4, 5, 6, 7, 8)



  7. > data <- data.frame(Ozone, Solar.R, Wind, Temp, Month, Day)



  8. > data



  9.  Ozone Solar.R Wind Temp Month Day



  10. 1    41     190  7.4   67     5   1



  11. 2    36     118  8.0   72     5   2



  12. 3    12     149 12.1   74     5   3



  13. 4    18     313 11.2   62     5   4



  14. 5    NA      NA 14.3   56     5   5



  15. 6    28      NA 13.9   66     5   6



  16. 7    13     244 14.1   22     5   7



  17. 8    15     222 15.2   33     5   8



  18. >



  19. > ## 设置条件



  20. > d2 <- data[data$Ozone>18 & data$Temp>60, ]



  21. > d2



  22.  Ozone Solar.R Wind Temp Month Day



  23. 1    41     190  7.4   67     5   1



  24. 2    36     118  8.0   72     5   2



  25. 6    28      NA 13.9   66     5   6



  26. > m <- d2$Wind



  27. > m



  28. [1]  7.4  8.0 13.9



  29. > mean(m)



  30. [1] 9.766667



参考资料:

  1. https://bookdown.org/rdpeng/rprogdatascience/R Programming for Data Science

  2. 《R语言实战》 Robert I. Kabacoff



 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

登录查看更多
0

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
281+阅读 · 2020年6月3日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
PyTorch 学习笔记(一):让PyTorch读取你的数据集
极市平台
16+阅读 · 2019年4月24日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
R语言自然语言处理:关键词提取与文本摘要(TextRank)
R语言中文社区
4+阅读 · 2019年3月18日
R语言自然语言处理:词性标注与命名实体识别
R语言中文社区
7+阅读 · 2019年3月5日
学员笔记||Python数据分析之:numpy入门(一)
七月在线实验室
7+阅读 · 2017年9月28日
python进行数据分析之数据聚合和分组运算
Python技术博文
3+阅读 · 2017年8月21日
Arxiv
13+阅读 · 2020年4月12日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
3+阅读 · 2018年11月14日
Arxiv
9+阅读 · 2018年5月22日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
98+阅读 · 2020年7月1日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
【干货书】用于概率、统计和机器学习的Python,288页pdf
专知会员服务
281+阅读 · 2020年6月3日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
相关资讯
PyTorch 学习笔记(一):让PyTorch读取你的数据集
极市平台
16+阅读 · 2019年4月24日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
R语言自然语言处理:关键词提取与文本摘要(TextRank)
R语言中文社区
4+阅读 · 2019年3月18日
R语言自然语言处理:词性标注与命名实体识别
R语言中文社区
7+阅读 · 2019年3月5日
学员笔记||Python数据分析之:numpy入门(一)
七月在线实验室
7+阅读 · 2017年9月28日
python进行数据分析之数据聚合和分组运算
Python技术博文
3+阅读 · 2017年8月21日
Top
微信扫码咨询专知VIP会员