R中用于数据科学的包


2022年4月14日, Learn eTutorial
1901

在本教程中,您将熟悉一些最有用的 R 包。R 是用于数据科学的流行语言。在上一篇教程中,我们学习了关于存储库及其相关安装。CRAN 中有超过 16,000 个包可用。我们无法解释所有的包,但本教程中提到了数据科学家在日常活动中最常用的一些库。

用于数据科学家的 R 包

R 包允许数据科学家操作数据集、可视化数据、支持处理数据类型、对象类型和结构、创建报告、交互式应用程序和模型,以及机器学习。

用于数据科学的 R 包如下

  1. dplyr

    Dplyr 是 Tidyverse 包框架的一部分,是一个足以满足所有数据操作的基础包。dplyr 包提供的一些功能在下表中列出。

  2. data.table

    这是一个 R 包,它引入了一种名为数据表的新结构。它的语法与 Tidyverse 不同。在处理大数据集时,data.table 比 dplyr 更方便。

  3. tidyr

    这个包来自 Tidyverse,但与 dplyr 不同。其主要重点是使数据格式整洁。一个整洁的数据集意味着该数据集满足三个条件,例如

    每一列都是一个变量 每一行都是一个观测值 每个单元格都是一个单一的值。

    关键函数是 pivot_longer() 和 pivot_wider()。pivot_longer() 支持从多列移动到多行,而 pivot_wider() 的功能则相反。还有其他一些函数用于分离或合并列以及处理显式和隐式缺失数据。

  4. ggplot2

    gg 代表图形语法。ggplot2 是一个简化任何图形的基本框架,为此您需要一些基本组件,例如数据、坐标映射系统和对象

  5. plotly

    plotly 在 python 和 R 中都有实现。plotly 与 ggplot2 不同,它将可视化提升到了一个新的动态水平。

  6. purrr

    这个包提供了几种不同的功能,例如帮助将函数应用于某个结构的多个不同元素。它类似于创建 for 循环的替代方案,在 for 循环中您会多次执行相同的操作,或者是内置 apply() 系列函数的替代方案。主要功能是处理列表,以进行过滤、重塑、汇总等。

  7. stringr

    stringr 包处理字符串。最常用于字符串操作,例如检测匹配、子集化字符串、管理字符串长度、修改它们、连接它们等等。

  8. lubridate

    这个包处理获取和设置组件,提取日期时间的各种组件

  9. forcats

    forcats 包处理因子。您知道因子有水平,它们是数字的。并且在水平之上构建了标签,它们是分类的。有一些函数,比如

  10. R Markdown

    R Markdown 是一个与 Jupyter notebook 类似的概念。R Markdown 帮助创建脚本。这个包有助于创建分析文档,并支持与他人协作和共享代码。您可以从 CRAN 安装该包,如下所示

    install.packages("markdown")

    如果您想使用 rmarkdown 包的开发版本(无论是否使用 RStudio),您可以通过 remotes 包从 GitHub 安装: remotes::install_github('rstudio/rmarkdown')
  11. digest

    加密哈希函数,也称为摘要算法,是使用 R 中的 digest 包创建的。digest 包支持加密应用。digest 包中可用的一些函数有

    函数 描述
    sha1()  用于数值稳定的哈希和
    hmac()  用于基于密钥的哈希消息认证码
    AES()  用于高级加密标准块密码
  12. MASS

    统计函数由 MASS 包提供。

  13. caret

    caret 包提供执行分类和回归任务的支持。

  14. e1071

    e1071 包提供数据分析的函数,如朴素贝叶斯、傅里叶变换、支持向量机、聚类和其他杂项函数。

  15. sentimentr

    sentimentr 提供用于情感分析的包。它们支持按行聚合和计算句子的极性水平。

  16. shiny

    Shiny 是另一个 R 包,内嵌了支持图表、绘图、图形等功能的可视化。

  17. dygraph

    时间序列使用 dygraphs 表示,它进一步允许制作交互式图表。它还包括高度可配置的序列和轴显示,以及缩放/平移和序列/点高亮等交互功能。安装

    您可以从 CRAN 安装 dygraphs 包,如下所示

    install.packages("dygraphs")

  18. leaflet

    leaflet 包允许创建和自定义交互式地图。它是最流行的开源 JavaScript 库之一。安装 要安装此 R 包,请在您的 R 提示符下运行此命令

  19. ggmap

    ggmap 是一个生成静态地图的 R 包,是 ggplot2 的扩展。ggmap 支持结合空间信息,用于可视化来自 Google Maps、Open Street Maps、Stamen Maps 等的静态地图。

  20. glue

    glue 帮助将大括号 {} 内的正则表达式附加到任何参数字符串。您可以使用 install.packages("glue") 函数从 CRAN 存储库安装。glue 也可在 stringr 包中使用。如果已经安装了 stringr,则可以使用 stringr 中的 glue()。

  21. reshape2

  22. dichromat