在本教程中,您将熟悉一些最有用的 R 包。R 是用于数据科学的流行语言。在上一篇教程中,我们学习了关于存储库及其相关安装。CRAN 中有超过 16,000 个包可用。我们无法解释所有的包,但本教程中提到了数据科学家在日常活动中最常用的一些库。
R 包允许数据科学家操作数据集、可视化数据、支持处理数据类型、对象类型和结构、创建报告、交互式应用程序和模型,以及机器学习。
用于数据科学的 R 包如下
Dplyr 是 Tidyverse 包框架的一部分,是一个足以满足所有数据操作的基础包。dplyr 包提供的一些功能在下表中列出。
这是一个 R 包,它引入了一种名为数据表的新结构。它的语法与 Tidyverse 不同。在处理大数据集时,data.table 比 dplyr 更方便。
这个包来自 Tidyverse,但与 dplyr 不同。其主要重点是使数据格式整洁。一个整洁的数据集意味着该数据集满足三个条件,例如
每一列都是一个变量 每一行都是一个观测值 每个单元格都是一个单一的值。
关键函数是 pivot_longer() 和 pivot_wider()。pivot_longer() 支持从多列移动到多行,而 pivot_wider() 的功能则相反。还有其他一些函数用于分离或合并列以及处理显式和隐式缺失数据。
gg 代表图形语法。ggplot2 是一个简化任何图形的基本框架,为此您需要一些基本组件,例如数据、坐标映射系统和对象
plotly 在 python 和 R 中都有实现。plotly 与 ggplot2 不同,它将可视化提升到了一个新的动态水平。
这个包提供了几种不同的功能,例如帮助将函数应用于某个结构的多个不同元素。它类似于创建 for 循环的替代方案,在 for 循环中您会多次执行相同的操作,或者是内置 apply() 系列函数的替代方案。主要功能是处理列表,以进行过滤、重塑、汇总等。
stringr 包处理字符串。最常用于字符串操作,例如检测匹配、子集化字符串、管理字符串长度、修改它们、连接它们等等。
这个包处理获取和设置组件,提取日期时间的各种组件
forcats 包处理因子。您知道因子有水平,它们是数字的。并且在水平之上构建了标签,它们是分类的。有一些函数,比如
R Markdown 是一个与 Jupyter notebook 类似的概念。R Markdown 帮助创建脚本。这个包有助于创建分析文档,并支持与他人协作和共享代码。您可以从 CRAN 安装该包,如下所示
install.packages("markdown")
加密哈希函数,也称为摘要算法,是使用 R 中的 digest 包创建的。digest 包支持加密应用。digest 包中可用的一些函数有
| 函数 | 描述 |
| sha1() | 用于数值稳定的哈希和 |
| hmac() | 用于基于密钥的哈希消息认证码 |
| AES() | 用于高级加密标准块密码 |
统计函数由 MASS 包提供。
caret 包提供执行分类和回归任务的支持。
e1071 包提供数据分析的函数,如朴素贝叶斯、傅里叶变换、支持向量机、聚类和其他杂项函数。
sentimentr 提供用于情感分析的包。它们支持按行聚合和计算句子的极性水平。
Shiny 是另一个 R 包,内嵌了支持图表、绘图、图形等功能的可视化。
时间序列使用 dygraphs 表示,它进一步允许制作交互式图表。它还包括高度可配置的序列和轴显示,以及缩放/平移和序列/点高亮等交互功能。安装
您可以从 CRAN 安装 dygraphs 包,如下所示
install.packages("dygraphs")
leaflet 包允许创建和自定义交互式地图。它是最流行的开源 JavaScript 库之一。安装 要安装此 R 包,请在您的 R 提示符下运行此命令
ggmap 是一个生成静态地图的 R 包,是 ggplot2 的扩展。ggmap 支持结合空间信息,用于可视化来自 Google Maps、Open Street Maps、Stamen Maps 等的静态地图。
glue 帮助将大括号 {} 内的正则表达式附加到任何参数字符串。您可以使用 install.packages("glue") 函数从 CRAN 存储库安装。glue 也可在 stringr 包中使用。如果已经安装了 stringr,则可以使用 stringr 中的 glue()。