R 中的统计学入门


2022年9月16日, 学习电子教程
1907

在本教程中,您将了解与 R 程序相关的基本统计概念。在 R 中,统计学允许我们借助一些可用的统计工具(如均值、中位数、众数、方差、标准差等)来分析、审查和总结数据。这些都是 R 中提供的内置函数。

R 中的统计学是什么?

统计学是数学的一个分支,涉及数据的收集、组织、分析、解释和呈现。它用于处理现实世界中的复杂问题,帮助分析人员发现有意义的趋势和变化。因此,统计学习指的是一套用于建模和理解数据的工具。因此,统计学有助于收集、分析和从数据中得出结论。
统计学包括以下程序:

  1. 识别问题
  2. 收集相关数据(收集数据)
  3. 分析数据(评估数据)
  4. 最终得出结论(总结数据)

R 是数据科学和统计学领域广泛采用的语言。R 也被称为统计计算。R 编程语言被专业人士和数据专家用于建模、金融数据、营销趋势和其他分析。R 中的统计学是用户转向使用 R 编程语言的主要原因之一。这是因为 R 拥有丰富的统计技术或函数,并且具有用于图表和图形的复杂图形和可视化功能。一些有利于用户的理由是:

  • R 是一种开源的统计编程语言,可免费使用。
  • R 具有高度的灵活性
  • R 是一种强大的脚本语言。
  • R 具有跨平台兼容性。

数据分析是必需的,因为我们生活在一个数据丰富​​的世界。数据正在革新企业和许多其他行业。分析数据可提供更好的见解。分析师审查数据以便他们能够得出有意义的结论,并实现了多种统计函数、原理和算法来分析原始数据,构建统计模型,并推断或预测结果。

统计学领域对日常生活中的大多数领域都有影响,例如教育、股市、生命科学、保险、零售等。

在开始学习统计学之前,需要了解一些统计术语。它们是:

  1. 总体:这是必须从中收集数据的来源集合。例如,一群孩子、一个国家的人口等。
  2. 样本:这是总体的子集。
  3. 变量:变量是任何可以测量或计数的特征、数字或数量。它也可以称为数据项。例如,总体中的身高、体重、收入、血型、时间、性别、年龄等。
  4. 参数:参数也称为统计模型。统计参数或总体参数是索引一系列概率分布的量。它可以是样本集的均值或总和。它基本上提供了总体的一般特征。

注意:统计学是一个用于概括分析师用于描述数据集的过程的术语。

分析类型

在统计分析中,基本方面是获取数据。事件的分析可以通过两种方式之一进行:定量定性

使用 factor() 函数和 shirts 参数创建另一个对象 shirt_sizes,以将 shirt_sizes 创建为因子。


shirt_sizes = factor(shirts)
> shirt_sizes
[1] S   M   L   XL  XXL S   L  
Levels: L M S XL XXL
 

因子和水平,它们构成了因子内的唯一值。

  • 定量分析也称为统计分析,它是收集和解释具有数字和图形的对象(数据)以识别趋势的科学。定量数据可以计数、测量并用数字表示。这被认为是一种结构化类型。

    例如,考虑使用 c() 创建的向量 weight。该向量的权重如下所示。Weight 被创建为一个包含数值数据的向量。

     

    
    weight=c(45.7,30.0,67.4,89.3)
    print(weight)
     
    
    
    [1] 45.7 30.0 67.4 89.3
    

    因此,我们可以说向量 weight 存储了数值型的定量数据。

  • 定性分析也称为非统计分析,处理定性数据,这些数据本质上是非结构化或半结构化的,使用文本、媒体等。定性数据也称为分类数据。定性数据使用因子存储。这些数据用于假设和解释。这些数据无法通过传统方法收集和分析。

    以不同衬衫尺寸为例。创建一个名为 shirt 的对象。

    
    shirts = c("S","M","L","XL","XXL","S","L")
    print(weight)
     
    

    每个元素都包含在双引号中,因为它们代表字符向量。

    让我们显示向量 shirt 的元素。

    
    [1] "S"   "M"   "L"   "XL"  "XXL" "S"   "L"
    

    使用 factor() 函数和 shirts 参数创建另一个对象 shirt_sizes,以将 shirt_sizes 创建为因子。

    
    shirt_sizes = factor(shirts)
    > shirt_sizes
    [1] S   M   L   XL  XXL S   L  
    Levels: L M S XL XXL
     
    

    因子和水平,它们构成了因子内的唯一值。

考虑另一个总结这两个概念的例子,如果您从餐厅订购一杯咖啡,它有小杯、中杯或大杯,这是一种定性分析。但是,如果一家商店一周售出 50 杯普通咖啡,那就是定量分析,因为有一个确切的计数、数字或统计数据。

定性数据或分析的另一个例子是根据男性或女性等属性对性别进行分类,对产品进行评分等,这些实际上并没有被测量,而是根据它们的属性、属性、标签等进行分类。