Python C Java 机器学习 R PHP Golang 人工智能 HTML 网络安全 C++ 数据科学

Machine Learning

学习机器学习

在线测验在线测试

在线测验在线测试

Tutorial Study Image

上一篇

下一篇

机器学习中的分类

2021年8月23日， Learn eTutorial

1534

我们已经讨论了监督学习，它分为回归和分类。我们已经在之前的教程中学习了回归和回归方法。现在我们将讨论分类算法。

什么是分类算法？

分类算法基于监督学习原理工作，因为它需要训练数据集来训练模型。在分类算法中，我们根据训练数据集将数据分类到不同的类别中。
例如，我们想要将电子邮件分类为垃圾邮件或非垃圾邮件，或者简单地说，我们必须根据性别将其分类为男性和女性，或者分类为是或否等。
与回归相比，分类算法的输出是不同的，它将是一个使用训练数据集的监督方法来预测输出的类别。分类算法可以用公式表示：

y=f(x)，其中 y = 分类输出

通过一个简单的图片，我们可以更多地了解分类，其主要目标是将数据分类到不同的类别中。在下面的图片中，有两个具有不同属性和特征的类别。因此，我们的目标是将具有相似属性的数据分离到一个类别中，将其他相似属性的数据分离到另一个类别中。

Classification

分类的类型

分类可以分为两种类型，在此之前，我们必须理解“分类器”一词。分类器不过是用于数据集中对数据进行分类的算法。

二元分类器：顾名思义，如果分类只有两个结果，则属于二元分类器。例如，男性或女性、是或否、0 或 1 等。
多分类器：如果分类算法的结果多于两个，则称为多分类器。例如颜色、色调、形状等。

机器学习分类的类型

Classification

分类算法大致分为两种类型

线性模型
非线性模型

线性模型

Classification

线性模型可以分为

逻辑回归
支持向量机

非线性模型

Classification

非线性模型有多种类型，包括

K-近邻
核支持向量机
朴素贝叶斯
决策树分类
随机森林分类

分类中的学习器

惰性学习器
主动学习器

惰性学习器

顾名思义，在惰性学习器中，训练数据集将被存储，它将等待实际数据输入并进行分类和模型训练。这里的分类基于训练数据集中存储的相关数据。在惰性学习器中，预测需要更多时间，但训练时间更少。示例是 K-NN 算法和基于案例的推理。

主动学习器

主动学习器在获得训练数据集后立即构建模型。它不像惰性学习器那样等待测试数据集。它会在测试数据到来之前构建模型。例如决策树、朴素贝叶斯、ANN 等。

分类算法的应用

生物识别
药物分类
颜色和形状分类
语音识别
垃圾邮件检测
欺诈识别

分类器模型的评估

在监督学习中，分类模型和回归模型一旦完成都需要进行评估。在分类模型中，我们有三种评估类型：

1. 留出法

这是监督学习方法中用于衡量分类器准确性最常用的方法。我们将数据集分为训练数据集和测试数据集。

之后，我们向模型提供包含数据集及其对应类别的训练数据集。然后模型将通过训练数据集进行学习。然后我们向模型提供测试数据集，其中包含数据集但没有对应的类别。模型必须准确预测测试数据集的类别。

2 混淆矩阵

混淆矩阵或误差矩阵将以矩阵形式输出结果，描述我们模型的性能。矩阵的行和列包含简短格式的结果，其中包含正确和不正确的预测数量。查看下面的矩阵以获得一个概念。

Classification

Classification

3. 对数损失

对数损失是一种非常适合二元分类模型的方法，这意味着输出将在数字零和一之间。在这种方法中，我们假设对数损失值越低表示准确性越高，因为如果预测值与真实值之间的差异非常大，对数损失值就会增加。在二元分类中，交叉熵计算为
?(ylog(p)+(1?y)log(1?p))

其中“y”是实际输出，“p”是预测输出

上一篇

下一篇

Tutorial Study Image

其他教程

查看全部

Python

Python

C

C

Java

Java

机器学习

机器学习

R

R

PHP

PHP

Golang

Golang

人工智能

人工智能

HTML

HTML

网络安全

网络安全

C++

C++

数据科学

数据科学

Tutorial Study Image

加入我们