人工智能算法

2021年8月23日， Learn eTutorial

1917

在我们之前的主题中，我们讨论了AI的问题解决任务。算法是解决问题的主要技术之一。AI中有许多类型的算法。其中，我们可以在这里讨论一些主要类别。

算法可以定义为编程过程的起点，而**AI算法可以定义为机器学习的一个扩展子集，它指导计算机学习如何自行操作**。人工智能算法已被用于解决数百万个问题，因此很难列出每一个算法。所以，让我们来讨论人工智能算法的三个主要类别。

分类算法

将数据分类到不同类别的技术称为分类。分类问题的主要目标是确定问题属于哪个类别。在AI中，称为分类算法的算法用于识别给定数据集的类别，这些类型的算法用于预测决策性数据的输出。分类算法是一种监督学习技术，程序从观察中学习，然后将新的观察分类到几个组中。分类过程有助于将大量数据分离为不同的值，如0/1、真/假。这些算法主要用于预测分类数据的输出。可以使用此方法找到模式的相似性，如相似的单词、数字序列等。

最广泛使用的分类算法

1. 逻辑回归 (LOGISTIC REGRESSION)

尽管听起来像是回归，但它用于对样本进行分类，属于分类算法。该模型使用了预测建模作为回归的概念。在逻辑回归中，使用一组自变量来预测分类因变量。该算法的结果是介于0和1之间的概率值。它可以使用离散数据集对新数据进行分类。它之所以重要，是因为它提供了概率。

2. 朴素贝叶斯 (NAIVE BAYES)

该算法基于贝叶斯定理。它是最简单但功能强大的解决方案。该算法可用于基于历史结果的二元分类和多类分类。该算法的准确性取决于强假设。贝叶斯定理可用于确定一个事件的发生对另一个事件概率的影响。

3. K-最近邻 (K-NEAREST NEIGHBORS)

它是最简单的分类算法之一。KNN只是存储训练数据的出现情况，而不是构建一个通用的内部模型。分类是基于每个点的K个最近邻的多数投票。在计算给定查询与数据中所有可用示例之间的距离之后，选择有限数量的最接近给定查询的示例。这个数字在KNN算法中用字母K表示。然后投票选出最频繁的标签。这是对KNN工作原理的简单描述。这可以归类为分类和回归。

4. 决策树 (DECISION TREE)

决策树方法可以说是可视化决策过程最直观的方式。一个决策将产生一系列规则，可用于对给定数据进行分类。它以树状结构构建分类模型。给定的数据集被划分为越来越小的子集。最终结果将是一个带有决策节点和叶节点的树状结构。该方法从树的根开始预测给定输入的类别。根据目标变量的性质，有两种类型的决策树

分类变量决策树
连续变量决策树

决策树的主要问题之一是它可能导致过拟合

5. 随机森林 (RANDOM FOREST)

它在数据集的各种子样本上使用多个决策树。为了对抗过拟合和提高预测准确性，该方法将平均结果作为模型的预测。凭借结果的准确性，它可以用来解决复杂问题。该方法的实现有些困难，并且需要更多时间来形成预测。

6. 支持向量机 (SUPPORT VECTOR MACHINE)

为了对数据点进行分类，支持向量机在N维空间中使用一个超平面。这里的特征数量用N表示。N可以是任何数字，但数字越大，实现模型就越困难。如果N=2，我们可以将超平面看作是一条分隔标签的线。这条线可以被认为是决策边界。落在超平面不同侧的任何东西都被分配到不同的类别。

不同分类算法的优缺点

算法	优点	缺点
逻辑回归	可以计算多个自变量对单个结果变量的影响。	仅适用于预测的二元变量忽略数据的缺失值。忽略了预测变量之间的依赖关系
朴素贝叶斯	需要少量训练数据。与其他算法相比速度极快	不好的估计器
K-最近邻	实现简单对大型训练数据有效	计算成本高需要计算每个实例与所有训练样本的距离。
决策树	数据准备工作量少可以处理数值和分类数据易于理解和可视化	不稳定对于复杂的树，泛化能力差
随机森林	更准确减少过拟合	实现复杂算法复杂预测速度慢
支持向量机	内存效率高在高维空间中有效	不直接提供概率估计

分类算法的应用

电子邮件垃圾邮件检测
药物分类
语音识别
生物特征识别
癌肿瘤细胞检测

聚类算法

将数据点分成几组的过程称为聚类。每个组中的数据点彼此相似，而与其他组中的数据点不相似。相似的项目被分组。最常见的聚类算法是

1. K-均值聚类

这是最简单的学习方法。在AI中，K-均值将数据分组到簇中以研究其相似性。数据点被分成K个簇。为每个簇计算一个质心，然后评估簇的质心与数据点之间的距离。

2. 模糊C-均值算法

概率是FCM的基本工作原理。这种方法之所以被称为模糊，是因为它不为任何数据点分配任何特定簇的绝对成员资格。每个数据点都被分配一个属于任何簇的概率值。

3. 期望最大化算法

高斯分布是该方法的工作原理。为缺失的数据点选择随机值，并用这些猜测估计第二组数据。这些新值可用于为第一组创建更好的猜测，并且该过程将继续，直到算法达到一个固定点。

4. 层次聚类算法

在该模型中，相似的对象被分组到簇中。最终结果是一组簇，其中每个簇与其他簇不同，并且每个簇内的对象彼此大致相似。层次聚类算法有两种类型

分裂聚类，用于自顶向下的方法
凝聚聚类，用于自底向上的方法

聚类算法的优缺点

算法	优点	缺点
K-均值算法	实现简单轻松适应新样本	需要预先指定K的值。不擅长处理大小和密度不同的簇。
模糊C-均值算法	数据点对簇的隶属度以程度来衡量	需要理论上指定簇的数量。
期望最大化算法	易于实现。每次迭代都会增加概率。	收敛速度慢需要前向和后向的概率
层次聚类算法	不需要关于簇数量的先验信息易于实现	无法撤销先前执行的活动时间复杂度。

聚类算法的应用

市场研究和客户细分
生物数据医学成像
搜索结果聚类
推荐引擎
模式识别
社交网络分析
图像处理。

回归算法

回归算法主要用于预测。AI中的回归可以定义为找出变量之间关系的数学方法。回归模型的输出是数值。常见的回归算法有

1. Lasso回归

Lasso回归是一种使用收缩的方法。LASSO代表“最小绝对收缩和选择算子”。通过对数据点施加限制并将其中一些收缩为零值，该算法获得预测变量的子集。该子集能够最小化响应变量的预测误差。

2. 逻辑回归

该方法主要用于二元分类。分析一组变量并预测一个分类结果。

3. 多元回归算法

它以多个解释变量作为输入。它可以被描述为线性回归和非线性回归算法的组合。可以使用多元回归来评估因变量和多个预测变量之间的关系。

4. 多变量回归

该算法使用多个预测变量进行操作。它是多元回归的扩展。该算法主要应用于零售行业的产品推荐引擎。

算法	优点	缺点
Lasso回归	模型更简单，更易于解释	不适用于分组选择
逻辑回归	更易于实现。不易过拟合	无法解决非线性问题。难以捕捉复杂关系。
多元回归	比简单回归更准确。能够识别异常。	使用不完整的数据，并错误地得出相关性即因果关系的结论。
多变量回归	帮助我们理解数据集中变量之间的关系。	不适用于较小的数据集。

回归算法的应用

输出预测
数据预测
分析时间序列
找出变量之间的因果依赖关系。

算法在实现、准确性、性能和处理时间方面各有优缺点。以上只是一些算法及其简要介绍。如果您想了解更多相关信息，请访问我们的机器学习教程。

其他教程

查看全部

学习人工智能

AI - 简介

AI - 智能系统

AI - 人工智能的类型

AI - 智能体

AI - 智能体环境

AI - 图灵测试

AI - 图灵测试的替代方案

AI - 问题解决

AI - 算法

AI - 搜索算法

AI - 知情搜索算法

AI - 爬山算法

AI - 对抗性搜索