机器学习帮助系统在无需编程的情况下自动从经验中学习。它是人工智能的应用。借助机器学习,我们可以让计算机程序访问数据并利用这些数据进行学习。机器学习使计算机像人类一样感知数据。
机器学习使系统能够像人类一样从数据中做出决策。借助机器学习,我们可以执行现实世界的任务,解决问题,并有助于自动化。
1. 数据质量:机器学习需要高质量的数据。低质量的数据会导致错误的决策。
2. 时间滞后:机器学习需要大量时间来对数据做出决策。
3. 机器学习使用复杂的算法,这使得部署变得困难。
监督学习的原理是它尝试学习每个数据样本的输入数据和输出结果之间的连接。它是机器学习中最常用的算法类型。例如:决策树、KNN、随机森林等。
在无监督算法中,我们没有任何规则或指导,这意味着不会有给定的模式,模型本身必须从给定数据中找到隐藏模式。它与监督学习算法相反。
在监督学习算法中,它需要预定义的数据来学习关系并预测结果。在无监督学习中,没有标记数据,因此机器必须从输入数据中找到隐藏模式。
第一类错误指假阳性,意味着声称某事发生了,但实际上没有发生。
第二类错误指假阴性,意味着声称什么也没发生,但实际上发生了。
数据挖掘:它是系统或数据尝试使用机器学习算法从数据中提取模式的过程。
机器学习:它是开发帮助系统在不被编程的情况下从数据中学习的程序。
P值用于确定统计测试的重要性。P值将在0到1之间,帮助用户确定结论。
Python更适合文本数据分析,因为Python拥有pandas库,该库提供了易于使用、快速、灵活且功能强大的数据分析和处理工具。
在各种数学模型中选择模型的方法,这些模型用于定义相同数据,称为模型选择。在统计学、数据挖掘和机器学习领域中都使用模型学习。
这是一种用于无监督学习的技术。如果我们有一组数据点,那么我们可以使用聚类算法。这种技术将帮助我们将所有数据点分类到各自的组中。
分类用于预测离散类别标签。它涉及识别属于特定组的值。分类问题的例子是,将电子邮件分类为垃圾邮件或非垃圾邮件。
回归方法涉及从一系列连续的结果中预测响应值。因此,回归问题还需要预测一个量。回归问题的例子是预测股票在一段时间内的价格。
PAC(可能近似正确)学习是一个学习框架。它用于分析学习算法及其统计效率。
它是一种建模错误,导致无法预测未来的观测结果,或者可以将额外数据添加到现有模型中。当一个函数拟合有限的数据点集时,可能会导致参数数量过多。
它是一种回归方法,也可以将系数估计值正则化为零。为了避免过拟合的风险,它降低了模型的灵活性并阻止了学习。正则化降低了模型的复杂性,使其更适合预测。
ILP(归纳逻辑编程)使用逻辑编程,是机器学习的一部分。它可用于构建预测模型,以搜索数据中的模式,此时程序被假定为假设。
精确率可以是正向预测值。在收到的实例中,它是相关实例的比例。
召回率,也称为敏感度,是在所有相关实例中已检索到的相关实例的比例。
聚类抽样用于在已定义的人口中选择随机的完整组,并且它们具有相似的特征。抽样单元是元素的集合或簇,其中簇样本是概率。
贝叶斯网络用于表示一组变量之间概率关系的图形模型。这也称为“信念网络”或“因果网络”。动态贝叶斯网络是与贝叶斯网络相关的变量。
ARM 发现大量数据项之间的关联和关系。它有助于发现数据中的模式,例如共同出现的特征和相互关联的特征(维度)。在基于市场的分析中,如何发现交易中频繁出现的项目集是使用 ARM 的一个示例情况。
当我们的数据具有太多特征时,就会出现这种情况。如果我们的特征多于观测值,我们就有过拟合模型的风险。该术语用于表达使用暴力或网格搜索优化具有太多输入的函数的困难。
为了衡量假设函数的准确性,我们使用成本函数,用 J 表示。
随机森林是一种流行的机器学习算法,属于监督学习技术。之所以称为森林,因为它是一组决策树,每棵树都从数据样本中构建。随机森林的结果是每棵单独树的平均预测。
局部最小值是函数的最小值。
当我们的假设函数(h)的形式与数据趋势映射不佳时,这称为欠拟合或高偏差。
当假设函数拟合可用数据但不能很好地推广以预测新数据时,就会发生这种情况,这称为过拟合或高方差。
1. 加快训练速度。
2. 防止陷入局部最优。
3. 给出更好的误差曲面形状。
4. 权重衰减和贝叶斯优化可以更方便地完成。
通过删除不必要的字符将单词简化为词根的过程,并允许我们将相关单词映射到相同的词干。
维度约减有助于减少某些考虑下的随机变量的数量。它分为特征选择和提取。
它是一种机器学习算法技术。这种算法技术有助于搜索在特定情况下应该遵循的最佳合适方法或路径,因此这种技术被不同的软件和机器使用。它基于每次执行操作的奖励或惩罚进行学习。
这两个都是错误。由于学习算法中错误或过于简化的假设而导致的错误称为偏差错误。这种错误会导致模型欠拟合数据,并且很难获得高预测准确性。
由于学习算法过于复杂而导致的错误称为方差。这种错误会导致模型过拟合数据。
遗传编程是机器学习的一个子集。它通过随机突变、适应度函数、交叉和多代进化来实现算法,以解决用户定义的任务。
混淆矩阵也称为错误矩阵。它是一个用于总结分类算法性能的表格。
这些是监督学习中用于最佳概率预测的两种方法。它专为二元分类而创建,并非微不足道。
感知器是一种用于监督分类的算法。在这种情况下,输入被分类为几个可能的非二元输出之一。
策略性地生成和组合多个模型(如分类器或专家)以解决特定计算程序的过程称为集成学习。
热图提供数据的可视化表示。这种可视化表示由带有颜色的矩阵组成。其中数据的两个维度由点的位置捕获,第三个维度由点的颜色表示。
特征提取是一种将数据转换或投影到新特征空间的方法。在降维的背景下,它可以被描述为一种数据压缩方法,目标是保留最相关的信息。
循环神经网络(RNN)是带有反馈循环或通过时间反向传播的前馈神经网络。在这种情况下,在神经元去激活之前,它们会激活有限的时间。这些神经元会激活另一组神经元,这些神经元会在下一个时间点激活。
残差图是诊断回归模型常用的图形分析。它有助于回归模型检测非线性和异常值,并检查误差是否随机分布。
假设是一种特定的模型,有助于将输入映射到输出。这可以进一步用于评估和预测。
在机器学习中,熵衡量处理后数据中的随机性。如果给定数据中存在更多熵,则更难从数据中得出结论。
逻辑回归是一种预测分析技术,用于预测分类因变量的概率。逻辑回归还有助于解释数据以及一个因二元变量和一个或多个自变量之间的关系。
一个纪元表示机器学习算法完成对整个训练数据集的完整遍历次数。在数据量庞大的情况下,数据集被分成几个批次,每个批次都经过给定的模型,这个过程称为迭代。
ROC(受试者工作特征)曲线以图形方式表示真阳性率和假阳性率之间的权衡。因此,它提供了模型准确性的概念。
在模型训练期间,确定每次迭代或纪元步长的调整参数称为学习率。学习率也表示更新神经元权重的速度。如果学习率高,则模型权重更新快,如果学习率低,则模型权重更新慢。
精确率:在模式识别中,精确率是检索到的实例中相关实例的比例。当假阳性对我们的输出很重要时,使用精确率。
召回率:在模式识别中,召回率是检索到的相关实例的比例。当假阴性对我们的输出很重要时,使用召回率。
假阳性:被错误地分类为“真”但实际为“假”的案例。
假阴性:被错误地分类为“假”但实际为“真”的案例。
它是一种无监督学习技术。关联规则检查数据项之间的依赖关系。它根据依赖关系映射数据项,并使其更有利可图。关联规则将有三种类型。