Data Science
Tutorial Study Image

数据科学面试问题

数据科学可以解释为机器学习算法、方法、工具等的集合,旨在从大量可用的原始数据中发现一些有用的信息模式。它在人工智能、统计学、预测、医疗等领域具有广泛的应用。

数据科学与大数据的区别
数据科学 大数据
它是一套从原始数据中管理和检索信息的方法、工具和算法。 它是我们从各种来源收集的大量数据集,不易存储。
它在语音和语音识别、金融领域、网络研究等方面有各种应用。 在通信、研究、医疗应用等领域很受欢迎。
它使用机器学习算法从原始数据中检索数据模式。 它有助于解决数据存储问题和处理大量数据。
使用的重要语言和方法有Python、R、SQL等。 这里使用的方法有Hadoop、Spark、Hive等。

 

我们有各种方法和标准来检查数据质量,其中一些是:

  • 数据完整性
  • 数据一致性
  • 数据唯一性
  • 数据完整性
  • 数据准确性
  • 数据合规性

顾名思义,监督学习在机器从数据集中学习时需要一个监督者。

在监督学习中,我们在使用实际数据之前会向机器提供一个样本数据集,我们称之为训练数据。

监督学习的例子包括签名识别、语音识别、人脸检测等。

无监督学习类似于人脑的工作方式。与监督学习不同,无监督学习没有训练数据,因此机器必须从实际数据中学习模式。

简单来说,无监督学习必须在没有监督者(训练数据集)的情况下从实际数据中学习。

缺失数据是数据科学中必须解决的主要障碍之一。通常有两种处理缺失数据的方法。

1. 调试方法:调试方法包括数据清洗过程,该过程检查数据质量并采取必要措施提高数据质量。一些重要的调试方法是:

  1. 搜索值列表
  2. 过滤问题
  3. 检查逻辑一致性
  4. 检查代表性水平

2. 归因方法:在此方法中,我们通过估计有效值和答案来尝试替换数据集中的缺失值。我们主要有三种归因方法:

  1. 随机归因
  2. 热甲板归因
  3. 均值归因

Hadoop不是一种编程语言,Hadoop是一个开源的处理框架,它有助于管理大数据机器和池化系统中应用程序的海量数据处理和存储。

Apache Hadoop是不同开源软件和实用程序的集合,有助于在网络中使用不同的计算机系统来解决需要海量数据和处理的复杂问题。

Apache Hadoop还提供了一个高端框架,能够使用名为MapReduce模型的编程模型提供分布式存储。

Hadoop 的意思是“高可用分布式面向对象平台”(High Availability Distributed Object Oriented Platform)。

这是一个常见且有点主观和令人困惑的面试问题。大多数大公司认为好数据更重要,并且如果没有足够的好数据,我们就无法构建一个好模型。

这个问题的答案取决于您的个人经验,并取决于他们是否提供了示例或案例的具体情况。

这是一个常见且有点主观和令人困惑的面试问题。大多数大公司认为好数据更重要,并且如果没有足够的好数据,我们就无法构建一个好模型。

这个问题的答案取决于您的个人经验,并取决于他们是否提供了示例或案例的具体情况。

它是Hadoop系统中的一种重要命令。它被称为文件系统检查命令,帮助我们检查文件系统中的错误。它还会生成报告并将其发送到Hadoop分布式系统。

宽数据格式是一种数据写入类型,其中每一行都是唯一的,并为不同的属性提供许多列。在宽数据格式中,假设我们有一个实体,它有许多属性,每个属性都将写入单个行(实体)的不同列中。在宽数据格式中,每行将有大量的列。这里我们可以对分类数据进行分组。

长数据格式是一种数据写入类型,每行(实体)只有有限数量的列。在此模型中,行(实体)不是唯一的,它将为该实体的不同属性重复。

宽数据和长数据格式

 

插值是一种查找未给出但可以在数据集之间找到的数据点的方法。

它可以定义为在某些数据点之间进行数据点预测。这意味着,根据系列中的其他数据值计算函数或数据值。

与插值不同,在外推法中,我们必须找到超出给定数据集的缺失数据点。

它就像预测数据集之外的数据值一样。外推值的质量取决于我们选择预测值的方法。

在数据科学中,良好输出的数据数量和质量取决于不同的因素,例如:

  • 我们用于计算输出的方法。
  • 我们需要多少预测的完美性,以及其他不同的因素。

期望值是我们经过大量预测后将获得的预期结果或平均值。它是一个猜测值或理论值。

HDFS文件只支持独占写入,这意味着文件系统只会接收第一个访问文件的用户的输入,这在微秒级别有差异。第二个用户的输入值将被拒绝。

功效分析是一种计算,可帮助您在数据科学研究中,给定显著性水平、效应大小等,找到或决定所需的最小样本量。

正态分布也称为高斯分布。它可以定义为关于均值对称的概率分布。它有助于我们显示数据更接近均值,并且数据出现的频率距离均值有点远。

线性回归用于使用数据集中的值计算变量的值。它可以定义为一种线性统计方法,用于查找数据集中两个变量之间的关系。

我们必须计算或预测的值称为因变量,用于预测的值称为自变量。

线性回归使用直线来表示变量之间的关系。

 

要检查元素,首先我们必须创建两个列表,然后我们可以使用函数isin()来检查列表一中是否存在列表二中的元素。

KNN和K-means聚类之间的主要区别是:

KNN是一种监督学习算法,它有一个训练数据集,用于训练算法以发现数据中的模式。所有过程都在监督下完成。而,

K-means聚类是一种无监督学习算法,它没有训练数据集来训练算法,算法必须像人脑工作一样从原始数据中发现模式。

 

通过使用函数 Concat(),我们可以在数据科学中堆叠两个序列。如果我们需要水平合并,将 x 轴设置为 1。例如,假设我们有两个序列 s1 和 s2,那么

test = test.concat([s1, s2], axis=1)

在数据科学中,函数to_datetime()用于将日期字符串转换为序列中的时间序列

Python和R语言是可以在数据科学中使用的编码语言。它们都有广泛的函数和库,可以很好地处理测试数据。这些语言之间的一些区别是:

Python和R的区别
Python R语言
Python有大量的应用级用途,如Web开发、数据分析等。 R编程语言主要用于统计建模。
Python语言主要由数据科学家、程序员和数据工程师使用。 R语言由统计学家、数据工程师和数据科学家使用。
Python简单易学,可供初学者到专家级工程师使用。 R语言可供没有任何编程或编码知识的人使用。
Python包分发通过PyPi完成。 R编程语言分发通过CRAN完成。
Python有许多可视化工具,如matplotlib、bokkeh、seaborn。 R语言使用ggplot2、plotly、ggiraph等可视化工具。

 

ROC曲线被称为接收者操作特征曲线。它是一个图形模型,显示分类模型在阈值处的性能。该图有两个参数:

  1. 真阳性率 TPR
  2. 假阳性率 FPR

TPR可以计算为 TP / ( TP + FN )FPR可以计算为 FP / FP + TN,其中

  • TP = 真阳性
  • TN = 真阴性
  • FP = 假阳性
  • FN = 假阴性

AUC曲线是关于召回率的精度测量曲线。它被称为ROC曲线下面积。AUC曲线提供了针对所有分类阈值值的总体性能报告,这是一个二维值。AUC精度可以计算为:

P = TP/(TP + FP)TP/(TP + FN) 其中

  • TP = 真阳性
  • TN = 真阴性
  • FP = 假阳性
  • FN = 假阴性

要从值列表创建系列,我们可以使用函数series()

偏差是算法(模型)的预测值与实际值之间的变化量。偏差是由于模型简化而发生的。高偏差会导致一种称为欠拟合的现象。

欠拟合是由模型中高方差引起的现象,它对测试数据和训练数据集都给出较差的结果。

我们可以将方差定义为当我们使用不同的训练数据集时结果中发生的变化。方差是由数据预测模型的过度复杂性引起的。

过拟合是模型中发生的另一个问题,即模型会为训练数据提供正确的输出,但在加载测试数据时会给出较差的结果。

混淆矩阵是一个用于检查监督分类算法性能的表格。通过使用混淆矩阵,我们可以检查预测模型中的错误以及错误的类型。混淆矩阵也称为误差矩阵。

选择偏差是一种偏差误差,发生在我们为研究获取数据时。它发生在我们获取一些随机研究数据时,并且会影响预测结果。它被称为选择效应,并且有不同的类型,例如:

  • 抽样偏差
  • 时间间隔
  • 数据
  • 损耗

 

马尔可夫链是一种创建随机样本值的系统方式,其中输出值的概率仅取决于序列的最后一个值。马尔可夫模型由安德鲁·马尔可夫创建。数据科学家使用马尔可夫链模型在某些情况下预测输出。

真阳性率或TPR是指一个阳性值被检测为阳性的比率或概率。TPR将是真阳性与真阳性和假阴性之和的比率。它可以计算为:

TPR=TP/TP+FN

假阳性率或FPR是假触发的概率,这意味着它显示结果为阳性,但结果实际上是阴性的概率。假阳性率可以定义为假阳性与真阳性和假阳性之和的比率。它可以计算为:

FPR=FP/TP+FP

R编程语言提供了大量的内置函数和库,可以帮助可视化数据,如ggplot2、leaflet、lattice等。使用R语言,我们可以开发任何类型的图表,并有助于探索性数据分析。R语言比其他任何语言都支持更多的图形需求。

SVM被称为支持向量机,它是一种用于分类的监督机器学习算法。它可用于分类和回归类型的问题,因其高准确性和低计算成本而非常受欢迎。SVM由一个称为超平面的平面组成,该平面将变量类别分开。

SVM中使用的一些核函数是:

  • 多项式核
  • 高斯
  • 拉普拉斯RBF
  • Sigmoid
  • 双曲核

深度学习是机器学习的一个分支,它创建算法,其工作方式类似于人类神经系统以及人脑如何从不同情境中获取知识。深度学习涉及一个神经网络,该网络处理大量数据以寻找模式。深度学习的实际应用包括人脸识别、虚拟助手、自动驾驶汽车等。

A/B测试是一种优化方法,用于找出变量某些值的变化将如何影响用户或受众以及他们对这种变化的反应。

A/B测试通常用于网页。如果我们需要更改一个网页,那么该更改只会向部分用户显示,以检查他们的反应。然后,根据他们的反应,我们将该更改永久应用于所有用户和网站的所有页面。

Box-Cox变换是一种将非正态因变量转换为正态值的方法。通过这种变换,我们可以更改响应变量,使数据满足特定要求。

假设我们为预测收集了大量的维度或细节,那么从如此大量的不需要的维度或细节中选择正确的维度就称为维度诅咒。

简单来说,在检查数据集时,假设我们有大量不需要的列,那么提取所需的正确列需要付出巨大的努力。

Python中的pickle模块用于序列化或反序列化对象。它能够将Python对象(如列表、字典等)转换为字节流(0和1)。它也称为编组或扁平化。

我们还可以将这些字节流转换回Python对象,这称为unpickling。pickling有助于将对象存储在驱动器中。

表上可以使用的一些连接是:

  1. 内连接
  2. 左连接
  3. 外连接
  4. 全连接
  5. 自连接
  6. 笛卡尔连接

DELETE命令用于从表中删除多行。DELETE命令与WHERE子句一起使用以选择要删除的行数。而,TRUNCATE命令用于从表中删除所有行。DELETE命令可以撤销,但TRUNCATE命令不能。

我们可以与SQL编程一起使用的一些命令子句是:

  1. WHERE
  2. GROUP BY
  3. ORDER BY
  4. USING

外键是DBMS表中的一个键,用于在两个表之间建立链接。它可以定义为一个特殊的键,它属于一个表,但将充当另一个表的主键。

外键所在的表称为子表,外键是主键的表称为父表。

数据完整性可以定义为有助于确保存储在数据库中的数据的一致性、准确性和可靠性的过程或概念。数据完整性确保数据质量,并有助于使用该数据进行良好的预测。

SQL数据库系统是用于处理RDBMS(关系数据库管理系统)的数据库系统。在RDBMS系统中,数据是结构化的,这意味着数据以表格式(行和列)组织。

NoSQL系统处理非关系数据库系统,这意味着数据是非结构化的。在此类数据库系统中,数据不以任何格式排列。现在,来自软件、小工具等非结构化数据非常普遍。

有许多数据库系统遵循NoSQL数据库系统的原理。其中一些是:

  • Redis
  • MongoDB
  • Cassandra
  • HBase
  • Neo4j

Hadoop是数据科学家处理从原始设备和调查中获得的大量非结构化数据的关键。其次,Hadoop的扩展,如Mahout,将帮助数据科学家将机器学习的概念及其算法应用于大量数据。

通常,可以通过取数据点数量除以2的平方根来轻松找到质心数量(K)。使用此方法,我们得到质心数量或K值的近似值。为了获得更精确的值,我们有许多方法,例如:

  • 肘部法则
  • 核方法

单变量分析有许多用于描述性统计分析的方法,它只有一个变量。单变量分析的一个例子是饼图。

在双变量分析中,我们通过取两个变量之间的差异进行分析。在这种分析中,涉及两个变量。这种分析的一个例子是散点图。

在多变量分析中,将涉及两个以上的变量。

统计学是帮助分析师了解客户偏好的基本分析。通过使用统计方法,分析师可以获得关于最终用户偏好(如兴趣、保留率、产品投诉等)及其期望的数据。了解最终用户将帮助分析师开发更可靠和健壮的产品。

在数据科学中,有许多可用的统计方法,其中一些是:

  • 算术平均值
  • 图形显示
  • 回归
  • 相关性
  • 时间序列

对于处理大数据,有以下方法:

  • 情感分析
  • 语义分析
  • A/B测试

此外,还使用了许多机器学习方法来处理大量数据。

RDBMS是“关系数据库管理系统”的缩写,它是一种在关系模型原理下工作的数据库管理系统。RDBMS由“E F Codd”引入,用于处理大量无序数据。

许多数据库都在RDBMS下工作,其中一些是:

  • SQL
  • MySQL
  • IBM
  • DB2
  • ORACLE
  • MYSQL Server
  • Microsoft Access

卡方检验是一种统计方法,用于比较和衡量观测值与我们期望的理论值之间的完美程度。

F检验可以通过以下公式完成:

F = 解释方差 / 未解释方差。

F检验用于检查和比较两个总体方差。

关联分析是发现数据之间关联或关系的方法。

关联分析用于更好地了解数据实体如何相互关联

平方误差可以通过取误差的平方的平均值来计算。而绝对误差可以计算为实际值与测量值之间的差值。

API是应用程序编程接口的缩写。API是一组程序、例程和协议,有助于构建一些实用程序和应用程序。

通过使用API,开发复杂的应用程序和软件将变得非常容易。

协同过滤是一种借助其他用户的一些推荐来自动创建预测的方法。

组合数学或离散概率对于数据科学家研究所有类型的预测模型非常有帮助。

数据科学中的精确率可以定义为检索到的有效实例数除以有效文档总数。

数据科学中的召回率可以定义为检索到的有效实例数除以文档总数。

市场篮子分析是一种基于以下概念的建模类型:购买某种类型产品的人更有可能购买另一种类型的产品。

中心极限定理指出,随着样本量的增加,平均值将接近正态分布,而无需检查所取平均值的分布。

I型错误是对真实发现或真实零假设的不接受。而II型错误是对错误发现或错误零假设的接受。

线性回归是预测分析方法中至关重要的一种类型。线性回归分析有助于使用另一个变量查找(预测)变量的值。

在线性回归中,我们想要预测或查找的值称为因变量,我们用来预测值的变量的值称为自变量。

分组函数在数据科学中用于提供数据集的总体统计摘要。有许多分组函数,其中一些是:

  • COUNT
  • MAX
  • MIN
  • AVG
  • SUM
  • DISTINCT

根本原因可以定义为系统或过程的基本或核心故障。要解决此类问题,需要进行深入和系统的分析,这称为根本原因分析(RCA)。

P值用于假设检验中,以查找结果的强度。P值将在0到1之间,这决定了假设检验的强度。

因果关系将表示两个事件之间的任何关系。因果关系用于表示原因及其结果。

交叉验证是一种衡量模型在不同数据集上性能的方法。

交叉验证的一个例子是训练数据和测试数据,其中测试数据用于检查模型,训练数据用于构建模型。

逻辑回归用于使用自变量估计二元事件发生的概率。例如,投票和未投票的机会。

聚类抽样是一种基于概率的方法,数据分析师将人口分成不同的组,称为聚类。然后从聚类中抽取样本,并对该聚类样本池进行分析。

HDFS是一个支持独占写入的文件系统,因此当第一个用户正在访问文件时,系统将拒绝任何第二个用户的输入。

重采样方法有不同的用途,其中一些是:

  • 估计样本统计量的精度
  • 交换数据点上的标签
  • 验证模型

当对变量进行实验时,二项式分布将帮助我们找到该变量实验中成功次数的概率

 

热门程序
查看全部