Data Science

我们如何解决数据科学中的问题?


2022年6月11日, Learn eTutorial
1402

数据科学是通过使用不同的科学方法,从不同来源获取的数据中提取有用信息的过程。众所周知,现实世界中存在许多复杂问题。在数据科学中,从不同来源收集的数据中得出的有用见解用于解决公司内部存在的业务问题。在本模块中,让我们详细讨论如何在数据科学中解决问题。

解决数据科学问题的第一性原理思维方法。

第一性原理思维是一种通过识别假设来分解问题从而创建新解决方案的方法。使用第一性原理思维方法可以创造出创新的解决方案。

假设一家公司面临一个问题,那么采取的第一步将是识别复杂问题并将其分解成更小的部分。分解过程持续进行,直到不能再进一步分解。最后,可以创造出创新的解决方案,这将有助于解决数据科学问题。

传统方法与第一性原理方法

传统方法和第一性原理方法都用于解决数据科学问题。研究表明,第一性原理方法是解决数据科学问题最合适和最有效的方法。传统方法也称为类比方法。

传统方法或类比方法总是从现有思想开始,并对可用选项进行一些改进。最后,选择最佳选项来解决问题。传统方法面临的主要问题是它无法解决核心问题。

第一性原理方法总是识别假设,并将问题分解成更小的组件,使其无法再进一步分解。最后,创建一个新解决方案来解决数据科学问题。在第一性原理方法中,大部分时间花在识别和理解问题上,因为一旦问题被清晰地识别,就可以生成适当的解决方案。

Traditional approach vs first principle approach
传统方法 第一性原理方法
  • 从现有思想开始。
  • 改进可用选项
  • 将选择最佳选项。
  • 从识别假设开始。
  • 问题被分解成小组件。
  • 创建新解决方案。

数据科学家解决数据科学问题的步骤

数据科学家在解决数据科学问题时会采取几个步骤。

Traditional approach vs first principle approach
  1. 确定问题

    确定问题是解决数据科学问题的第一步。必须正确定义问题才能解决问题。如果问题不清楚或定义不正确,那么每位数据科学家在寻找解决方案时都会非常困难。因此,识别出的问题应该清晰、正确地定义。

  2. 选择合适的解决问题的方法

    数据科学家主要使用两种方法

    1. 传统方法(如果需要,可以链接到上面的部分)
    2. 第一性原理方法

    在这两种方法中,最常用的是第一性原理方法。这是因为第一性原理方法总是从识别假设开始,并将识别出的问题分解成小组件。最后,创建新的解决方案。

    许多数据科学算法用于解决数据科学问题。线性回归、逻辑回归、决策树、朴素贝叶斯、KNN、支持向量机、K均值聚类、PCA是一些主要用于解决问题的常见数据科学算法。

  3. 数据收集

    当数据科学家识别出问题时,他们会正确清晰地定义问题,然后确定合适的方法。之后,下一步是数据收集。收集到的数据应该妥善保存,并附上数据收集日期。

    收集到的数据应该进行适当分析和清洗。数据清洗是一个耗时的过程。每位数据科学家都会花费大量时间清洗数据。数据清洗包括删除缺失值、识别重复记录以及在需要时进行一些更正。

  4. 数据分析

    数据收集和数据清洗之后,下一步是数据分析。为了分析从不同来源收集到的数据,有许多数据科学库可用。如果在此阶段选择的数据科学方法不起作用,则会重新选择合适且适当的方法。

  5. 结果解释

    一旦数据分析完成,下一步就是解释结果。在此步骤中,结果将得到解释。结果解释的四个主要步骤是正确地整合所有信息、生成所有发现、得出结论,并最终制定所有建议。

一些真实世界的数据科学问题及如何解决它们

Netflix:这是一个基于订阅的在线平台,用于在强大的互联网连接下观看电影、电视节目和剧集。因此,Netflix使用数据科学来解决问题。Netflix主要使用协同过滤算法来向Netflix用户推荐电影。电影的推荐是基于用户之前观看过的电影。不仅Netflix,许多其他社交媒体,如YouTube、Hotstar、Facebook等,也使用相同的方法来满足客户需求。

Uber:他们主要利用可用的用户数据来改进客户服务。进入优步应用程序,只需一键即可让出租车到达您所在的目的地。所有这一切都如此顺利地发生,归功于每位在该公司背后工作的每位数据科学家的辛勤工作。这个应用程序一方面与客户互动,另一方面与司机互动。在这里,数据科学家主要使用深度学习、人工智能和许多其他机制来平稳高效地运营业务。