机器学习与数据挖掘

数据挖掘和机器学习已经成为企业数据应用时必不可少的工具,在预测建模、分类与聚类等方面有着重要作用,企业在进行数据分析中可以使用它们得到更加准确的结果。

一、数据挖掘和机器学习

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。它的主要目的是预测和描述数据,在过去的经验基础上预言未来趋势,检测异常数据。进行数据挖掘时,一需要先明确自己的目的,再进行数据收集和清洗工作,然后是模型构建和评估模型,最后才是将这些模型部署到系统中。

数据挖掘技术常见的有统计,聚类,可视化,归纳决策树,神经网络,关联规则,分类等。通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现目标。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

在工作中,机器学习的步骤主要分为:数据收集,数据预处理,特征提取,模型训练,模型评估以及模型部署。这其实和数据挖掘的工作过程及其相似。

按照模型类型分为两大类,有监督学习和无监督学习。

在有监督学习中,模型使用标记数据集进行训练,其中模型学习每种类型的数据。训练过程完成后,模型会根据测试数据(训练集的子集)进行测试,然后预测输出。

无监督模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对该数据进行操作,模型本身会从给定数据中找到隐藏的模式和见解。它可以比作在学习新事物时发生在人脑中的学习。