机器学习(1)——基本概念剖析

什么是所谓的机器学习?

​ 机器学习就是学习人类对信息的处理、思考、归纳方式,是一个通过机器学习特定的算法,模仿人脑处理信息的方式,对外界的数据及其所包含的信息进行预测、决策与规律探寻的过程。

其中,可以将机器学习分为两个最为重要的板块——算法与数据,数据质量的好与坏,决定了本次机器学习效益的上限,诸位可类比自己所进行过的学科实验,倘若你的数据本身就建立在对实验过程随心所欲的处理上,那么你获得的数据必然是与理论对应的数据有相当大的偏差的。在本身就有如此巨大的偏差下,在这一串随意的数据中探寻理论真相的可能性想必也是会更低。
而你在这一对数据处理过程中使用的算法,将会影响你本次机器学习效益上限的逼近速度与逼近程度。
有关于以上的结论,因本人非科班出身,举出如下一个较为浅显的例子:

对于一串从1到100的连续自然数数组,一共拥有100个数值,对这100个数值进行求和,通过自然经验可知其真实结果为5050,倘若我们采用如下几种不同的处理方式,再来看看我们的完成结果有何不同:
(1)采用for循环
在编写代码中我们经常能用到的for循环对这一串数组进行数学求和,这一串的代码几乎都能随意编写出,此处就不献丑了。
对于结果而言,我们运算了100次,得到了5050这一结果上限(因为我们的数据是确保了正确的质与量的,故计算机计算的结果上限即是真实情况下的结果)。
(2)采用数学公式进行计算
在小学我们都学过的连续数据的求和公式,(首相+末相)* 项数/2,运用这个公式对数据进行求和处理。

对于结果而言,我们运算了1次,得到了5050这一结果的上限。

​ 显而易见的,方式2的速度单从计算次数上来分析,是方式1的1/100,前者逼近上限的速度是后者的100倍。
当我们的这100个数据都不是一个整数,而是一些含有小数部分的数字——虽然我们的初衷就是通过这个虚拟的实验求取100个从1开始递增的自然数之和,然而现实生活中数据不可能会如同预想的数据一模一样,故这个时候我们得到的计算结果必然的会偏离5050这一标准答案,偏离的多与少就取决于数据的靠谱程度了,此处例毕。

无监督算法PK监督算法

​ 监督学习:通过模仿人类的归纳总结能力与推断能力,对数据与其相应的标签(可以理解为输入量与输出量)之间存在的关系进行探索与归总。

输入量:数据+标签。

输出量:数据与标签的联系。

​ 常见的监督学习问题有:

​ 1、分类问题;

​ 2、回归问题;

这两种。

​ 无监督学习:模仿了人类的推理与思辨能力,通过算法找寻、挖掘数据与数据之间潜在的联系。

输入量:数据,大量的数据。

输出量:各个数据之间潜在的联系。

​ 常见的无监督学习问题有:

​ 1、聚类问题;

​ 2、强化问题;

​ 这两个大方面。

四类基本的机器学习问题

1、分类问题:

​ 顾名思义,分类问题就是对数据分门别类,不同的数据贴上不同的标签,对它们进行归纳,模拟了一个人脑内对信息基础分类的处理方式,大致的实现步骤如下:

(1)收集待处理的数据;
(2)提取这段数据之中的特征向量;
(3)将这一特征向量与数据库之中的特征向量库进行比对;
(4)分类完毕。

​ 分类问题被大量运用于垃圾邮件识别(标签1、常规邮件,标签2、垃圾邮件)、文本情感褒贬分析(标签1、褒义,标签2、贬义)与图像内容识别(标签1、阿喵,标签2、,标签3、正常人类,标签4、blablabla……)等领域。

2、回归问题:

​ 对离散的数据进行拟合,使得离散数据变得连续化,模拟了脑内对信息的内在规律总结并对其趋势进行预测的能力,大致的实现步骤如下:

(1)收集待处理的数据;
(2)判定数据之于输出量之间的比重;
(3)得到数个线性特征向量;
(4)通过(2)中的比重,对上述的数个线性特征向量进行加权,并将其拟合;
(5)回归完成。

​ 回归问题被大量运用于预测房价、预测某电影的票房、对照片质量进行量化打分等领域之中。

3、聚类问题:

​ 有一点类似于人际交往之间,观察一个人的言行举止、衣着打扮等方面推测他可能的兴趣爱好与性格取向的问题,这个问题旨在对已有的数据进行特征找寻,并将这个特征与数据库之中的数据特征进行比对的过程,比如在电商网站之中看见你搜索了阿迪王运动鞋,算法就可能推测出你需要买鞋,并相应的为你推荐一些卖的比较好的鞋子或是与你浏览的商品设计、价格相近的鞋子,大致的实现步骤如下:

(1)设置一个用户数据库,对用户数据库中的数据进行特征提取;
(2)收集用户日常浏览记录等数据,并对这些数据也用相同的方式提取其特征;
(3)将(1)与(2)中的特征进行比对;
(4)完成聚类。

​ 常见的聚类问题会出现在一些社交网站上的好友推荐抑或是在一些新闻网上的《我感觉你可能感兴趣但我才不管你是不是真的喜欢》个人推荐板块。

4、强化问题:

​ 在这种问题下,我们可以想像自己正在玩《英雄联盟》。在对局进行时,你的队友向你报告本该在中路的对面英雄不见了,那么你是去对面的野怪区进行奇袭的收益高还是在自己家的野怪区埋伏收益高?那么这种在即时环境下的决策与求解问题就是我们的强化问题,大致的实现过程如下:

​ (1)设置一个基于大环境下的环境变量库;
(2)对这个环境变量库进行特征向量的提取并且寻找这些特征向量在不同标签下的权重;
(3)将当前行为的特征向量提取并与(2)所得的特征向量进行加权;
(4)得出当前环境下,该行为的量化评估;
(5)根据可执行行为的数量,对步骤(3)、(4)进行反复迭代;
(6)比对(5)中所得的数个量化评估数值,求解当前环境下的行为最优解;
(7)强化完毕;

​ 目前,它更多的运用于研究怎么样让机器的行动会去基于当前所处的环境,让机器有行为决策能力,去获取当前最大化的收益。

机器学习的基本工作流程简析

机器学习效果的评估方法

一览基本的机器学习算法

参考文献

文章作者: Geosity
文章链接: http://geosity.top/2018/04/18/机器学习(1)——基本概念剖析/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Geosity's