1.1 机器学习基础名词概念大全

[toc]

数据相关概念
学习相关的数据概念
学习过程概念

数据相关概念#

数据集dataset#

一堆西瓜以及西瓜描述的集合
(色泽=青绿，根=蜷缩）、（色泽=乌黑，根=粗糙）

样本sample/示例instance#

指数据集中的某条记录
即是集合中的某个对象（即某个西瓜）

属性attribute/特征feature#

对象在某方面的表现或者性质名称
例如色泽、根

属性值attribute value#

青绿、乌黑都是属性值

样本空间sample space#

把属性当作坐标轴，属性值作为坐标点，则构成了样本空间。
（维度比较多的话，不太适合称为坐标系类比，所以叫做样本空间）

维数dimensionality#

指属性个数

特征向量feature vector#

样本空间中的某个点，就叫特征向量。
特征向量 = 样本 = 示例

以上概念的数学公式表示#

D={x1,x2,…,xm}
这个D就是数据集
X1、xm指示例

xi = {xi1;xi2;xi3}
这个xi就是某个示例或者样本
xij 指 xi的j属性的值。

学习相关的数据概念#

学习learning/训练training#

指从数据中得到模型的这个过程
这个过程通过执行某个学习算法来得到（即怎么根据数据，一步步迭代计算，去得到预测模型）

训练数据training data#

上面训练过程中使用的数据

训练样本training sample#

每个样本

训练集training set#

训练样本组成的集合

(还没用于训练的数据，不能叫做训练xxx）

假设hypothesis#

学习得到的模型，能够反应数据的规律，这个反应规律的情况称为“假设”

真相/真实ground-truth#

上面提到的潜在规律，叫做真相/真实
比如颜色黑的西瓜一般比较难吃，这个就是潜在规律

学习器learner#

学习得到的模型也可以叫做学习器
可以看作是学习算法在给定数据和参数空间上的实例化。

标记（label)#

各训练样本的实际结果信息
例如 (色泽=青绿，根=蜷缩）->好瓜、（色泽=乌黑，根=粗糙）->坏瓜

好坏瓜这个名词，则称为标记

样例(example)#

样本 + 标记 = 样例
一般用(xi,yi)来表示某个样例

标记空间label space/输出空间#

样例的1个集合，也称为标记空间。
注意，样本空间和标记是区分开的，不可以把y合并到x中。完全不同的1个空间维度

学习过程概念#

模型model#

指给模型1个西瓜，模型能判断它是否是好瓜。
类似1个f(x)的函数

学习算法learing algorithm#

指根据数据得到模型的计算方法。

分类classification#

如果预测的结果（即标记) 都是离散值或者枚举值，则叫做分类
例如好瓜/坏瓜就是一种类

二分类(binary classification)#

只涉及2个类别的分类，一般会叫作正反类。

正类positive class
反类negative class

多分类 multi-class classification#

涉及多个分类的任务

回归regression#

指得到的结果是一个不明确的数值。
例如0.95,0.37…之类的

空间映射#

指任务预测结果的数学表达
X->Y
Y = {-1.1}，指二分类
|Y| > 2 ，即个数大于2，指多分类
Y = R， R为实数集

测试testing#

得到模型后，使用模型进行预测的过程，叫做测试

测试样本testing sample#

被用来预测的样本
即已经算得模型的情况下，用来做测试的。
y = f(x)
f是模型， x是测试样本， Y是你所预测期望的标记

聚类（clustering）#

指西瓜可能被分为很多类，但是这个分类我们事先并不知道的
我们希望让学习算法帮我们找出这个分类。

监督学习supervised learning#

指训练数据拥有标记信息

无监督学习unsupervised learning#

指训练数据没有标记信息，希望依靠学习过程帮我们得到标记或聚类

泛化generalization#

把训练得到的模型，用到之前没出现过的样本里去预测，这个过程叫泛化（类似于上其他真实数据了）

分布distribution#

指样本属于某种分布（例如正态分布啥的），即属性啥的可能是平均可能是不平均。
但至少有1个分布公式。

独立同分布i.i.d#

我们希望所有样本，取出来时是满足样本的分布规律，是独立随机取的。
而不是单独从某个值里取一大批类似的。

归纳induction#

从特殊归纳出一般的泛化过程
从具体事实推出一般规律

广义归纳学习#

从样例中学习规律

狭义归纳学习#

从数据集中得到概念。概念学习研究比较少，太难了

演绎deduction#

从一般规律推导出具体的其他事实。

假设空间hypothesis space#

以好瓜的假设空间为例
我们要得到好瓜的所有可选假设
例如
色泽=绿，根=硬，敲声=响
或者色泽=，根=硬，敲声=
或者无（即无一种情况是好瓜）

版本空间version space#

假设空间非常大，就是所有情况的枚举，但肯定存在1个和训练集匹配的好瓜假设空间，我们叫做版本空间

可以理解为是满足当前训练集正例的的所有假设空间

例如好瓜的色泽有青和绿
那么版本空间一定有存在色泽=*，
不可以是色泽=青，因为这样的假设没有包含绿色。

要求这个假设必须包含所有正例

在假设空间中搜索包含正例且不包含反例的所有假设