0%

1.1 机器学习基础名词概念大全

[toc]

数据相关概念#

数据集dataset#

一堆西瓜以及西瓜描述的集合
(色泽=青绿,根=蜷缩)、(色泽=乌黑,根=粗糙)

样本sample/示例instance#

指数据集中的某条记录
即是集合中的某个对象(即某个西瓜)

属性attribute/特征feature#

对象在某方面的表现或者性质名称
例如色泽、根

属性值attribute value#

青绿、乌黑都是属性值

样本空间sample space#

把属性当作坐标轴, 属性值作为坐标点,则构成了样本空间。
(维度比较多的话,不太适合称为坐标系类比,所以叫做样本空间)

维数dimensionality#

指属性个数

特征向量feature vector#

样本空间中的某个点,就叫特征向量。
特征向量 = 样本 = 示例

以上概念的数学公式表示#

D={x1,x2,…,xm}
这个D就是数据集
X1、xm指示例

xi = {xi1;xi2;xi3}
这个xi就是某个示例或者样本
xij 指 xi的j属性的值。

学习相关的数据概念#

学习learning/训练training#

指从数据中得到模型的这个过程
这个过程通过执行某个学习算法来得到(即怎么根据数据,一步步迭代计算,去得到预测模型)

训练数据training data#

上面训练过程中使用的数据

训练样本training sample#

每个样本

训练集training set#

训练样本组成的集合

  • (还没用于训练的数据,不能叫做训练xxx)

假设hypothesis#

学习得到的模型, 能够反应数据的规律, 这个反应规律的情况称为“假设”

真相/真实ground-truth#

上面提到的潜在规律, 叫做真相/真实
比如颜色黑的西瓜一般比较难吃,这个就是潜在规律

学习器learner#

学习得到的模型 也可以叫做学习器
可以看作是学习算法在给定数据和参数空间上的实例化。

标记(label)#

各训练样本的实际结果信息
例如 (色泽=青绿,根=蜷缩)->好瓜、(色泽=乌黑,根=粗糙)->坏瓜

好坏瓜这个名词,则称为标记

样例(example)#

样本 + 标记 = 样例
一般用(xi,yi)来表示某个样例

标记空间label space/输出空间#

样例的1个集合,也称为标记空间。
注意, 样本空间和 标记是区分开的, 不可以把y合并到x中。 完全不同的1个空间维度

学习过程概念#

模型model#

指给模型1个西瓜, 模型能判断它是否是好瓜。
类似1个f(x)的函数

学习算法learing algorithm#

指根据 数据 得到模型的 计算方法。

分类classification#

如果预测的结果(即标记) 都是离散值或者枚举值,则叫做分类
例如好瓜/坏瓜 就是一种类

二分类(binary classification)#

只涉及2个类别的分类,一般会叫作正反类。

  • 正类positive class
  • 反类negative class

多分类 multi-class classification#

涉及多个分类的任务

回归regression#

指得到的结果是一个不明确的数值。
例如0.95,0.37…之类的

空间映射#

指任务预测结果的数学表达
X->Y
Y = {-1.1}, 指二分类
|Y| > 2 , 即个数大于2,指多分类
Y = R, R为实数集

测试testing#

得到模型后, 使用模型进行预测的过程, 叫做测试

测试样本testing sample#

被用来预测的样本
即已经算得模型的情况下, 用来做测试的。
y = f(x)
f是模型, x是测试样本, Y是你所预测期望的标记

聚类(clustering)#

指西瓜可能被分为很多类, 但是这个分类我们事先并不知道的
我们希望让学习算法帮我们找出这个分类。

监督学习supervised learning#

指训练数据拥有标记信息

无监督学习unsupervised learning#

指训练数据没有标记信息, 希望依靠学习过程帮我们得到标记或聚类

泛化generalization#

把训练得到的模型, 用到之前没出现过的样本里去预测, 这个过程叫泛化(类似于上其他真实数据了)

分布distribution#

指样本属于某种分布(例如正态分布啥的), 即属性啥的可能是平均可能是不平均。
但至少有1个分布公式。

独立同分布i.i.d#

我们希望所有样本, 取出来时是满足样本的分布规律, 是独立随机取的。
而不是单独从某个值里取一大批类似的。

归纳induction#

从特殊归纳出一般的泛化过程
从具体事实推出一般规律

广义归纳学习#

从样例中学习规律

狭义归纳学习#

从数据集中得到概念。 概念学习研究比较少,太难了

演绎deduction#

从一般规律推导出具体的其他事实。

假设空间hypothesis space#

以好瓜的假设空间为例
我们要得到好瓜的所有可选假设
例如
色泽=绿,根=硬,敲声=响
或者 色泽=,根=硬,敲声=
或者 无(即无一种情况是好瓜)

版本空间version space#

假设空间非常大,就是所有情况的枚举,但肯定存在1个和训练集匹配的好瓜假设空间,我们叫做版本空间

可以理解为是满足当前训练集正例的的所有假设空间

例如好瓜的色泽有青和绿
那么版本空间一定有存在色泽=*,
不可以是色泽=青, 因为这样的假设没有包含绿色。

要求这个假设必须包含所有正例

在假设空间中搜索包含正例且不包含反例的所有假设