[toc]
数据相关概念#
数据集dataset#
一堆西瓜以及西瓜描述的集合
(色泽=青绿,根=蜷缩)、(色泽=乌黑,根=粗糙)
样本sample/示例instance#
指数据集中的某条记录
即是集合中的某个对象(即某个西瓜)
属性attribute/特征feature#
对象在某方面的表现或者性质名称
例如色泽、根
属性值attribute value#
青绿、乌黑都是属性值
样本空间sample space#
把属性当作坐标轴, 属性值作为坐标点,则构成了样本空间。
(维度比较多的话,不太适合称为坐标系类比,所以叫做样本空间)
维数dimensionality#
指属性个数
特征向量feature vector#
样本空间中的某个点,就叫特征向量。
特征向量 = 样本 = 示例
以上概念的数学公式表示#
D={x1,x2,…,xm}
这个D就是数据集
X1、xm指示例
xi = {xi1;xi2;xi3}
这个xi就是某个示例或者样本
xij 指 xi的j属性的值。
学习相关的数据概念#
学习learning/训练training#
指从数据中得到模型的这个过程
这个过程通过执行某个学习算法来得到(即怎么根据数据,一步步迭代计算,去得到预测模型)
训练数据training data#
上面训练过程中使用的数据
训练样本training sample#
每个样本
训练集training set#
训练样本组成的集合
- (还没用于训练的数据,不能叫做训练xxx)
假设hypothesis#
学习得到的模型, 能够反应数据的规律, 这个反应规律的情况称为“假设”
真相/真实ground-truth#
上面提到的潜在规律, 叫做真相/真实
比如颜色黑的西瓜一般比较难吃,这个就是潜在规律
学习器learner#
学习得到的模型 也可以叫做学习器
可以看作是学习算法在给定数据和参数空间上的实例化。
标记(label)#
各训练样本的实际结果信息
例如 (色泽=青绿,根=蜷缩)->好瓜、(色泽=乌黑,根=粗糙)->坏瓜
好坏瓜这个名词,则称为标记
样例(example)#
样本 + 标记 = 样例
一般用(xi,yi)来表示某个样例
标记空间label space/输出空间#
样例的1个集合,也称为标记空间。
注意, 样本空间和 标记是区分开的, 不可以把y合并到x中。 完全不同的1个空间维度
学习过程概念#
模型model#
指给模型1个西瓜, 模型能判断它是否是好瓜。
类似1个f(x)的函数
学习算法learing algorithm#
指根据 数据 得到模型的 计算方法。
分类classification#
如果预测的结果(即标记) 都是离散值或者枚举值,则叫做分类
例如好瓜/坏瓜 就是一种类
二分类(binary classification)#
只涉及2个类别的分类,一般会叫作正反类。
- 正类positive class
- 反类negative class
多分类 multi-class classification#
涉及多个分类的任务
回归regression#
指得到的结果是一个不明确的数值。
例如0.95,0.37…之类的
空间映射#
指任务预测结果的数学表达
X->Y
Y = {-1.1}, 指二分类
|Y| > 2 , 即个数大于2,指多分类
Y = R, R为实数集
测试testing#
得到模型后, 使用模型进行预测的过程, 叫做测试
测试样本testing sample#
被用来预测的样本
即已经算得模型的情况下, 用来做测试的。
y = f(x)
f是模型, x是测试样本, Y是你所预测期望的标记
聚类(clustering)#
指西瓜可能被分为很多类, 但是这个分类我们事先并不知道的
我们希望让学习算法帮我们找出这个分类。
监督学习supervised learning#
指训练数据拥有标记信息
无监督学习unsupervised learning#
指训练数据没有标记信息, 希望依靠学习过程帮我们得到标记或聚类
泛化generalization#
把训练得到的模型, 用到之前没出现过的样本里去预测, 这个过程叫泛化(类似于上其他真实数据了)
分布distribution#
指样本属于某种分布(例如正态分布啥的), 即属性啥的可能是平均可能是不平均。
但至少有1个分布公式。
独立同分布i.i.d#
我们希望所有样本, 取出来时是满足样本的分布规律, 是独立随机取的。
而不是单独从某个值里取一大批类似的。
归纳induction#
从特殊归纳出一般的泛化过程
从具体事实推出一般规律
广义归纳学习#
从样例中学习规律
狭义归纳学习#
从数据集中得到概念。 概念学习研究比较少,太难了
演绎deduction#
从一般规律推导出具体的其他事实。
假设空间hypothesis space#
以好瓜的假设空间为例
我们要得到好瓜的所有可选假设
例如
色泽=绿,根=硬,敲声=响
或者 色泽=,根=硬,敲声=
或者 无(即无一种情况是好瓜)
版本空间version space#
假设空间非常大,就是所有情况的枚举,但肯定存在1个和训练集匹配的好瓜假设空间,我们叫做版本空间
可以理解为是满足当前训练集正例的的所有假设空间
例如好瓜的色泽有青和绿
那么版本空间一定有存在色泽=*,
不可以是色泽=青, 因为这样的假设没有包含绿色。
要求这个假设必须包含所有正例
在假设空间中搜索包含正例且不包含反例的所有假设