基本术语

数据集data set:数据记录的集合
示例instance样本sample:数据集中每条关于一个事件或者对象的记录
属性attribute 特征feature:反映事件或者对象在某方面的表现或者性质的事项
特征向量feature vector:一个示例可以称之为一个特征向量
属性值attribute value:属性的取值
属性空间attribute space样本空间sample space输入空间:属性长成的空间
维数dimensionality:每个属性由多少属性描述
学习learning 训练training:从数据中学的模型的过程,通常通过执行某个学习算法来完成。

训练过程中使用的数据为**训练数据training data**,其中每个样本为一个**训练样本training sample**,训练样本样本组成的集合成为**训练集training set**。学得模型对应了关于数据的某种潜在的规律,称之为**假设hypothesis**;这种潜在的规律自身,称之为**真相或真实ground-truth**,学习过程就是为了找出或者逼近真相。

关于示例结果的信息,称为**标记label**;拥有标记信息的示例,称之为**样例example**。

所有标记的集合,称之为**标记空间label space**或**输出空间**。

若我们欲预测的是离散值,比如“好瓜”或者“坏瓜”,此类学习任务称为**分类classification**;若预测的是连续值,比如西瓜成熟度0.95、0.37,此类学习任务称之为**回归regression**。对只涉及两个类别的**二分类binary classification**任务,通常称其中一个为**正类positive class**,另一个类为**反类negative class**;涉及多个类别时,则称之为**多分类multi-class classification**任务。

学的模型后,使用其进行**预测prediction**的过程为**测试testing**,被预测的样本称之为**测试样本testing sample**。y=\(\(\mathit{f}\)\)(x)

我们还可以对西瓜做**聚类clustering**,即对训练集中的西瓜分成若干组,每组称为一个**簇cluster**。

根据训练数据是否拥有标记信息,学习任务可大致分为两大类:监督学习supervised learning*和*无监督学习unsupervised learning,分类和回归是前者的代表,而聚类则是后者的代表。

学得模型适用于新样本的能力,称之为**泛化generalization**,具有强泛化能力的模型能很好的适用于整个样本空间。

通常假设样本空间中全体分布服从一个位置的**分布distribution** \(\(\mathit{D}\)\),我们获得每个样本都是独立的从这个分布上采样获得的,即**独立同分布independent and identically distributed, i.i.d**。

归纳induction**与**演绎deduction**是科学推理的两大基本手段。前者是从特殊到一般的**泛化generalization;后者是从一般到特殊的**特化specialization**。从样例中学习是一个归纳过程,因此也称为**归纳学习inductive learning**。

所有假设hypothesis组成的空间称之为假设空间。可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,我们称之为**版本空间version space**。

机器学习在学习过程中对某种类型假设的偏好,称之为**归纳偏好inductive bias.**

**奥卡姆剃刀Occam's razor**是一种常用的自然科学中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。

没有免费的午餐定律No Free Lunch Theorem,NFL:在没有实际背景下,两个学习算法期望性能相同。

评论