西瓜书概念
第一章 绪论
Page2: 标记(label)
示例结果的信息,例如“好瓜”,称为标记
Page2: 假设(269)(hypothesis)
学得模型对应了数据的某种潜在的规律,因此亦称假设
Page2: 示例(instance)
数据集中的每条记录是关于某个事件或对象的描述,称为一个“示例”或“样本”
Page2: 属性(attribute)
反映事务或对象在某方面的表现或性质的事项,如“色泽”,称为属性或特征
Page2: 属性空间(attribute space)
属性长成的空间称为属性空间,样本空间,或输入空间
Page2: 数据集(data set)
数据记录的集合称为一个数据集
Page2: 特征(247)(feature)
同属性
Page2: 学习(learning)
从数据中学得模型的过程称为学习或训练
Page2: 学习器(learner)
学习过程就是为了找出或逼近真相,有时将模型称作学习器
Page2: 训练(training)
同学习
Page2: 训练集(training data)
训练过程中使用的数据称为“训练集”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为训练集
Page2: 训练样本(training sample)
见训练集
Page2: 样本(sample)
同示例
Page2: 样本空间(sample space)
同属性空间
Page2: 样例(sample)
同示例(instance)
Page2: 真相(ground-truth)
潜在规律本身称为真相或真实
Page3: 标记空间(label space)
所有标记的集合称为标记空间或输出空间
Page3: 测试(testing)
学得模型后,使用其进行预测的过程称为测试,被预测的样本称为测试样本
Page3: 测试样本(testing sample)
见测试
Page3: 簇(197)(cluster)
将训练集中的西瓜分成若干组,称为聚类,每个组称为一个簇
Page3: 独立同分布(267)(independent and identically distributed)
我们获得的每个样本都是独立的从一个分布上采样获得的,即“独立同分布”
Page3: 多分类(multi-class classification)
预测值涉及多个类别时,称为“多分类”
Page3: 二分类(binary classification)
预测值设计两个分类的任务
Page3: 泛化(121,350)(generalization)
学得模型适用于新样本的能力,称为“泛化”能力
Page3: 分类(classification)
如果预测的是离散值,此类学习任务称为分类
Page3: 回归(regression)
如果预测的值是连续值,此类学习任务称为回归
Page3: 监督学习(supervised learning)
根据训练数据是否拥有标记信息,学习任务可以大致分为两大类:监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表
Page3: 聚类(197)(clustering)
见簇
Page3: 无导师学习
同无监督学习
Page3: 无监督学习(197)(unsupervised learning)
见有监督学习
Page3: 有导师学习
同有监督学习
Page4: 概念学习(17)(concept learning)
广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此亦称为概念学习或概念形成
Page4: 归纳学习(11)(inductive learning)
从样例中学习
Page5: 版本空间(version space)
存在着一个与训练集一致的假设集合,称之为“版本空间”
Page6: 归纳偏好(inductive bias)
机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好
Page6: 偏好
同归纳偏好
Page7: 奥卡姆剃刀(17)(Occam's razor)
若有多个假设与观察一致,则选最简单的那个
Page10: 符号主义(363)(symbolism)
基于逻辑表示
Page10: 连接主义(connectionism)
基于神经网络
Page10: 人工智能
有很多种说法。。见仁见智
Page11: 机械学习
信息存储与检索
Page11: 类比学习
通过观察和发现学习
Page11: 示教学习
从指令中学习
Page12: 统计学习(139)
如SVM,核方法
Page14: 数据挖掘
从海量数据中发掘知识
- Page16: WEKA
Page17: 迁移学习
类比学习升级版