1

1

什么是机器学习?也许是机器通过大量数据训练后得到的类似人类用经验判断事物的能力。

2

任何一个有效的机器学习算法必有其归纳偏好,一般性的偏好是 “奥卡姆剃刀” (Occam’s razor)即 “若有多个假设与观察一致,则选最简单的那个”,大多数时候直接决定了算法能否取得好的性能

3

”没有免费的午餐“定理(No Free Lunch Theorem,简称NFL定理):对于一个学习算法,若它在某些问题上比学习算法好,则必然存在另一些问题,在那里

假设样品空间和假设空间都是离散的,代表算法基于训练数据产生假设的概率,代表我们希望学习的真实目标函数,的“训练集外误差”,即在训练集外的所有样本上的误差为 其中是指示函数,若参数为真则取值1,否则取0

考虑二分部问题,则有(简化论述) 显示总误差和学习算法无关,所有的学习算法的期望性能是相同的

对于任意度量指标也是成立的

4

学习能力低的学习算法容易造成欠拟合,而学习能力高的学习算法容易造成过拟合

类似于数学上的求拟合方程,我们常常不会使用拉格朗日插值法而是使用最小二乘法,我们不是要在已知样本上做到零误差,而是让其在未知样本上做到预测

样本误差和泛化误差,欠拟合容易克服,而过拟合难以避免

5

模型评估常常使用一个测试集得到测试误差,作为泛化误差的近似

测试集应该尽可能与训练集互斥

留出法和交叉验证法,自助法