机器学习知识点整理

分类(Classification):准确率

准确率是一个用于评估分类模型的指标。

特别地,对于二分类,有

分类不平衡的数据集(比如正类标签数量与负类标签数量之间存在明显差异)时,准确率并不能反映该模型效果。

分类(Classification):精确率 召回率

精确率和召回率此消彼长。

ROC曲线

ROC曲线(接收者操作特征曲线)是一种显示分类模型在所有分类阈值下效果的图表。

  • ROC ROC曲线

L0/L1/L2正则化

  • L0正则化

    表示向量中非零元素的个数,保证参数W稀疏。
    但不幸的是,L0范数最优化问题为NP hard问题,理论证明,L1范数是L0范数的最优凸近似,因此通常用L1范数代替。

  • L1正则化

    L1范数是指向量中各元素绝对值之和,也称稀疏规则算子(Lasso regularization)
    参数值大小与模型复杂度成正比,因此复杂模型L1范数大,损失函数大。故L1正则化可防止过拟合。

  • L2正则化

    L2范数即欧式距离,也称“岭回归”(Ridge Regression),也称权值衰减(weight decay)

模型评估方法:

  • 留出法(hold-out):sampling、 stratified sampling分层采样

  • cross validation:Leave-One-Out留一法LOO

  • bootstrapping:
    对于m个样本,重复m次放回采样,其中某个样本不被采到的概率为

袋外估计 out-of-bag estimate

BEP(Break-Even Point)平衡点 $P==R$

F1度量

其一般形式

当 $\beta > 1$ 时,召回率影响更大,当 $\beta < 1$ 时,精确率影响更大。

参考链接:

Google机器学习速成课程

0%