机器学习知识点整理

准确率是一个用于评估分类模型的指标。

$Accuracy = \frac{Number of correct predictions}{Total number of predictions}$

特别地，对于二分类，有

$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$

当分类不平衡的数据集（比如正类标签数量与负类标签数量之间存在明显差异）时，准确率并不能反映该模型效果。

$Precison = \frac{TP}{TP + FP}$$$$Recall = \frac{TP}{TP + FN}$

精确率和召回率此消彼长。

ROC曲线（接收者操作特征曲线）是一种显示分类模型在所有分类阈值下效果的图表。

L0正则化

表示向量中非零元素的个数，保证参数W稀疏。
但不幸的是，L0范数最优化问题为NP hard问题，理论证明，L1范数是L0范数的最优凸近似，因此通常用L1范数代替。
L1正则化

L1范数是指向量中各元素绝对值之和，也称稀疏规则算子（Lasso regularization）
参数值大小与模型复杂度成正比，因此复杂模型L1范数大，损失函数大。故L1正则化可防止过拟合。
L2正则化

L2范数即欧式距离，也称“岭回归”（Ridge Regression），也称权值衰减（weight decay）。

$\lim\limits_{m\to\infty}(1-\frac{1}{m})^m = \frac{1}{e} \approx 0.368$

袋外估计 out-of-bag estimate

BEP（Break-Even Point）平衡点 $P==R$

F1度量

$\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$ $F1 = \frac{2 \times P \times R}{P + R} = \frac{2 \times P}{m + TP -TN}$

其一般形式

$\frac{1}{F_{\beta}}=\frac{1}{1+\beta^2}(\frac{1}{P}+\frac{\beta^2}{R})$ $F_{\beta} = \frac{(1+\beta^2)\times P \times R}{(\beta^2 \times P) + R}$

当 $\beta > 1$ 时，召回率影响更大，当 $\beta < 1$ 时，精确率影响更大。