分类(Classification):准确率
准确率是一个用于评估分类模型的指标。
特别地,对于二分类,有
当分类不平衡的数据集(比如正类标签数量与负类标签数量之间存在明显差异)时,准确率并不能反映该模型效果。
分类(Classification):精确率 召回率
精确率和召回率此消彼长。
ROC曲线
ROC曲线(接收者操作特征曲线)是一种显示分类模型在所有分类阈值下效果的图表。
L0/L1/L2正则化
L0正则化
表示向量中非零元素的个数,保证参数W稀疏。
但不幸的是,L0范数最优化问题为NP hard问题,理论证明,L1范数是L0范数的最优凸近似,因此通常用L1范数代替。L1正则化
L1范数是指向量中各元素绝对值之和,也称稀疏规则算子(Lasso regularization)
参数值大小与模型复杂度成正比,因此复杂模型L1范数大,损失函数大。故L1正则化可防止过拟合。L2正则化
L2范数即欧式距离,也称“岭回归”(Ridge Regression),也称权值衰减(weight decay)。
模型评估方法:
留出法(hold-out):sampling、 stratified sampling分层采样
cross validation:Leave-One-Out留一法LOO
bootstrapping:
对于m个样本,重复m次放回采样,其中某个样本不被采到的概率为
袋外估计 out-of-bag estimate
BEP(Break-Even Point)平衡点 $P==R$
F1度量
其一般形式
当 $\beta > 1$ 时,召回率影响更大,当 $\beta < 1$ 时,精确率影响更大。