1行代码查找标签错误，3行代码学习噪声标签

发布时间：2021-03-12 16:17:38 所属栏目：评论来源：互联网

导读：下来，CL计数了100张被标记为狗的图像，这些图像就很可能是狗类(class dog)，如上图左侧的C矩阵所示。 CL还计数了56张标记为狗，但高概率属于狐狸的图像，以及32张标记为狗，但高概率属于奶牛的图像。而后的中心思想就是，当一个样本的预测概率大于每个类的

下来，CL计数了100张被标记为“狗”的图像，这些图像就很可能是“狗”类(class dog)，如上图左侧的C矩阵所示。

CL还计数了56张标记为狗，但高概率属于狐狸的图像，以及32张标记为狗，但高概率属于奶牛的图像。

而后的中心思想就是，当一个样本的预测概率大于每个类的阈值时，我们就可以自信地认为这个样本是属于这个阈值的类。

此外，每个类的阈值是该类中样本的平均预测概率。

轻松上手Clean Lab

刚才也提到，本文所说的广义CL，其实是一个Clean Lab Python包。而它之所以叫Clean Lab，是因为它能“clean”标签。

Clean Lab具有以下优势：

速度快：单次、非迭代、并行算法(例如，不到1秒的时间就可以查找ImageNet中的标签错误)；
鲁棒性：风险最小化保证，包括不完全概率估计；
通用性：适用于任何概率分类器，包括 PyTorch、Tensorflow、MxNet、Caffe2、scikit-learn等；
独特性：唯一用于带有噪声标签或查找任何数据集/分类器标签错误的多类学习的软件包。

1行代码就查找标签错误！

3行代码学习噪声标签！

接下来，是Clean Lab在MNIST上表现。可以在这个数据集上自动识别50个标签错误。

图不难看出，CL需要2个输入：

1、样本外预测概率；
2、噪声标签；

对于弱监督而言，CL包括三个步骤：

1、估计给定的、有噪声的标签和潜在的(未知的)未损坏标签的联合分布，这样就可以充分描述类条件标签噪声；
2、查找并删除带有标签问题的噪声(noisy)示例；
3、进行消除错误的训练，然后根据估计的潜在先验重新加权示例。

那么CL的工作原理又是什么呢？

我们假设有一个数据集包含狗、狐狸和奶牛的图像。CL的工作原理就是估计噪声标签和真实标签的联合分布(下图中右侧的Q矩阵)。

（编辑：信阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

小米MIUI回答进展公告	为什么机器人必定要长
三星S22系列全部被扒个	酷派连推新品回归中国