上述算法在生成的数据集与真实的数据集上均取得最佳结果,是否有可能学习输入空间中未定义的训练目标的表示呢

 信息科学     |      2019-12-27 12:27

作为用来获取大量标注数据的可行方法,众包是指从一个广泛的群体,尤其是在线平台获取对数据样本的标注。然而,由于标注者所给出的标注可能存在各种各样的错误,且标注者所做出的标注错误并不一定是两两独立的,从而需要推断真实的标注。

论文:Learning deep representations by mutual information estimation and maximization

ICLR是深度学习领域的顶级会议,也是国际发展最快的人工智能专业会议之一;采取公开评审的审稿制度,因其在深度学习领域各方面,如人工智能、统计学和数据科学,以及计算机视觉、计算生物学等重要应用领域发表和展示前沿研究成果而享誉全球。ICLR2019将于2019年5月6—9日在美国路易斯安那州新奥尔良市举行。

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

为此,该论文基于共同学习的框架和最大化互信息,提出一种基于信息论思想、适用于各个信息结构的算法,并称之为Max-MIG。在这种算法中,同时训练数据分类器和标注聚合器,希望最大化的目标函数为二者输出的MIG,即互信息的一个下界。作者证明了当数据分类器与标注聚合器同时取到真实贝叶斯后验概率,MIG取得最大值。MIG的计算方式可以理解为:如果两边的网络对于相匹配的两个输入,两边网络输出一致,则给予奖励;如果对于不匹配的两个输入,两边网络输出一致,则给予惩罚。这样,即可防止两边的网络一直输出相同的无意义的标签,比如一直输出“良性”。 上述算法在生成的数据集与真实的数据集上均取得最佳结果。

表示的作用不仅仅体现在信息内容的问题上,架构等表示特征也非常重要。因此,研究者以类似于对抗性自编码器或 BiGAN 的方式将互信息最大化与先验匹配相结合,以获得具有期望约束的表示,以及良好的下游任务表现。该方法接近 INFOMAX 优化原则,因此研究者们将他们的方法称为深度 INFOMAX(DIM)。

日前,第七届国际学习表征会议公布了论文接收名单。北京大学信息科学技术学院2016级图灵班本科生曹芃、许逸伦作为共同第一作者完成的学术论文《Max-MIG:基于信息论的众包联合学习》榜上有名;指导教师为北京大学前沿计算研究中心助理教授孔雨晴和信息学院教授/前沿计算研究中心副主任王亦洲。

style="font-size: 16px;">许多表示学习算法使用像素级的训练目标,当只有一小部分信号在语义层面上起作用时是不利的。在这篇论文中,Bengio 等研究者假设应该更直接地根据信息内容和统计或架构约束来学习表示,据此提出了 Deep INFOMAX(DIM)。该方法可用于学习期望特征的表示,并且在分类任务上优于许多流行的无监督学习方法。他们认为,这是学习「好的」和更条理的表示的一个重要方向,有利于未来的人工智能研究。

必赢,原文链接:

然而,大多数无监督机器学习(至少是部分地)基于定义在输入空间中的训练目标。由于无需捕获少数语义相关的比特,就可以很好地优化这些目标,因此它们可能不会产生好的表示。深度学习的核心目标之一是发现「好的」表示,所以我们会问:是否有可能学习输入空间中未定义的训练目标的表示呢?本文探讨的简单想法是训练表示学习函数(即编码器)以最大化其输入和输出之间的互信息。

图 2:具有全局 MI(X; Y)目标的深度 INFOMAX(DIM)。研究者通过由额外的卷积层、flattening 层和全连接层组成的判别器来传递高级特征向量 Y 和低级 M×M 特征图(参见图 1)以获得分数。通过将相同的特征向量与来自另一图像的 M×M 特征图结合来绘制伪样本。

表 2:Tiny ImageNet 和 STL-10 的分类准确率(top-1)结果。对于 Tiny ImageNet,具有局部目标的 DIM 优于所有其他模型,并且接近全监督分类器的准确率,与此处使用的 AlexNet 架构类似。

www.56.net 1

www.56.net,图 1:图像数据上下文中的基本编码器模型。将图像(在这种情况下)编码到卷积网络中,直到有一个 M×M 特征向量的特征图与 M×M 个输入块对应。将这些矢量(例如使用额外的卷积和全连接层)归一化到单个特征向量 Y。目标是训练此网络,以便从高级特征中提取有关输入的相关信息。

参与:高璇、刘晓坤

实验

www.56.net 2

论文地址:

图 5:使用 DIM(G)和 DIM(L)在编码的 Tiny ImageNet 图像上使用 L1 距离的最近邻。最左边的图像是来自训练集的随机选择的参考图像(查询)以及在表示中测量的来自测试集的最近邻的四个图像,按照接近度排序。来自 DIM(L)的最近邻比具有纯粹全局目标的近邻更容易理解。

  • 使用支持向量机(SVM)进行线性分类。它同时代表具有线性可分性的表示的互信息。
  • 使用有 dropout 的单个隐藏层神经网络(200 个单元)进行非线性分类。这同样代表表示的互信息,其中标签与线性可分性分开,如上面的 SVM 所测的。
  • 半监督学习,即通过在最后一个卷积层(有标准分类器的匹配架构)上添加一个小型神经网络来微调整个编码器,以进一步评估半监督任务(STL-10)。
  • MS-SSIM,使用在 L2 重建损失上训练的解码器。这代表输入和表示之间的全部互信息,并且可以表明编码的像素级信息的数量。
  • 通过训练参数为ρ的判别器来最大化 KL 散度的 DV 表示,来表示输入 X 和输出表示 Y 之间的互信息神经估计(MINE),I_ρ(X,Y)。
  • 神经依赖度量(NDM)使用第二判别器来度量 Y 和分批再组(batch-wise shuffled)的 Y 之间的 KL 散度,使得不同的维度相互独立。

图 7:描绘判别器非归一化输出分布的直方图,分别是标准 GAN、具有-log D 损失的 GAN、最小二乘 GAN、Wasserstein GAN 以及作者提出的以 50:1 训练率训练的方法。

www.56.net 3

责任编辑:

上一篇:没有了 下一篇:没有了