转载自这里
深度学习近年来取得了很多惊人的进展,其中一些重要的研究论文可能会达成让数十亿人使用的技术突破。本文搜集了自2014年来,机器学习和深度学习最重要(被引最多)的20篇论文,作者包括 Hinton、Bengio、李飞飞、Goodfellow、何恺明、黄广斌等,涉及图像识别、GAN、Dropout 、Batch Normalization 等。
机器学习,特别是它的子领域深度学习,近年来取得了很多惊人的进展,其中一些重要的研究论文可能会达成让数十亿人使用的技术突破。这个领域的研究发展很快,为了帮助读者了解这些最新、最重要的进展,本文列举了自2014年以来发表的机器学习领域的重要论文。
本文选择的 Top 20 论文的标准来自三个学术来源的引用数据:scholar.google.com; academic.microsoft.com; 和 semanticscholar.org。由于各个来源的被引次数不一,我们采用的是略低于其余两者的 academic.microsoft.com 的数字。
对每一篇论文,我们也给出了论文的发表年份,来自 semanticscholar.org 的 HIC(Highly Influential Citation)数值和 CV (引用速度)数值。HIC 通过检查有意义的引用,体现了论文基于哪些文献以及引用文献之间的关联性。CV是过去3年每年的加权平均引用次数。其中有些引用的 CV 为 0,表示该论文的引用是空白的,或者没有显示在 semanticscholar.org 网站上。
这20篇论文中的大部分,包括 top 8 的主题都是深度学习。不过,它们也具有很强的多样性:只有一位作者(Yoshua Bengio)有2篇论文入选,而且这些论文发表的场合不一:CoRR (3), ECCV (3), IEEE CVPR (3), NIPS (2), ACM Comp Surveys, ICML, IEEE PAMI, IEEE TKDE, Information Fusion, Int. J. on Computers & EE, JMLR, KDD, 以及 Neural Networks。前两篇论文的被引数远远高于其他论文。需要注意的是,第2篇论文是去年才发表的。阅读(或回顾)它们有助于了解这些领域最新的进展。
1. Dropout:一种防止神经网络模型过拟合的简单方法(Dropout: a simple way to prevent neural networks from overfitting)
作者:Hinton, G.E., Krizhevsky, A., Srivastava, N., Sutskever, I., & Salakhutdinov, R. (2014)
发表于:Journal of Machine Learning Research, 15, 1929-1958.
摘要:带有大量参数的深度神经网络是非常强大的机器学习系统。但是,过拟合是这类网络的一个严重问题。大型网络的采用速度慢,因此,难以通过在测试时结合各种不同大型神经网络的预测来处理过拟合问题。Dropout 是解决这个问题的一个方法。Dropout 的关键思想是,在训练期间随机地从神经网络中放弃一些单元(连同它们的连接)。这样可以防止单元过度适应(co-adapting)。在训练期间,从指数数量不同的“变瘦”(thinned)网络中删除样本。在测试时,通过使用具有较小权重的单个未连接网络,可以很容易地近似平均所有这些变瘦网络的预测效果。这显著减轻了过拟合,并且为其他的正则化方法带来重要改进。我们的研究也表明,Dropout 方法提高了神经网络在视觉,语音识别,文档分类和计算生物学等监督学习任务上的性能,在许多基准数据集上获得了 state-of-the-art 的结果。
2. 图像识别中的深度残差学习(Deep Residual Learning for Image Recognition)
作者:He, K., Ren, S., Sun, J., & Zhang, X. (2016)
发表于:CoRR
被引:1436次, HIC: 137 , CV: 582
摘要:更深的神经网络非常难以训练。我们提出了一种残差学习框架,让训练比以往更深的网络更为简单。我们明确地将层(layers)表示为与输入层相关的学习残差函数(learning residual functions),而不是学习未参照的函数。在大量的实验仿真基础上,我们证实这张残差网络更易于优化,并能通过增加层数获得更高的准确度。这种方法可用于图像识别的各个方面(图像分类,物体识别等)。
3 . Batch Normalization:通过减少内部协变量转变加速深度网络训练
作者:Sergey Ioffe, Christian Szegedy (2015)
发表于: ICML
被引: 946 次, HIC: 56 , CV: 0
摘要:训练深度神经网络的复杂性在于,由于前一层的参数变化,每层输入的分布在训练过程中都会变化。这种现象被称为内部协变量的转变(internal covariate shift),我们通过归一化层的输入(normalizing layer inputs)来解决这个问题。应用于最先进的图像分类模型,批量归一化在减少了14倍的训练步骤的情况下实现了相同的精度,并且以显著的余量击败原始模型。
4 . 用卷积神经网络做大规模视频分类
作者:Fei-Fei, L., Karpathy, A., Leung, T., Shetty, S., Sukthankar, R., & Toderici, G. (2014)
发表于: IEEE Conference on Computer Vision and Pattern Recognition
被引:865 次, HIC: 24 , CV: 239
摘要:卷积神经网络(CNN)在图像识别问题中是相当强大的模型。受这些结果的影响,我们使用一个包含487个类别100万YouTube视频的新数据集,在大规模视频分类任务上对 CNN 进行了广泛的实证评估。
5. Microsoft COCO:上下文中的通用对象
作者: Belongie, S.J., Dollár, P., Hays, J., Lin, T., Maire, M., Perona, P., Ramanan, D., & Zitnick, C.L. (2014)
发表于: ECCV
被引:830 次, HIC: 78 , CV: 279
摘要:我们提出一个新的数据集,其目标是通过将对象识别的问题放在更广泛的场景理解问题的上下文中来推进物体识别的最先进结果。我们的数据集包含91个对象类别的照片,这些类别一名4岁小孩也能够轻松识别。最后,我们使用一个可变形部件模型(Deformable Parts Model)为边界框检测和分割检测结果提供基线性能分析。
6. 使用Place数据集为场景识别学习深度特性
作者:Lapedriza, À., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. (2014)
发表于:NIPS
被引:共引用644次,HIC:65,CV:0
摘要:我们推出了一个新的以场景为中心的数据库,称为“Place”,其带有超过700万个标注的场景图片。 我们提出了比较图像数据集的密度和多样性的新方法,并表明“Place”的密度与其他场景数据集一样,且具有更好的多样性。
7. 生成对抗网络(Generative Adversarial Nets)
作者:Bengio, Y., Courville, A.C., Goodfellow, I.J., Mirza, M., Ozair, S., Pouget-Abadie, J., Warde-Farley, D., & Xu, B. (2014)
发表于: NIPS.
被引:共引用463次,HIC:55,CV:0
摘要:我们提出了一个通过对抗过程评估生成模型的新框架,其中我们同时训练两个模型:捕获数据分布的生成模型 G 和评估来自训练数据而非模型 G 的样本概率的判别模型 D。
8. 内核相关过滤器的高速跟踪
作者:Batista, J., Caseiro, R., Henriques, J.F., & Martins, P. (2015).
发表于:CoRR, abs/1404.7584.
被引:共引用439次,HIC:43,CV:0
摘要:在大多数现代追踪器中,为了应对自然图像变化,分类器通常用翻译和缩放的样本补丁进行训练。我们为数千个翻译补丁的数据集提出了一个分析模型。 通过显示结果数据矩阵是循环的,我们可以用离散傅里叶变换将其 diagonalize,将存储和计算减少几个数量级。
9. 多标签学习算法综述
作者:Zhang, M., & Zhou, Z. (2014).
发表于: IEEE TKDE
被引:共引用436次,HIC:7,CV:91
摘要:本文旨在为多标签学习研究的问题提供一个及时的综述,其中每个样本由单个实例表示,同时与一组标签相关联。
10. 深度神经网络中,可转移性如何被建构特征
作者: Bengio, Y., Clune, J., Lipson, H., & Yosinski, J. (2014)
发表于:CoRR, abs/1411.1792.
被引:402 次, HIC: 14 , CV: 0
摘要:许多在自然图像上进行训练的深度神经网络都展现出了一种奇怪的现象:在第一层,它们学习类似于Gabor滤镜和彩色斑点的特征。
这样的第一层特征显然不是针对特定数据集或任务的,而是一般性的,因为它们适用于许多数据集和任务。特征最终必须从网络的最后一层由一般性转变为专用性的,但这种转变尚未得到深入研究。
我们对深度卷积神经网络的每一层中神经元的一般性与特殊性实验性地进行量化,并得到了一些令人意外的结果。两大独特的要素会削弱可迁移性:1)以牺牲目标任务的性能为代价,将较高层神经元与其原始任务进行特殊化,这是预期的;(2)相互适应的神经元之间的分配网络(splitting networks)存在优化困难,这是没有预料到的。
在一个基于ImageNet训练的网络中,我们证明,是通用性在起作用和是专用性在起作用,取决于功能是从网络的底部,中间或顶部传输。
我们还记录了特征的可转移性随着基本任务和目标任务之间的距离增加而减小,但即使从远程任务转移过来的特征也可以比使用随机特征更好。最终令人惊讶的结果是,启动一个从不管多少层的神经网络中迁移过来的特征的网络,能够获得一个稳定的基础,来生成这种延续性,即便是根据目标数据集进行调参后依然如此。
11. 我们需要数百个分类器来解决现实世界的分类难题吗?
作者: Amorim, D.G., Barro, S., Cernadas, E., & Delgado, M.F. (2014).
发表于:Journal of Machine Learning Research
被引:387 次, (HIC: 3 , CV: 0)
摘要:我们评估了17个派系的179个分类器,涉及判别分析,贝叶斯,神经网络,支持向量机,决策树,基于规则的分类器,boosting,bagging,堆叠,随机森林和其他全体,广义线性模型,最近邻,部分最小二乘和主成分回归,逻辑和多项回归,多重自适应回归样条等方法。我们使用来自UCI数据库的121个数据集来研究分类器的作用,而不依赖于数据集集合。胜出的是R中实现的随机森林(RF)版本,以及在C语言中使用LibSVM 的实现的带高斯核的支持向量机。
12. 知识塔(knowledge Vault,):实现概率知识融合的网页扩展方式
作者:Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., … & Zhang, W. (2014, August).
发表于:ACM SIGKDDD
被引:334次,HIC: 7 , CV: 107
摘要:论文介绍了knowledge Vault, 这是一个基于网页扩展的概率知识库,结合了从网页上提取的内容(通过文本分析、表格数据,页面结构和人工注释获得)以及已有知识库中存在的既有知识。我们采用监督机器学习方法来融合不同的信息源。Knowledge Vault i比任何先前发布的结构化知识库大得多,并且具有计算事实正确性校准概率的概率推理系统。
13. 面向高维数据的可扩展最近邻算法
作者:Lowe, D.G., & Muja, M. (2014)
发表于:IEEE Trans. Pattern Anal. Mach. Intell.,
被引 324次,HIC: 11 , CV: 69
摘要:我们提出了用于近似最近邻匹配的新算法,并将其与以前的算法进行比较。为了扩展到非常大的数据集,防止它们不适合单个机器的存储器,我们提出了可以与本文中描述的任何算法一起使用的分布式最近邻匹配框架。
14. 极限学习机趋势:综述
作者:黄广斌,G., Song, S., & You, K. (2015).
发表于:Neural Networks,
被引 323 次, HIC: 0 , CV: 0
摘要:我们的目标是对极限学习机(ELM)当下的理论研究和实践进展状态进行报告。除了分类和回归之外,ELM最近已经扩展到集群,功能选择,代表性学习和许多其他学习任务。由于其卓越的效率,简单性和令人印象深刻的泛化性能,ELM已被应用于各种领域,如生物医学工程,计算机视觉,系统识别,控制和机器人。
15. 关于概念漂移适应的调查
作者: Bifet, A., Bouchachia, A., Gama, J., Pechenizkiy, M., & Zliobaite, I. ACM Comput. Surv., 2014
被引: 314 times, (HIC: 4 , CV: 23)
摘要:本研究目的在于对概念漂移适应提供一个全面的介绍,涉及 当输入数据和目标变量不断改变时,监督式学习的景象会发生什么变化。
16. 深度卷积激活特性的 Multi-scale Orderless Pooling
作者:Gong, Y., Guo, R., Lazebnik, S., & Wang, L. (2014).
发表于:ECCV
被引:293次, HIC: 23 , CV: 95
摘要:为了改善 CNN 激活的不变性而不降低其鉴别力,本文提出了一种简单但有效的方案,称为multi-scale orderless pooling(MOP-CNN)。
17. 同时检测和分类(Simultaneous Detection and Segmentation)
作者:Arbeláez, P.A., Girshick, R.B., Hariharan, B., & Malik, J. (2014)
发表于:ECCV
被引:共286次,HIC: 23 , CV: 94
摘要:我们的目标是检测图像中类别的所有实例,并为每个实例标记属于它的像素。 我们称这个任务为 Simultaneous Detection and Segmentation(SDS)。
18. 特征选择方法研究
作者:Chandrashekar, G., & Sahin, F. Int. J.
发表于:Computers & Electrical Engineering
被引:共279次,HIC: 1 , CV: 58
摘要:文中许多特征选择方法是可用的,因为具有数百个变量的数据的可用性导致数据具有非常高的维度。
19. 使用递归树集合实现一毫秒内的面部对齐
作者:Kazemi, Vahid, and Josephine Sullivan
发表于:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014
被引:共277次,HIC: 15 , CV: 0
摘要:本文解决了单个图像的面部对齐(Face Alignment)问题。 我们展示了如何使用递归树的集合来直接从像素强度的稀疏子集估计面部的标志性位置,通过高质量的预测实现超实时性能。
20. 多分类器系统作为混合系统研究
作者:Corchado, E., Graña, M., & Wozniak, M. (2014).
发表于:Information Fusion, 16, 3-17.
被引 269 次, HIC: 1 , CV: 22
摘要:目前模式分类研究的重点是将几种分类器系统(classifier systems)组合,这样的组合可以在相同或不同模型和/或数据集构建方法之上建立。这些系统在不同的级别执行分类决策的信息融合( information fusion ),克服了基于单一分类器的传统方法的局限性。本论文从混合智能系统(Hybrid Intelligent Systems)的角度,对多分类器系统(MCS)进行了调查。本文讨论了多样性和决策融合方法等主要问题,并提供了对目前正在开发的应用的看法。