Paper之ML：机器学习算法经典、高质量论文分类推荐(建议收藏，持续更新)

中科曙光招聘 2022-09-19 17:06:25  51532

分类专栏：资讯

请不要随意复制粘贴，请尊重本博主，千辛万苦的总结心血，谢谢您的支持！
建议收藏，一直更新！！！！！

切记：要想学好机器学习，一定要看原汁原味的论文！！！！

1967《Nearest Neighbor Pattern Classification 》

2005《Histograms of Oriented Gradients for Human Detection》

2013《Distributed Representations of Words and Phrases and their Compositionality》

1967《Nearest Neighbor Pattern Classification 》

T. M. COVER, MEMBER, IEEE, AND P. E. HART, MEMBER, IEEE
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1053964

1967年，T.M.COVER和P.E.HART提出了kNN算法。邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)，其中k就是指k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

2005《Histograms of Oriented Gradients for Human Detection》

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1467360

HOG（Histogram of Oriented Gradient）是2005年CVPR会议上，法国国家计算机科学及自动控制研究所的Navneet.Dalal等人提出的一种解决人体目标检测的图像描述子，该方法使用梯度方向直方图（Histogram of Oriented Gradients,简称HOG）特征来表达人体，提取人体的外形信息和运动信息，形成丰富的特征集。

2013《Distributed Representations of Words and Phrases and their Compositionality》

http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充，介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling，获得更快的训练效果。本文还提出了对高频词进行二次抽样的方法，以及衡量短语的方法，学习短语的表示。
通过分组相似的单词，在向量空间中的distributed representations可以帮助学习算法在NLP任务中获得更好的表现。最早使用word representations可以追溯到1986年(Rumelhart，Hinton和Williams)。这个想法已经被应用于统计语言建模且取得了相当大的成功。后续工作包括应用于自动语音识别和机器翻译，以及大范围的NLP任务。
最近，Mikolov等人引入了Skip-gram模型，这是一种从大量非结构化文本数据中学习高质量向量表示的有效方法。与过去大部分用于学习word vectors的神经网络架构不同，Skip-gram模型的训练(参见图1)不涉及密集矩阵的乘法。这使得训练非常高效：一个优化过的单机实现可以在一天内训练超过1000亿字。
使用神经网络计算的word representation非常有趣，因为已训练的向量明确地编码了许多语言规律和模式。有点令人惊讶的是，许多这些模式可以表示为线性翻译。例如，向量计算vec("Madrid")-vec("Spain")+vec("France")的结果比任何其他word vector更接近于vec("Paris")。