Paper之ML:机器学习算法经典、高质量论文分类推荐(建议收藏,持续更新)


中科曙光招聘
中科曙光招聘 2022-09-19 17:06:25 51532
分类专栏: 资讯

请不要随意复制粘贴,请尊重本博主,千辛万苦的总结心血,谢谢您的支持!
建议收藏,一直更新!!!!!

切记:要想学好机器学习,一定要看原汁原味的论文!!!!

目录

1967《Nearest Neighbor Pattern Classification  》

2005《Histograms of Oriented Gradients for Human Detection》

2013《Distributed Representations of Words and Phrases and their Compositionality》


1967《Nearest Neighbor Pattern Classification  》

T. M. COVER, MEMBER, IEEE, AND P. E. HART, MEMBER, IEEE
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1053964

      1967年,T.M.COVER和P.E.HART提出了kNN算法。邻近算法,或者说K最近邻(kNN,k-NearestNeighbor),其中k就是指k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

2005《Histograms of Oriented Gradients for Human Detection》

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1467360     

     HOG(Histogram of Oriented Gradient)是2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Navneet.Dalal等人提出的一种解决人体目标检测的图像描述子,该方法使用梯度方向直方图(Histogram of Oriented Gradients,简称HOG)特征来表达人体,提取人体的外形信息和运动信息,形成丰富的特征集。

2013《Distributed Representations of Words and Phrases and their Compositionality》

http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

      这篇论文是对《Efficient Estimation of Word Representations in Vector Space》的补充,介绍了使用Skip-gram模型和Hierarchical Softmax训练模式的训练方法。并补充了Negative Sampling的训练模式替代Negative Sampling,获得更快的训练效果。  本文还提出了对高频词进行二次抽样的方法,以及衡量短语的方法,学习短语的表示。
       通过分组相似的单词,在向量空间中的distributed representations可以帮助学习算法在NLP任务中获得更好的表现。最早使用word representations可以追溯到1986年(Rumelhart,Hinton和Williams)。这个想法已经被应用于统计语言建模且取得了相当大的成功。后续工作包括应用于自动语音识别和机器翻译,以及大范围的NLP任务。 
        最近,Mikolov等人引入了Skip-gram模型,这是一种从大量非结构化文本数据中学习高质量向量表示的有效方法。与过去大部分用于学习word vectors的神经网络架构不同,Skip-gram模型的训练(参见图1)不涉及密集矩阵的乘法。这使得训练非常高效:一个优化过的单机实现可以在一天内训练超过1000亿字。 
       使用神经网络计算的word representation非常有趣,因为已训练的向量明确地编码了许多语言规律和模式。有点令人惊讶的是,许多这些模式可以表示为线性翻译。例如,向量计算vec("Madrid")-vec("Spain")+vec("France")的结果比任何其他word vector更接近于vec("Paris")。

2014《Neural Word Embedding as Implicit Matrix Factorization 》

http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization.pdf

Word2vec和矩阵分解的等价性

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=3763
赞同 0
评论 0 条
中科曙光招聘L0
粉丝 0 发表 10 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2672
【软件正版化】软件正版化工作要点  2637
统信UOS试玩黑神话:悟空  2532
信刻光盘安全隔离与信息交换系统  2216
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1092
grub引导程序无法找到指定设备和分区  743
WPS City Talk · 校招西安站来了!  15
金山办公2024算法挑战赛 | 报名截止日期更新  15
看到某国的寻呼机炸了,就问你用某水果手机发抖不?  14
有在找工作的IT人吗?  13
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!