社会媒体数据来源
这种增加的数据生成已经引起了人们对实时分析需求的关注。数据的多样性是指数据集中不同类型的结构异构性。这些不同类型的数据集是结构化、半结构化和非结构化的数据,如微博、新闻文章、博客文章、互联网论坛、评论和问答帖子。例如,M. Kim和Leskovec(2012)使用了AddHealth、Egonet、Facebook100和WebKB数据集,这些数据集包含网络和节点特征来评估他们的模型。此外,Spagnuolo等人(2014)使用了比特币OTC信任加权的签名网络数据集,该数据集可以通过使用附加身份追踪用户的资金来监测比特币经济。用户产生的大量数据是他们在这个平台上的背景细节和日常活动整合的结果。所有的状态、推文、评论、帖子和评论都是用户产生的内容。用户产生的内容是一种数据类型,通常指图像、文本和视频。这些内容来自于普通人,不一定是标准的形式。因此,用户生成的内容会出现各种质量分布,从高质量到低质量的东西都有,因为社交媒体网站产生的数据自然是模糊的和非结构化的。所有这些数据都可能包含用户的个人意见、行为和想法,这使得从这些数据中提取高质量信息的任务变得越来越重要。由于用户生成的内容可能囊括了有用的高质量信息,这对企业和研究人员来说是一个有待发现的丰厚领域。
网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。
添加我为好友,拉您入交流群!
请使用微信扫一扫!