NLP:基于snownlp库对文本实现提取文本关键词和文本摘要


勤恳演变过客
勤恳演变过客 2022-09-19 14:23:36 50379
分类专栏: 资讯

NLP:基于snownlp库对文本实现提取文本关键词和文本摘要

目录

输出结果

1、测试文本

设计思路

核心代码


输出结果

1、测试文本

  1. 今天一大早,两位男子在故宫抽烟对镜头炫耀的视频在网络上传播,引发网友愤怒。有人感到后怕,600年的故宫真要这两个人给点了,万死莫赎。也有评论称,把无知当成炫耀的资本,丢人!
  2. 视频中两位男子坐在故宫公共休息区的遮阳伞下,面对镜头问出:“谁敢在故宫抽烟?”语气极其嚣张,表情带有挑衅意味。话音刚落,另外一位男子面向镜头吸了一口烟。而视频中两人也表示知道有故宫禁止吸烟的规定。
  3. 事实上,2013518日是国际博物馆日,故宫从这一天开始至今一直实行全面禁烟。根据规定,故宫博物院全体员工在院合作单位和个人不管在室内和室外,也不分开放区与工作区,一律禁止吸烟,对违反禁止吸烟规定的人员将进行严格处罚并通报全院。
  4. 此外,在201561日起北京全市也开始了《控制吸烟条例》,规定公共场所工作场所室内环境室外排队等场合禁止吸烟,违者将最高被罚200元,全市统一设立举报电话12320
  5. 视频在网络上传播开来,不少网友担心故宫的安危,称一旦发生火情,后果不堪设想,有网友表示,这样的行为应该被旅游景区拉近黑名单,建议终身禁止进入任何景区和各种场馆。


 

设计思路

后期更新……

核心代码

  1. class SnowNLP Found at: snownlp.__init__
  2. class SnowNLP(-title class_ inherited__">object):
  3. def __init__(self, doc):
  4. self.doc = doc
  5. self.bm25 = bm25.BM25(doc)
  6. -meta"> @property
  7. def words(self):
  8. return seg.seg(self.doc)
  9. -meta"> @property
  10. def sentences(self):
  11. return normal.get_sentences(self.
  12. doc)
  13. -meta"> @property
  14. def han(self):
  15. return normal.zh2hans(self.doc)
  16. -meta"> @property
  17. def pinyin(self):
  18. return normal.get_pinyin(self.doc)
  19. -meta"> @property
  20. def sentiments(self):
  21. return sentiment.classify(self.doc)
  22. -meta"> @property
  23. def tags(self):
  24. words = self.words
  25. tags = tag.tag(words)
  26. return zip(words, tags)
  27. -meta"> @property
  28. def tf(self):
  29. return self.bm25.f
  30. -meta"> @property
  31. def idf(self):
  32. return self.bm25.idf
  33. def sim(self, doc):
  34. return self.bm25.simall(doc)
  35. def summary(self, limit=5):
  36. doc = []
  37. sents = self.sentences
  38. for sent in sents:
  39. words = seg.seg(sent)
  40. words = normal.filter_stop(words)
  41. doc.append(words)
  42. rank = textrank.TextRank(doc)
  43. rank.solve()
  44. ret = []
  45. for index in rank.top_index(limit):
  46. ret.append(sents[index])
  47. return ret
  48. def keywords(self, limit=5,
  49. merge=False):
  50. doc = []
  51. sents = self.sentences
  52. for sent in sents:
  53. words = seg.seg(sent)
  54. words = normal.filter_stop(words)
  55. doc.append(words)
  56. rank = textrank.KeywordTextRank
  57. (doc)
  58. rank.solve()
  59. ret = []
  60. for w in rank.top_index(limit):
  61. ret.append(w)
  62. if merge:
  63. wm = words_merge.SimpleMerge
  64. (self.doc, ret)
  65. return wm.merge()
  66. return ret

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=2957
赞同 0
评论 0 条
勤恳演变过客L0
粉丝 0 发表 11 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2691
【软件正版化】软件正版化工作要点  2655
统信UOS试玩黑神话:悟空  2559
信刻光盘安全隔离与信息交换系统  2247
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1117
grub引导程序无法找到指定设备和分区  769
江波龙2025届校园招聘宣讲会行程大放送  28
点击报名 | 京东2025校招进校行程预告  25
海康威视2025校招|海康机器人,邀你共创工业智能化未来!  24
金山办公2024算法挑战赛 | 报名截止日期更新  22
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!