Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略


大力蜜粉
大力蜜粉 2022-09-20 11:04:14 50104
分类专栏: 资讯

Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

目录

jieba简介

jieba安装

jieba使用方法

1、进行分词


jieba简介


         jieba应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。

  • 支持三种分词模式:
    • 精确模式,试图将句子最精确地切开,适合文本分析;
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  • 支持繁体分词
  • 支持自定义词典
  • MIT 授权协议

官网github地址GitHub - fxsjy/jieba: 结巴中文分词

jieba安装

pip install jieba

好啦,大功告成,开始使用吧!

jieba使用方法

1、进行分词

  1. import jieba
  2. text='周杰伦(Jay Chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、原创音乐人、演员、导演等,毕业于淡江中学。'
  3. text_cut = jieba.cut(text, cut_all=False)
  4. print(list(text_cut))

['周杰伦', '(', 'Jay', ' ', 'Chou', ')', ',', '1979', '年', '1', '月', '18', '日出', '生于', '台湾省', '新北市', ',', '祖籍', '福建省', '泉州市', '永春县', ',', '中国台湾', '流行乐', '男歌手', '、', '原创', '音乐', '人', '、', '演员', '、', '导演', '等', ',', '毕业', '于', '淡江', '中学', '。']
 




 

文章知识点与官方知识档案匹配,可进一步学习相关知识

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=4190
赞同 0
评论 0 条
大力蜜粉L0
粉丝 0 发表 10 + 关注 私信
上周热门
如何使用 StarRocks 管理和优化数据湖中的数据?  2959
【软件正版化】软件正版化工作要点  2878
统信UOS试玩黑神话:悟空  2843
信刻光盘安全隔离与信息交换系统  2737
镜舟科技与中启乘数科技达成战略合作,共筑数据服务新生态  1270
grub引导程序无法找到指定设备和分区  1235
华为全联接大会2024丨软通动力分论坛精彩议程抢先看!  165
点击报名 | 京东2025校招进校行程预告  164
2024海洋能源产业融合发展论坛暨博览会同期活动-海洋能源与数字化智能化论坛成功举办  163
华为纯血鸿蒙正式版9月底见!但Mate 70的内情还得接着挖...  159
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

加入交流群

请使用微信扫一扫!