Py之jieba：Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

大力蜜粉 2022-09-20 11:04:14  50104

分类专栏：资讯

jieba简介

jieba应该算得上是分词领域的佼佼者，想要使用python做文本分析，分词是必不可少的一个环节。

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
MIT 授权协议

官网github地址：GitHub - fxsjy/jieba: 结巴中文分词

jieba安装

pip install jieba

好啦，大功告成，开始使用吧！

jieba使用方法

1、进行分词


import jieba
text='周杰伦（Jay Chou），1979年1月18日出生于台湾省新北市，祖籍福建省泉州市永春县，中国台湾流行乐男歌手、原创音乐人、演员、导演等，毕业于淡江中学。'
text_cut = jieba.cut(text, cut_all=False)
print(list(text_cut))

['周杰伦', '（', 'Jay', ' ', 'Chou', '）', '，', '1979', '年', '1', '月', '18', '日出', '生于', '台湾省', '新北市', '，', '祖籍', '福建省', '泉州市', '永春县', '，', '中国台湾', '流行乐', '男歌手', '、', '原创', '音乐', '人', '、', '演员', '、', '导演', '等', '，', '毕业', '于', '淡江', '中学', '。']

文章知识点与官方知识档案匹配，可进一步学习相关知识

Python入门技能树人工智能自然语言处理123871 人正在系统学习中

网站声明：如果转载，请联系本站管理员。否则一切后果自行承担。

本文链接：https://www.xckfsq.com/news/show.html?id=4190

赞同 0

评论 0 条

Py之jieba：Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

jieba简介

jieba安装

jieba使用方法

1、进行分词

相关文章

关注我们