如何用python进行中文分词

来源：网络收集点击：时间：2024-05-14

【导读】：

用python中的第三方库jieba实现对一段中文进行分词。工具/原料morepython 3.8.2（其他版本也可以）pycharm 2020.01（其他版本也可以）方法/步骤1/6分步阅读

在本次教程中，我们采用pycharm进行编程。首先了解一下jieba库，jieba库是优秀的中文分词第三方库。

jeiba库分词的原理：jieba分词依靠中文词库，利用一个中文词库，确定中文字符之间的关联概率，中文字符间概率大的组成词组，形成分词结果。

2/6

安装jieba库：

在桌面摁下“win”+“r”，输入cmd，接着输入“pip install jieba”，等待命令行运行完成，当出现“successful”就说明jieba库已经安装成功了。

3/6

jieba库有三种分词模式，精确模式、全模式、搜索引擎模式。

精确模式：把文本精确地且分开，不存在冗余单词。

全模式：把文本中所有可能的词语都扫描出来，词与词之间存在重复部分，有冗余。

搜索引擎模式：在精确模式基础上，对长词再次切分。

4/6

jieba库常用函数：

1、jieba.lcut(s) 精确模式，返回一个列表类型的分词结果

2、jieba.lcut(s, cut_all=True) 全模式，返回一个列表类型的分词结果，有冗余

3、jeiba.lcut_for_search(s) 搜索引擎模式，返回一个列表类型的分词结果，存在冗余

（其他函数操作可以参照官方文档）

5/6

打开pycharm，点击左上角“File”-“New Project”新建一个项目（图1），选择任意目录，选择python 3.8解释器，点击“cerate”，在project处右键点击“New”-“Python File”，任意取一个名字回车

6/6

在新建的py文件中输入：

import jiebatxt = 把文本精确地分开，不存在冗余单词# 精确模式words_lcut = jieba.lcut(txt)print(words_lcut)# 全模式words_lcut_all = jieba.lcut(txt, cut_all=True)print(words_lcut_all)# 搜索引擎模式words_lcut_search = jieba.lcut_for_search(txt)print(words_lcut_search)

代码即可实现对字符串txt的分词

注意事项

文章使用pycharm进行编程，也可以使用IDLE进行编程。

jieba库在安装时，若频繁出现timeout，可以过段时间再试，或者运行 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ 使用清华源进行安装

官网文档请在pypi搜索jieba

阅读全文

好评( 0 )

差评( 0 )

本文关键词：

1、本文系转载，版权归原作者所有，旨在传递信息，不代表看本站的观点和立场。

2、本站仅提供信息发布平台，不承担相关法律责任。

3、若侵犯您的版权或隐私，请联系本站管理员删除。

4、文章链接：http://www.1haoku.cn/art_759635.html

上一篇：微信看一看怎么不让别人看下一篇：胃溃疡症状表现有哪些？

一酷知识大全

今日头条

百度一下

新浪网

搜狐

豆瓣

百度贴吧

如何用python进行中文分词

尚未审核相关分类

尚未审核随机资讯

相关资讯

一酷知识大全

今日头条

百度一下

新浪网

搜狐

豆瓣

百度贴吧

如何用python进行中文分词

尚未审核相关分类

尚未审核最新

尚未审核随机资讯

相关资讯