广告合作
  • 今日头条

    今日头条

  • 百度一下

    百度一下,你就知道

  • 新浪网

    新浪网 - 提供新闻线索,重大新闻爆料

  • 搜狐

    搜狐

  • 豆瓣

    豆瓣

  • 百度贴吧

    百度贴吧——全球领先的中文社区

  • 首页 尚未审核订阅工具 订阅

    如何用python进行中文分词

    来源:网络收集  点击:  时间:2024-05-14
    【导读】:
    用python中的第三方库jieba实现对一段中文进行分词。工具/原料morepython 3.8.2(其他版本也可以)pycharm 2020.01(其他版本也可以)方法/步骤1/6分步阅读

    在本次教程中,我们采用pycharm进行编程。首先了解一下jieba库,jieba库是优秀的中文分词第三方库。

    jeiba库分词的原理:jieba分词依靠中文词库,利用一个中文词库,确定中文字符之间的关联概率,中文字符间概率大的组成词组,形成分词结果。

    2/6

    安装jieba库:

    在桌面摁下“win”+“r”,输入cmd,接着输入“pip install jieba”,等待命令行运行完成,当出现“successful”就说明jieba库已经安装成功了。

    3/6

    jieba库有三种分词模式,精确模式、全模式、搜索引擎模式。

    精确模式:把文本精确地且分开,不存在冗余单词。

    全模式:把文本中所有可能的词语都扫描出来,词与词之间存在重复部分,有冗余。

    搜索引擎模式:在精确模式基础上,对长词再次切分。

    4/6

    jieba库常用函数:

    1、jieba.lcut(s) 精确模式,返回一个列表类型的分词结果

    2、jieba.lcut(s, cut_all=True) 全模式,返回一个列表类型的分词结果,有冗余

    3、jeiba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型的分词结果,存在冗余

    (其他函数操作可以参照官方文档)

    5/6

    打开pycharm,点击左上角“File”-“New Project”新建一个项目(图1),选择任意目录,选择python 3.8解释器,点击“cerate”,在project处右键点击“New”-“Python File”,任意取一个名字回车

    6/6

    在新建的py文件中输入:

    import jiebatxt = 把文本精确地分开,不存在冗余单词# 精确模式words_lcut = jieba.lcut(txt)print(words_lcut)# 全模式words_lcut_all = jieba.lcut(txt, cut_all=True)print(words_lcut_all)# 搜索引擎模式words_lcut_search = jieba.lcut_for_search(txt)print(words_lcut_search)

    代码即可实现对字符串txt的分词

    注意事项

    文章使用pycharm进行编程,也可以使用IDLE进行编程。

    jieba库在安装时,若频繁出现timeout,可以过段时间再试,或者运行 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/ 使用清华源进行安装

    官网文档请在pypi搜索jieba

    本文关键词:

    版权声明:

    1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。

    2、本站仅提供信息发布平台,不承担相关法律责任。

    3、若侵犯您的版权或隐私,请联系本站管理员删除。

    4、文章链接:http://www.1haoku.cn/art_759635.html

    相关资讯

    ©2019-2020 http://www.1haoku.cn/ 国ICP备20009186号06-03 23:46:54  耗时:0.680