您现在的位置是:网站首页 > 博客日记 >

python之jieba库|分词

作者:YXN-python 阅读量:45 发布日期:2023-04-18

1、安装

pip install jieba

2、模式

import jieba

# 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print ("全模式:","/ ".join(seg_list))

# 精确模式 默认是精确模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print ("默认模式:", "/ ".join(seg_list))  

# 搜索引擎模式
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  
print (", ".join(seg_list))

3、排除及添加词组

import jieba
import re


text = '小明硕士毕业于中国科学院计算所'

text1 = jieba.cut(text, cut_all=False)
print(list(text1))  # ['小明', '硕士', '毕业', '于', '中国科学院', '计算所']


# 排除
# 排除 使用正则
a = "硕士 日本".replace(" ","|")
text1 = re.sub("["+a+"]","",text)
print(list(jieba.cut(text1, cut_all=False)))  # ['小明', '毕业', '于', '中国科学院', '计算所']

# 排除 使用 del_word()
jieba.del_word('硕士')

print(list(jieba.cut(text, cut_all=False)))  # ['小明', '硕', '士', '毕业', '于', '中国科学院', '计算所']


# 自定义字典
# 添加单个词语到词典中
jieba.add_word("中国科学院计算所")

# 载入自定义词典文件
# jieba.load_userdict("custom_dict.txt")

text2 = jieba.cut(text, cut_all=False)
print(list(text2))  # ['小明', '硕', '士', '毕业', '于', '中国科学院计算所']

YXN-python

2023-04-18