python結巴分詞

發布時間: 2022-05-18 23:22:02

㈠ python3怎麼使用結巴分詞

下面這個程序是對一個文本文件里的內容進行分詞的程序：test.py

[python] view plain

#!/usr/bin/python

#-*-encoding:utf-8-*-

importjieba#導入jieba模塊

defsplitSentence(inputFile,outputFile):

fin=open(inputFile,'r')#以讀的方式打開文件

fout=open(outputFile,'w')#以寫得方式打開文件

foreachLineinfin:

line=eachLine.strip().decode('utf-8','ignore')#去除每行首尾可能出現的空格，並轉為Unicode進行處理

wordList=list(jieba.cut(line))#用結巴分詞，對每行內容進行分詞

outStr=''

forwordinwordList:

outStr+=word

outStr+='/'

fout.write(outStr.strip().encode('utf-8')+' ')#將分詞好的結果寫入到輸出文件

fin.close()

fout.close()

splitSentence('myInput.txt','myOutput.txt')

寫完程序之後，在Linux重點輸入：python test.py即可運行程序進行分詞。

輸入的文件內容如下所示：

注意：第11行的 jieba.cut()返回的結構是一個可迭代的generator，可以用list(jieba.cut(...))轉化為list

㈡ python的jieba怎麼自定義分詞

每行切詞完後，一行放入一個list.多行就是多個list,每個list中的item，就是切詞後的詞。
輸出的時候，直接 for x in y: ','.join(x)就ok了

㈢怎麼是用python 語言使用結巴分詞呢

Python代碼

#encoding=utf-8
importjieba

seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式

seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式

seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)

輸出：

FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學

DefaultMode:我/來到/北京/清華大學

他,來到,了,網易,杭研,大廈(此處，「杭研」並沒有在詞典中，但是也被Viterbi演算法識別出來了)

㈣ python中用pip裝了jieba分詞,怎麼刪除重新裝

使用pip安裝可以使用 pip uninstall jieba 卸載
然後使用pip install jieba 重裝

㈤如何用python和jieba分詞，統計詞頻

#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter

defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!='
':
c[x]+=1
print('常用詞頻度統計結果')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))

if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)

㈥ python jieba什麼用

用來分詞的，jieba 可以：

把一句話拆分成多個詞。
從一句話（一段話）中提取最重要的幾個關鍵詞。

最常用的功能應該就是這些吧，分詞之後結合 TF-IDF，就可以開始做搜索工具和相關推薦了。

㈦ python 使用jieba分詞出錯

猜測你使用的 Python 版本為 Python2 但是使用 coding: utf-8 設置中文編碼只在 Python 3 有效

所以設置默認編碼應在代碼開始部分應該加上

importsys
reload(sys)
sys.setdefaultencoding('UTF-8')

㈧在python 環境下，使用結巴分詞，自動導入文本，分詞，提取關鍵詞.腳本大俠給個

#-*-coding:UTF-8-*-

importjieba

__author__='lpe234'


seg_list=jieba.cut("我來到北京天安門",cut_all=True)
print','.join(seg_list)

...
Loadingmodelfromcache/var/folders/sv//T/jieba.cache
我,來到,北京,天安,天安門
Loadingmodelcost0.433seconds.
.

Processfinishedwithexitcode0

㈨ python中怎樣處理漢語的同義詞用結巴分詞

python中文分詞：結巴分詞
中文分詞是中文文本處理的一個基礎性工作，結巴分詞利用進行中文分詞。其基本實現原理有三點：
基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查找最大概率路徑, 找出基於詞頻的最大切分組合
對於未登錄詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法
安裝（Linux環境）
下載工具包，解壓後進入目錄下，運行：python setup.py install

模式
默認模式，試圖將句子最精確地切開，適合文本分析
全模式，把句子中所有的可以成詞的詞語都掃描出來，適合搜索引擎

介面
組件只提供jieba.cut 方法用於分詞
cut方法接受兩個輸入參數：
第一個參數為需要分詞的字元串
cut_all參數用來控制分詞模式
待分詞的字元串可以是gbk字元串、utf-8字元串或者unicode
jieba.cut返回的結構是一個可迭代的generator，可以使用for循環來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list

實例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我來到北京清華大學", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我來到北京清華大學")
print "Default Mode:", ' '.join(seg_list)

㈩ python3 進行結巴分詞時可以並行處理嗎

下面這個程序是對一個文本文件里的內容進行分詞的程序：test.py
[python] view plain
#!/usr/bin/python
#-*- encoding:utf-8 -*-
import jieba #導入jieba模塊

def splitSentence(inputFile, outputFile):
fin = open(inputFile, 'r') #以讀的方式打開文件
fout = open(outputFile, 'w') #以寫得方式打開文件

for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出現的空格，並轉為Unicode進行處理
wordList = list(jieba.cut(line)) #用結巴分詞，對每行內容進行分詞
outStr = ''
for word in wordList:
outStr += word
outStr += '/ '
fout.write(outStr.strip().encode('utf-8') + '\n') #將分詞好的結果寫入到輸出文件
fin.close()
fout.close()

splitSentence('myInput.txt', 'myOutput.txt')
寫完程序之後，在Linux重點輸入：python test.py即可運行程序進行分詞。

閱讀全文

熱點內容

我的世界哪五個伺服器被炸了發布：2025-05-15 10:36:16 瀏覽：993

ehcache存儲對象發布：2025-05-15 10:35:31 瀏覽：526

搭建虛擬電腦的伺服器發布：2025-05-15 10:29:31 瀏覽：269

湖人雙核配置哪個最好發布：2025-05-15 10:09:48 瀏覽：979

手機熱點密碼怎麼查看發布：2025-05-15 09:54:47 瀏覽：108

生意發力雲存儲發布：2025-05-15 09:54:45 瀏覽：616

編寫一個shell腳本添加用戶發布：2025-05-15 09:54:43 瀏覽：505

資料庫查看錶命令發布：2025-05-15 09:52:27 瀏覽：914

p30是不是自帶方舟編譯器發布：2025-05-15 09:51:48 瀏覽：599

追擊世界房間密碼是多少發布：2025-05-15 09:51:46 瀏覽：995

python結巴分詞

與python結巴分詞相關的資訊