python解析中文

發布時間: 2022-05-06 01:07:20

1. python2.7 怎麼解析命令行輸入的中文參數

本文實例講述了python讀取命令行參數的方法。分享給大家供大家參考。具體分析如下：
如果想對python腳本傳參數，python中對應的argc, argv(c語言的命令行參數)是什麼呢？
需要模塊：sys
參數個數：len(sys.argv)
腳本名： sys.argv[0]
參數1： sys.argv[1]
參數2： sys.argv[2]
test.py：
import sys
print "腳本名：", sys.argv[0]
for i in range(1, len(sys.argv)):
print "參數", i, sys.argv[i]
>>>python test.py hello world

腳本名：test.py
參數 1 hello
參數 2 world
python中使用命令行選項：
例如我們需要一個convert.py腳本。它的作用是處理一個文件,並將處理後的結果輸出到另一個文件中。
要求該腳本滿足以下條件：
1.通過-i -o選項來區別參數是輸入文件還是輸出文件.
>>> python convert.py -i inputfile -o outputfile
2.當不知道convert.py需要哪些參數時，用-h列印出幫助信息
>>> python convert.py -h
getopt函數原形:
getopt.getopt(args, options[, long_options])
convert.py：
import sys, getopt
opts, args = getopt.getopt(sys.argv[1:], "hi:o:")
input_file=""
output_file=""
for op, value in opts:
if op == "-i":
input_file = value
elif op == "-o":
output_file = value
elif op == "-h":
usage()
sys.exit()

代碼解釋：
a) sys.argv[1:]為要處理的參數列表，sys.argv[0]為腳本名，所以用sys.argv[1:]過濾掉腳本名。
b) "hi:o:": 當一個選項只是表示開關狀態時，即後面不帶附加參數時，在分析串中寫入選項字元。當選項後面是帶一個附加參數時，在分析串中寫入選項字元同時後面加一個":"號。所以"hi:o:"就表示"h"是一個開關選項；"i:"和"o:"則表示後面應該帶一個參數。
c) 調用getopt函數。函數返回兩個列表：opts和args。opts為分析出的格式信息。args為不屬於格式信息的剩餘的命令行參數。opts是一個兩元組的列表。每個元素為：(選項串,附加參數)。如果沒有附加參數則為空串''。
getopt函數的第三個參數[, long_options]為可選的長選項參數，上面例子中的都為短選項(如-i -o)
長選項格式舉例:
--version
--file=error.txt
讓一個腳本同時支持短選項和長選項
getopt.getopt(sys.argv[1:], "hi:o:", ["version", "file="])
希望本文所述對大家的Python程序設計有所幫助。

2. 用Python的BeautifulSoup解析網頁時,裡面的中文顯示亂碼,要怎樣才能正常顯示中文

轉碼啊，先把你的爬過來的內容轉成utf8或者gbk(這樣要結合你網站使用的編碼)，這種解決方案網上還是很多的，就不一一列舉了。如果你都試過了，可以把網站貼出來看看。

3. Python分析中文文字有哪些方法，那些庫

做短文本用線性svm，效果有目共睹，分詞用jieba，詞語向量化用Word2vec（gensim包）！

4. python解析圖片中的中文亂碼

是不是中文沒有正確解碼啊？如果系統和編輯器是utf8的，那string也要轉成utf8的

5. python 讀取的中文怎麼使用

file = open('filename.txt','r')
text = file.read() #讀取所有文字
text = file.readline() #讀取一行文字
text = file.readlinse() #把每一行變成list的一個元素
如果需要裡面中文的話，用正則匹配

6. python怎樣讀取文本文件里的中文

#在Windows 環境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以讀的方式打開輸入文件
for eachLine in fin: #按行讀入文件內容
line = eachLine.strip().decode('gbk', 'utf-8') #處理前進行相關的處理，包括轉換成Unicode等
print line #列印原始字元
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的編碼范圍是：\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##列印中文字元

7. 如何用 Python 中的 NLTK 對中文進行分析和處理

最近正在用nltk 對中文網路商品評論進行褒貶情感分類，計算評論的信息熵（entropy）、互信息（point mutual information）和困惑值（perplexity）等（不過這些概念我其實也還理解不深...只是nltk 提供了相應方法）。
我感覺用nltk 處理中文是完全可用的。其重點在於中文分詞和文本表達的形式。
中文和英文主要的不同之處是中文需要分詞。因為nltk 的處理粒度一般是詞，所以必須要先對文本進行分詞然後再用nltk 來處理（不需要用nltk 來做分詞，直接用分詞包就可以了。嚴重推薦結巴分詞，非常好用）。
中文分詞之後，文本就是一個由每個片語成的長數組：[word1, word2, word3…… wordn]。之後就可以使用nltk 裡面的各種方法來處理這個文本了。比如用FreqDist 統計文本詞頻，用bigrams 把文本變成雙片語的形式：[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。
再之後就可以用這些來計算文本詞語的信息熵、互信息等。
再之後可以用這些來選擇機器學習的特徵，構建分類器，對文本進行分類（商品評論是由多個獨立評論組成的多維數組，網上有很多情感分類的實現例子用的就是nltk 中的商品評論語料庫，不過是英文的。但整個思想是可以一致的）。
另外還有一個困擾很多人的Python 中文編碼問題。多次失敗後我總結出一些經驗。
Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
Python 裡面處理的字元都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。
由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

8. python如何讀取中文文件內容

open(錦囊一,'r',encoding="utf-8")

9. Python中用BeautifulSoup解析中文網頁里的中文都是亂碼，怎麼回事

print一個對象的邏輯：內部是調用對象的__str__得到對應的字元串的，此處對應的是soup的__str__ 而針對於soup本身，其實已經是Unicode編碼，所以可以通過指定__str__輸出時的編碼為GBK，以使得此處正確顯示非亂碼的中文
而對於cmd：（中文的系統中）編碼為GBK,所以只要重新編碼為gb18030就可以正常輸出了
就是下面這行代碼

print(soup.title).encode('gb18030')

10. python 中文解碼

python中有一個chardet庫，這個可以查看你的編碼是什麼
>>> import chardet
>>> print chardet.detect(r'\xe8\xae\xb8\xe9\x93\xad\xe6\xb1\xb6')
{'confidence': 1.0, 'encoding': 'ascii'}
說明你的這個編碼是python默認的ascii編碼

閱讀全文

熱點內容

隨機啟動腳本發布：2025-07-05 16:10:30 瀏覽：517

微博資料庫設計發布：2025-07-05 15:30:55 瀏覽：20

linux485 發布：2025-07-05 14:38:28 瀏覽：299

php用的軟體發布：2025-07-05 14:06:22 瀏覽：751

沒有許可權訪問計算機發布：2025-07-05 13:29:11 瀏覽：427

javaweb開發教程視頻教程發布：2025-07-05 13:24:41 瀏覽：689

康師傅控流腳本破解發布：2025-07-05 13:17:27 瀏覽：234

java的開發流程發布：2025-07-05 12:45:11 瀏覽：681

怎麼看內存卡配置發布：2025-07-05 12:29:19 瀏覽：279

訪問學者英文個人簡歷發布：2025-07-05 12:29:17 瀏覽：828

python解析中文

與python解析中文相關的資訊