python文件中文
Ⅰ python怎麼中文寫txt文件
本文以txt 文本為例,只是介紹ANSI,Unicode,UTF-8 三種編碼的文件的讀寫過程,對於編碼不做深究了
一、用記事本另存為時,可以選擇保存文本使用的的幾種編碼模式,分別為:
ANSI:默認保存的編碼格式,採用本地操作系統默認的內碼,簡體中文一般為GB2312。
Unicode:UTF-16的小端位元組序,加上BOM簽名:0xFFFE。
Unicode bigendian:Unicode編碼:UTF-16的大端位元組序,加上BOM簽名:0xFEFF。
UTF-8:編碼格式是:UTF-8,其BOM為0xEF BB BF(UTF-8不區分位元組序,這個BOM僅標志UTF-8編碼)
- def read_out(self): with codecs.open(self.filename, 'r+') as get: return get.read().decode('gbk')
- f.write(self.filename.encode('gbk'))
- content = raw_input().decode(sys.stdin.encoding)
- type(content) 是unicode
Python對於讀取的txt文件,最好在讀取的時候進行decode成unicode編碼,
然後再寫入的時候進行encode成對應想要的編碼類型,這樣可以保證源文件的編碼方式不會改變,且中文不會亂碼
整個代碼過程保持使用unicode編碼方式利用try…except 來進行編碼判別具體使用了那種編碼方式
二、對於raw_input 通過鍵盤輸入的文字,通過sys模塊中的stdin.encodeing來進行解碼
暫時這么多
Ⅱ python生成中文文件名的文件
#coding:utf-8
f=open(unicode('C:UsersUserDesktop這是一個測試文件.txt','utf-8'),'w')
f.write('寫一行中文')
f.close()
Ⅲ python3.11如何將幫助文件調為中文
python變成中文版的實現方法如下:
首先下載pycharm漢化包;
然後將「resources_en.jar」文件更名為「resources_cn.jar」;
最後將「resources_cn.jar」文件復制回lib文件夾內即可。
PS:建議不要使用漢化版,會導致一些小問題,例如設置界面顯示不完整等。
Ⅳ python怎樣讀取文本文件里的中文
#在Windows 環境下
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
import re
fin = open('in.txt', 'r') #以讀的方式打開輸入文件
for eachLine in fin: #按行讀入文件內容
line = eachLine.strip().decode('gbk', 'utf-8') #處理前進行相關的處理,包括轉換成Unicode等
print line #列印原始字元
p2 = re.compile(ur'[^\u4e00-\u9fa5]') #中文的編碼范圍是:\u4e00到\u9fa5
zh = "".join(p2.split(line)).strip()
#zh = ",".join(zh.split())
print zh ##列印中文字元
Ⅳ python如何打開中文文件 文件名是中文
確保編碼設置正確,路徑正確(包括轉義,空格),並且有許可權,就行了,其他的都一樣。
Ⅵ python 文件是否含有中文
python判斷是否是中文需要滿足u'[u4e00-u9fa5]+',需要注意如果正則表達式的模式中使用unicode,那麼要匹配的字元串也必須轉換為unicode,否則肯定會不匹配。
zhPattern = re.compile(u'[u4e00-u9fa5]+')
示例代碼:
#-*-coding:utf-8-*-
importre
zhPattern=re.compile(u'[u4e00-u9fa5]+')
contents=u'判斷一段文本中是否包含簡體中:'
match=zhPattern.search(contents)
ifmatch:
printu'有中文:%s'%(match.group(0),)
else:
printu'沒有包含中文'
Ⅶ 求教python在文件中寫入中文需要的兩個參數是做什麼的
encoding是文件編碼,默認的一般是ansi,如果不指定的話,打開就有可能看到亂碼。
ensure_ascii是json序列化的一個特性,是為了方便傳輸,避免編碼問題(也就是上面的encoding),可用把unicode字元轉碼為ascii字元,這樣就不需要指定encoding了。但是導致的問題就是肉眼看不出中文內容(和亂碼有本質區別),ensure_ascii=False的意思就是對中文不做轉碼處理,原樣輸出到json