python讀取文件的編碼

發布時間: 2023-05-28 18:33:40

『壹』 python 讀取文件時能指定編碼嗎

代碼如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

將執行文件的當前目錄及文件名寫入到name.txt文件中，以utf-8格式保存
如果採用ANSI編碼保存，用如下代碼寫入即可：

復制代碼代碼如下:

out.write(filename)

打開文件並寫入
引用codecs模塊，對該模塊目前不了解。在此記錄下方法，有空掌握該模塊功能及用法。

復制代碼代碼如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:

復制代碼代碼如下:

abc中文

用python來讀取

復制代碼代碼如下:

# coding=gbk
print open("Test.txt").read()

結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：

復制代碼代碼如下:

結果：abc涓枃

顯然，這里需要解碼：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

結果：abc中文
在看下面的例子：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打開utf-8格式的文件並讀取utf-8字元串後，解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換，變成一個unicode字元。該字元不能被列印。所以為了正常顯示，採用u[1:]的方式，過濾到第一個字元。
注意：在處理unicode中文字元串的時候，必須首先對它調用encode函數，轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 編碼問題, 報錯信息如下

復制代碼代碼如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼，因為python在啟動的時候會調用site.py文件，在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

復制代碼代碼如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼

復制代碼代碼如下:

s1='中文'

像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的，如果是unicode編碼，有以下三種方式：

復制代碼代碼如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一個內置函數，第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法，將字元串轉換成unicode格式，參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法，將字元串轉換成參數指定的格式。

『貳』 python 讀取文本里有多種編碼

讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：
結果：abc涓枃
顯然，這里需要解碼：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

『叄』怎麼在Python里使用UTF-8編碼

概述

在python代碼即.py文件的頭部聲明即可

解析

py文件中的編碼

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用"編碼指示"來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明：

# -*- coding=utf-8 -*-
#coding=utf-8
# 以上兩種選其一即可

其他的編碼如：gbk、gb2312也可以；否則會出現:

SyntaxError: Non-ASCII character 'xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的編碼與解碼

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode，他們都是basestring的派生類；

str類型是一個包含Characters represent (at least) 8-bit bytes的序列；

unicode 的每個 unit 是一個 unicode obj;

在str的文檔中有這樣的一句話：

The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

拓展內容

utf-8編碼

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，也是一種前綴碼。它可以用來表示Unicode標准中的任何字元，且其編碼中的第一個位元組仍與ASCII兼容，這使得原來處理ASCII字元的軟體無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先採用的編碼。

UTF-8使用一至六個位元組為每個字元編碼（盡管如此，2003年11月UTF-8被RFC 3629重新規范，只能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個位元組）：

1、128個US-ASCII字元只需一個位元組編碼（Unicode范圍由U+0000至U+007F）。

2、帶有附加符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要兩個位元組編碼（Unicode范圍由U+0080至U+07FF）。

3、其他基本多文種平面（BMP）中的字元（這包含了大部分常用字，如大部分的漢字）使用三個位元組編碼（Unicode范圍由U+0800至U+FFFF）。

4、其他極少使用的Unicode輔助平面的字元使用四至六位元組編碼（Unicode范圍由U+10000至U+1FFFFF使用四位元組，Unicode范圍由U+200000至U+3FFFFFF使用五位元組，Unicode范圍由U+4000000至U+7FFFFFFF使用六位元組）。

對上述提及的第四種字元而言，UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字元同樣需要四個位元組來編碼，所以要決定UTF-8或UTF-16哪種編碼比較有效率，還要視所使用的字元的分布范圍而定。不過，如果使用一些傳統的壓縮系統，比如DEFLATE，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大，可以考慮使用Unicode標准壓縮格式（SCSU）。

互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持UTF-8編碼。互聯網郵件聯盟（IMC）建議所有電子郵件軟體都支持UTF-8編碼。

『肆』 python讀寫有中文的文件時，是否需要設置編碼格式

需要：
with open("路徑","模式",encoding="utf8") as f:

如果不確定編碼格式，後面讀取可能會出問題

『伍』 Python怎麼獲取HDFS文件的編碼格式

你好，你可以利用python3的python3-magic來獲得文件的編碼格式。下面是對應的代碼
import magic

blob = open('unknown-file').read()

m = magic.open(magic.MAGIC_MIME_ENCODING)

m.load()

encoding = m.buffer(blob) # "utf-8" "us-ascii" etc

『陸』 Python在讀取中文文件，編碼是ANSI格式的，希望能夠將漢字一個一個輸出。所以想轉成UTF-8的。求解。

一般來說讀出來的字元串，所以要"我".decode("ascii").encode("utf-8")
如果還不行，就結合下面悶肢好這段代碼試試，編碼可以換螞鉛換，飢仿反正我最近就是這樣解決的
import sys
reload(sys)
sys.setdefaultencoding('utf8')

『柒』 Python：查看文件的編碼格式-chardet

其中， encoding 為檢測出的編碼， confidence 為可信度， language 是語言。
另外一個例子：

檢測的編碼是GB2312，注意到GBK是GB2312的超集，兩者是同一種編碼，檢測正確的概率是74%，language欄位指出的語言是'Chinese'。

注意：chardet支持檢測的編碼列表請參考官方文檔 Supported encodings 。

『捌』 python讀寫文件

讀文件

1）使用open()方法打開文件，返回一個文件對象

原型：open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)

舉例：f = open('test.txt', 'r')

test.txt表示文件路徑(包含文件名，這個file參數可以是絕對或者相對路徑)

      r表示是讀文本文件，rb是讀二進制文本文件。（這個mode參數默認值就是r）

    2）使用close()方法關閉文件

      f.close()

打開後的文件必須關閉，因為文件對象會佔用系統資源，系統打開文件數量也就有限了

  3）打開文件時的異常處理

      f=open('test.txt', 'r')

f.read()

f.close()

        FileNotFoundError: [Errno 2] No such file or directory: 'test.txt'

        文件讀寫時都有可能產生異常IOError(比如文件不存在)，這樣其後面的f.read()，f.close()就不會調用。為保證無論是否異常都可以關閉文件，一般使用try ... finally來處理：

      try:

        f = open('test.txt', 'r')

f.read()

        finally:

        if f:

        f.close()

        但這種寫法過於繁瑣，所以Python引入了with語句來自動調用close()方法：

        with open('test.txt', 'r') as f:

            f.read()

4）讀文件 - read()、readline() 和 readlines()

        read() 一次讀取整個文件，它通常用於將文件內容放到一個字元串變數中。如果文件過大，內存不夠，可以通過反復調用read(size)方法，每次最多讀取size個位元組的內容。

        readline() 一次讀取文件中一行內容，可反復調用

        readlines() 一次讀取所有內容並按行返回列表，該列表可以由for ... in ... 結構再進一步處理。

特別注意：

        這三種方法是把每行末尾的'\n'也讀進來了，如有需要就得我們手動去掉'\n'

        with open('test.txt', 'r') as f:

        list = f.readlines()

        for i in range(0, len(list)):

        list[i] = list[i].rstrip('\n')

寫文件

1）寫文件和讀文件是一樣的，唯一區別是open文件時，傳入標識符不同，即'w'或者'wb'表示寫文本文件或寫二進制文件

    f = open('test.txt', 'w')

    f = open('test.txt', 'wb')

    f = open('test.txt', 'a')

f.close()

特別注意：

1. 如果沒有這個文件，會自動創建一個新文件；如果有，就會先把原文件的內容清空再寫入；若不想清空原來的內容而是直接在後面追加新的內容，就用'a'這個模式

2. 寫文件，操作系統往往不會立刻把數據寫入磁碟，而是放到內存緩存起來，空閑的時候再慢慢寫入。只有調用close()方法時，操作系統才保證把沒有寫入的數據全部寫入磁碟。忘記調用close()的後果是數據可能只寫了一部分到磁碟，剩下的丟失了。

  2）寫文件 - write()、writelines()

  write()方法和read()、readline()方法對應，是將字元串寫入到文件中。

    writelines()方法和readlines()方法對應，也是針對列表的操作。它接收一個字元串列表作為參數，將他們寫入到文件中。

特別注意：

換行符不會自動的加入，需要顯式的加入換行符。

  f = open('test.txt', 'w')

    f.writelines(["111\n", "222\n", "333\n"])

補充說明：

1）對於非默認編碼(utf-8)的文件，需要open時添加encording參數，選擇對應的編碼方式

2）r+, w+, a+，可讀可寫

3）seek()方法，移動文件指針

seek(offset[, whence]) ，offset是相對於某個位置的偏移量。位置由whence決定，默認whence=0，從開頭起；whence=1，從當前位置算起；whence=2相對於文件末尾移動，通常offset取負值。

『玖』 Python 讀寫文件的編碼與解碼問題

演示文件為docx文檔，內容如下：

源碼

運行源碼查看報錯信息
UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence

上述錯誤是一種很常見的解碼錯誤，下面介紹該錯誤的解決方法

把utf-8，gbk等各種編碼方式都試了一遍，還是沒有解決問題然後仔細看報錯信息，根據UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte，猜測文件中某個位元組不能解碼，打開文件一看，並沒有看出什麼問題來

open() 函數的第三個參數不是用來野唯接收編碼方式的，而磨脊信是傳入一個buffering的值，此處傳入了'gbk'字元串，所以系統提示傳一個瞎輪整型

通過調用office的API進行操作，因為在office上能完成的操作，都能通過win32完成，所以我們選擇使用win32
（Python3.5 需要安裝 win32compat，裡面含了 win32 的很多包）

『拾』 Python讀寫文件時，遇到中文編碼需要怎麼處理

使用utf-8編碼橡槐:

withopen("f.txt","r",encoding="utf-8")如擾ascode:
print(code.read())

#或者下渣如旦面這種:
f=open("f.txx","r",encoding="utf-8")
print(f.read())
f.close()

閱讀全文

熱點內容

dropbear編譯發布：2025-07-10 08:27:35 瀏覽：684

我的世界電腦建造伺服器推薦發布：2025-07-10 08:13:08 瀏覽：401

如何提高存儲數據的速度發布：2025-07-10 07:55:57 瀏覽：259

規范c語言代碼發布：2025-07-10 07:55:57 瀏覽：516

在線砍價源碼發布：2025-07-10 07:55:56 瀏覽：796

編程工作年限發布：2025-07-10 07:44:42 瀏覽：143

vc壓縮文件夾發布：2025-07-10 07:43:56 瀏覽：450

汽貿解壓發布：2025-07-10 07:43:56 瀏覽：877

dreamweaver連接資料庫發布：2025-07-10 07:43:55 瀏覽：742

三菱編程書籍發布：2025-07-10 07:39:38 瀏覽：497

python讀取文件的編碼

概述

解析

拓展內容

與python讀取文件的編碼相關的資訊