python读取文件的编码

发布时间: 2023-05-28 18:33:40

‘壹’ python 读取文件时能指定编码吗

代码如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

将执行文件的当前目录及文件名写入到name.txt文件中，以utf-8格式保存
如果采用ANSI编码保存，用如下代码写入即可：

复制代码代码如下:

out.write(filename)

打开文件并写入
引用codecs模块，对该模块目前不了解。在此记录下方法，有空掌握该模块功能及用法。

复制代码代码如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

读取ANSI编码的文本文件和utf-8编码的文件
读取ANSI编码文件
建立一个文件test.txt，文件格式用ANSI，内容为:

复制代码代码如下:

abc中文

用python来读取

复制代码代码如下:

# coding=gbk
print open("Test.txt").read()

结果：abc中文
读取utf-8编码文件（无BOM）
把文件格式改成UTF-8：

复制代码代码如下:

结果：abc涓枃

显然，这里需要解码：

复制代码代码如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

结果：abc中文
读取utf-8编码文件（有BOM）
某些软件在保存一个以UTF-8编码的文件时，默认会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。在有些软件可以控制是否插入BOM。如果在有BOM的情况下，在读取时需要自己去掉这些字符，python中的codecs mole定义了这个常量：

复制代码代码如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

结果：abc中文
在看下面的例子：

复制代码代码如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象。但是会把附加的三个字符同样进行转换，变成一个unicode字符。该字符不能被打印。所以为了正常显示，采用u[1:]的方式，过滤到第一个字符。
注意：在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。
设置python默认编码
复制代码代码如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 编码问题, 报错信息如下

复制代码代码如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

显然是当前的编码为ascii, 无法解析0xa1(十进制为161, 超过上限128). 进入python console后, 发现默认编码确实是 ascii, 验证过程为:
在python2.6中无法调用sys.setdefaultencoding()函数来修改默认编码，因为python在启动的时候会调用site.py文件，在这个文件中设置完默认编码后会删除sys的setdefaultencoding方法。不能再被调用了. 在确定sys已经导入的情况下, 可以reload sys这个模块之后, 再 sys.setdefaultencoding('utf8')
复制代码代码如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

确实有效, 根据 limodou 讲解, site.py 是 python 解释器启动后, 默认加载的一个脚本. 如果使用 python -S 启动的话, 将不会自动加载 site.py.
上面写的挺啰嗦的.
==================================
如何永久地将默认编码设置为utf-8呢? 有2种方法:
==================================
第一个方法<不推荐>: 编辑site.py, 修改setencoding()函数, 强制设置为 utf-8
第二个方法<推荐>: 增加一个名为 sitecustomize.py, 推荐存放的路径为 site-packages 目录下
sitecustomize.py 是在 site.py 被import 执行的, 因为 sys.setdefaultencoding() 是在 site.py 的最后删除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

复制代码代码如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自动加载, 所以除了设置编码外, 也可以设置一些其他的东西
字符串的编码

复制代码代码如下:

s1='中文'

像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果是unicode编码，有以下三种方式：

复制代码代码如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一个内置函数，第二个参数指示源字符串的编码格式。
decode是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。
encode也是任何字符串具有的方法，将字符串转换成参数指定的格式。

‘贰’ python 读取文本里有多种编码

读取ANSI编码文件
建立一个文件test.txt，文件格式用ANSI，内容为:
abc中文
用Python来读取
# coding=gbk
print open("Test.txt").read()
结果：abc中文
读取utf-8编码文件（无BOM）
把文件格式改成UTF-8：
结果：abc涓枃
显然，这里需要解码：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
结果：abc中文
读取utf-8编码文件（有BOM）
某些软件在保存一个以UTF-8编码的文件时，默认会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。在有些软件可以控制是否插入BOM。如果在有BOM的情况下，在读取时需要自己去掉这些字符，python中的codecs mole定义了这个常量：

‘叁’ 怎么在Python里使用UTF-8编码

概述

在python代码即.py文件的头部声明即可

解析

py文件中的编码

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正一个 mole 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明：

# -*- coding=utf-8 -*-
#coding=utf-8
# 以上两种选其一即可

其他的编码如：gbk、gb2312也可以；否则会出现:

SyntaxError: Non-ASCII character 'xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的编码与解码

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode，他们都是basestring的派生类；

str类型是一个包含Characters represent (at least) 8-bit bytes的序列；

unicode 的每个 unit 是一个 unicode obj;

在str的文档中有这样的一句话：

The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

拓展内容

utf-8编码

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部分修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或发送文字的应用中，优先采用的编码。

UTF-8使用一至六个字节为每个字符编码（尽管如此，2003年11月UTF-8被RFC 3629重新规范，只能使用原来Unicode定义的区域，U+0000到U+10FFFF，也就是说最多四个字节）：

1、128个US-ASCII字符只需一个字节编码（Unicode范围由U+0000至U+007F）。

2、带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要两个字节编码（Unicode范围由U+0080至U+07FF）。

3、其他基本多文种平面（BMP）中的字符（这包含了大部分常用字，如大部分的汉字）使用三个字节编码（Unicode范围由U+0800至U+FFFF）。

4、其他极少使用的Unicode辅助平面的字符使用四至六字节编码（Unicode范围由U+10000至U+1FFFFF使用四字节，Unicode范围由U+200000至U+3FFFFFF使用五字节，Unicode范围由U+4000000至U+7FFFFFFF使用六字节）。

对上述提及的第四种字符而言，UTF-8使用四至六个字节来编码似乎太耗费资源了。但UTF-8对所有常用的字符都可以用三个字节表示，而且它的另一种选择，UTF-16编码，对前述的第四种字符同样需要四个字节来编码，所以要决定UTF-8或UTF-16哪种编码比较有效率，还要视所使用的字符的分布范围而定。不过，如果使用一些传统的压缩系统，比如DEFLATE，则这些不同编码系统间的的差异就变得微不足道了。若顾及传统压缩算法在压缩较短文字上的效果不大，可以考虑使用Unicode标准压缩格式（SCSU）。

互联网工程工作小组（IETF）要求所有互联网协议都必须支持UTF-8编码。互联网邮件联盟（IMC）建议所有电子邮件软件都支持UTF-8编码。

‘肆’ python读写有中文的文件时，是否需要设置编码格式

需要：
with open("路径","模式",encoding="utf8") as f:

如果不确定编码格式，后面读取可能会出问题

‘伍’ Python怎么获取HDFS文件的编码格式

你好，你可以利用python3的python3-magic来获得文件的编码格式。下面是对应的代码
import magic

blob = open('unknown-file').read()

m = magic.open(magic.MAGIC_MIME_ENCODING)

m.load()

encoding = m.buffer(blob) # "utf-8" "us-ascii" etc

‘陆’ Python在读取中文文件，编码是ANSI格式的，希望能够将汉字一个一个输出。所以想转成UTF-8的。求解。

一般来说读出来的字符串，所以要"我".decode("ascii").encode("utf-8")
如果还不行，就结合下面闷肢好这段代码试试，编码可以换蚂铅换，饥仿反正我最近就是这样解决的
import sys
reload(sys)
sys.setdefaultencoding('utf8')

‘柒’ Python：查看文件的编码格式-chardet

其中， encoding 为检测出的编码， confidence 为可信度， language 是语言。
另外一个例子：

检测的编码是GB2312，注意到GBK是GB2312的超集，两者是同一种编码，检测正确的概率是74%，language字段指出的语言是'Chinese'。

注意：chardet支持检测的编码列表请参考官方文档 Supported encodings 。

‘捌’ python读写文件

读文件

1）使用open()方法打开文件，返回一个文件对象

原型：open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)

举例：f = open('test.txt', 'r')

test.txt表示文件路径(包含文件名，这个file参数可以是绝对或者相对路径)

      r表示是读文本文件，rb是读二进制文本文件。（这个mode参数默认值就是r）

    2）使用close()方法关闭文件

      f.close()

打开后的文件必须关闭，因为文件对象会占用系统资源，系统打开文件数量也就有限了

  3）打开文件时的异常处理

      f=open('test.txt', 'r')

f.read()

f.close()

        FileNotFoundError: [Errno 2] No such file or directory: 'test.txt'

        文件读写时都有可能产生异常IOError(比如文件不存在)，这样其后面的f.read()，f.close()就不会调用。为保证无论是否异常都可以关闭文件，一般使用try ... finally来处理：

      try:

        f = open('test.txt', 'r')

f.read()

        finally:

        if f:

        f.close()

        但这种写法过于繁琐，所以Python引入了with语句来自动调用close()方法：

        with open('test.txt', 'r') as f:

            f.read()

4）读文件 - read()、readline() 和 readlines()

        read() 一次读取整个文件，它通常用于将文件内容放到一个字符串变量中。如果文件过大，内存不够，可以通过反复调用read(size)方法，每次最多读取size个字节的内容。

        readline() 一次读取文件中一行内容，可反复调用

        readlines() 一次读取所有内容并按行返回列表，该列表可以由for ... in ... 结构再进一步处理。

特别注意：

        这三种方法是把每行末尾的'\n'也读进来了，如有需要就得我们手动去掉'\n'

        with open('test.txt', 'r') as f:

        list = f.readlines()

        for i in range(0, len(list)):

        list[i] = list[i].rstrip('\n')

写文件

1）写文件和读文件是一样的，唯一区别是open文件时，传入标识符不同，即'w'或者'wb'表示写文本文件或写二进制文件

    f = open('test.txt', 'w')

    f = open('test.txt', 'wb')

    f = open('test.txt', 'a')

f.close()

特别注意：

1. 如果没有这个文件，会自动创建一个新文件；如果有，就会先把原文件的内容清空再写入；若不想清空原来的内容而是直接在后面追加新的内容，就用'a'这个模式

2. 写文件，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。

  2）写文件 - write()、writelines()

  write()方法和read()、readline()方法对应，是将字符串写入到文件中。

    writelines()方法和readlines()方法对应，也是针对列表的操作。它接收一个字符串行表作为参数，将他们写入到文件中。

特别注意：

换行符不会自动的加入，需要显式的加入换行符。

  f = open('test.txt', 'w')

    f.writelines(["111\n", "222\n", "333\n"])

补充说明：

1）对于非默认编码(utf-8)的文件，需要open时添加encording参数，选择对应的编码方式

2）r+, w+, a+，可读可写

3）seek()方法，移动文件指针

seek(offset[, whence]) ，offset是相对于某个位置的偏移量。位置由whence决定，默认whence=0，从开头起；whence=1，从当前位置算起；whence=2相对于文件末尾移动，通常offset取负值。

‘玖’ Python 读写文件的编码与解码问题

演示文件为docx文档，内容如下：

源码

运行源码查看报错信息
UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence

上述错误是一种很常见的解码错误，下面介绍该错误的解决方法

把utf-8，gbk等各种编码方式都试了一遍，还是没有解决问题然后仔细看报错信息，根据UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte，猜测文件中某个字节不能解码，打开文件一看，并没有看出什么问题来

open() 函数的第三个参数不是用来野唯接收编码方式的，而磨脊信是传入一个buffering的值，此处传入了'gbk'字符串，所以系统提示传一个瞎轮整型

通过调用office的API进行操作，因为在office上能完成的操作，都能通过win32完成，所以我们选择使用win32
（Python3.5 需要安装 win32compat，里面含了 win32 的很多包）

‘拾’ Python读写文件时，遇到中文编码需要怎么处理

使用utf-8编码橡槐:

withopen("f.txt","r",encoding="utf-8")如扰ascode:
print(code.read())

#或者下渣如旦面这种:
f=open("f.txx","r",encoding="utf-8")
print(f.read())
f.close()

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1085

制作脚本网站发布：2025-10-20 08:17:34 浏览：1364

python中的init方法发布：2025-10-20 08:17:33 浏览：1050

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1225

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1092

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1444

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：653

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：548

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1223

python股票数据获取发布：2025-10-20 07:39:44 浏览：1246

python读取文件的编码

概述

解析

拓展内容

与python读取文件的编码相关的资讯