python读取xml

发布时间: 2023-06-05 11:50:50

⑴ python如何读取多个Xml文件

使用open函数打开一个文件，参数1：文件路径；参数2：读取方式；返回一个文件描述符。
例如: file=open('abc.txt','r');

读取文件内容用read函数，无参数。
例如：file.read（）

如果想读取多个则多open几个文件即可。

⑵ Python读取xml文件总是报错，小白，求解答

这种一般直接看最后一行：
xml.parsers.expat.ExpatError: XML declaration not well-formed: line 1, column 20
XML声明格式不正确，第1行第20列（第20个字符），你自己按这个信息去检查。

⑶ 用python怎么操作xml文件内容

一、什么是xml？
xml即可扩展标记语言，它可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。
abc.xml

复制代码代码如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

Ok ,从结构上，它很像我们常见的HTML超文本标记语言。但他们被设计的目的是不同的，超文本标记语言被设计用来显示数据，其焦点是数据的外观。它被设计用来传输和存储数据，其焦点是数据的内容。
那么它有如下特征：
首先，它是有标签对组成，<aa></aa>
标签可以有属性：<aa id='123'></aa>
标签对可以嵌入数据：<aa>abc</aa>
标签可以嵌入子标签（具有层级关系）：
二、获得标签属性
那么，下面来介绍如何用python来读取这种类型的文件。

复制代码代码如下:

#coding=utf-8
import xml.dom.minidom
#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')
#得到文档元素对象
root = dom.documentElement
print root.nodeName
print root.nodeValue
print root.nodeType
print root.ELEMENT_NODE

mxl.dom.minidom 模块被用来处理xml文件，所以要先引入。
xml.dom.minidom.parse() 用于打开一个xml文件，并将这个文件对象dom变量。
documentElement 用于得到dom对象的文档元素，并把获得的对象给root
每一个结点都有它的nodeName，nodeValue，nodeType属性。
nodeName为结点名字。
nodeValue是结点的值，只对文本结点有效。
nodeType是结点的类型。catalog是ELEMENT_NODE类型
现在有以下几种：
'ATTRIBUTE_NODE'
'CDATA_SECTION_NODE'
'COMMENT_NODE'
'DOCUMENT_FRAGMENT_NODE'
'DOCUMENT_NODE'
'DOCUMENT_TYPE_NODE'
'ELEMENT_NODE'
'ENTITY_NODE'
'ENTITY_REFERENCE_NODE'
'NOTATION_NODE'
'PROCESSING_INSTRUCTION_NODE'
'TEXT_NODE'

三、获得子标签
现在要获得catalog的子标签以的标签name

复制代码代码如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

对于知道元素名字的子元素，可以使用getElementsByTagName方法获取：

复制代码代码如下:

#coding=utf-8
import xml.dom.minidom
#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')
#得到文档元素对象
root = dom.documentElement
bb = root.getElementsByTagName('maxid')
b= bb[0]
print b.nodeName
bb = root.getElementsByTagName('login')
b= bb[0]
print b.nodeName

如何区分相同标签名字的标签：

复制代码代码如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<caption>和<item>标签不止一个如何区分？
复制代码代码如下:

#coding=utf-8
import xml.dom.minidom
#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')
#得到文档元素对象
root = dom.documentElement
bb = root.getElementsByTagName('caption')
b= bb[2]
print b.nodeName
bb = root.getElementsByTagName('item')
b= bb[1]
print b.nodeName

root.getElementsByTagName('caption') 获得的是标签为caption 一组标签，b[0]表示一组标签中的第一个；b[2] ，表示这一组标签中的第三个。
四、获得标签属性值

复制代码代码如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<login>和<item>标签是有属性的，如何获得他们的属性？
复制代码代码如下:

#coding=utf-8
import xml.dom.minidom
#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')
#得到文档元素对象
root = dom.documentElement
itemlist = root.getElementsByTagName('login')
item = itemlist[0]
un=item.getAttribute("username")
print un
pd=item.getAttribute("passwd")
print pd
ii = root.getElementsByTagName('item')
i1 = ii[0]
i=i1.getAttribute("id")
print i
i2 = ii[1]
i=i2.getAttribute("id")
print i

getAttribute方法可以获得元素的属性所对应的值。
五、获得标签对之间的数据
复制代码代码如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>测试</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<caption>标签对之间是有数据的，如何获得这些数据？
获得标签对之间的数据有多种方法，
方法一：

复制代码代码如下:

#coding=utf-8
import xml.dom.minidom
#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')
#得到文档元素对象
root = dom.documentElement
cc=dom.getElementsByTagName('caption')
c1=cc[0]
print c1.firstChild.data
c2=cc[1]
print c2.firstChild.data
c3=cc[2]
print c3.firstChild.data

firstChild 属性返回被选节点的第一个子节点，.data表示获取该节点人数据。
方法二：

复制代码代码如下:

#coding=utf-8
from xml.etree import ElementTree as ET
per=ET.parse('abc.xml')
p=per.findall('./login/item')
for oneper in p:
for child in oneper.getchildren():
print child.tag,':',child.text

p=per.findall('./item')
for oneper in p:
for child in oneper.getchildren():
print child.tag,':',child.text

方法二有点复杂，所引用模块也与前面的不一样，findall用于指定在哪一级标签下开始遍历。
getchildren方法按照文档顺序返回所有子标签。并输出标签名（child.tag）和标签的数据（child.text）
其实，方法二的作用不在于此，它核心功能是可以遍历某一级标签下的所有子标签。

⑷ python读取xml文件报错ValueError: multi-byte encodings are not supported

问题在使用python对xml文件进行读取时，提示ValueError: multi-byte encodings are not supported

xml是用gb2312编码的。

很多贴子上说把xml的编码格式改为utf-8，就可以正常执行了。

但是这里有一个问题，xml原先的编码格式和encoding字段显示的编码格式都是gb2312，如果只改了encoding字段，之后再使用这个xml文件，就会按utf-8解析gb2312，会造成不可预知的后果。
第二个问题就是指改一个xml文件还好，但是有几百上千的时候，改这个就不方便了。
解决方案 用parseString函数
python提供了两种xml的输入方式，一种是文件，一种是字符串。我们可以先将xml文件读入内存，然后关闭文件。再将xml字符串中的gb2312用replace改为utf-8，然后用parseString解析，这样就不会报错。

注意事项 如果文件过大，有可能内存不够，所以适用于小的xml文件。注意要把不使用的文件给close掉，以免占用文件描述符。

⑸ 用python读取xml<></>之间的内容并修改

python是有相关的解析html格式的模块的

可以识别出标签，简单的处理文件你可以用Beautiful Soup模块，想做大一些的爬虫可以使用scrapy框架的xpath语法来锁定标签。

这里引用下官方说明：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

因此可以很方便地提取出HTML或XML标签中的内容

给你个样例：

frombs4importBeautifulSoup
importurllib2

html=urllib2.urlopen(url).read()#这里是直接爬取一个网址了，html变量也可以是一个本地的文件
content=BeautifulSoup(html).findAll('a')#使用这句就可以提取出文件中所有的<a></a>中的内容

"""模块还支持很多路径索引修改相关的功能，总之功能是比较强大的"""

希望我的回答可以帮到你：-）

⑹ python读取xml文件有哪些方法

1、以下几种方法建议初学者使用：

xml.etree.ElementTree
xml.dom
xml.dom.minidom
xml.dom.pulldom
xml.parsers.expat
其中，第一个模块更加轻便简介，对于简单的xml文档，推荐使用

下面的方法涉及知识比较多，熟练掌握上面方法后可以了解使用：

2、Dom读取

3、Dom4j读取
使用dom4j需要导入相关的jar包

import java.io.File;
import java.util.Iterator;
import java.util.List;

4、JDom读取
使用jdom需要导入相关的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax读取

6、properties的读取

⑺ 求大神指教：如何用python读取xml文件中指定标签的文档内容并将其修改最好写下详细代码，非常感谢哈！

使用python自带的ElementTree模块，给你个例子你就知道了

xml文档
<?xml version="1.0" encoding="utf-8"?>
<config>
<id>0</id>
<log_path>E:/Python</log_path>
</config>

Python 代码，修改id节的内容

from xml.etree import ElementTree
xml_file='config.xml'
xml=ElementTree.ElementTree(file=xml_file).getroot()
xml.find('id').text=1

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1084

制作脚本网站发布：2025-10-20 08:17:34 浏览：1362

python中的init方法发布：2025-10-20 08:17:33 浏览：1047

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1223

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1090

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1442

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：648

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：545

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1221

python股票数据获取发布：2025-10-20 07:39:44 浏览：1244

python读取xml

与python读取xml相关的资讯