python讀取xml

發布時間: 2023-06-05 11:50:50

⑴ python如何讀取多個Xml文件

使用open函數打開一個文件，參數1：文件路徑；參數2：讀取方式；返回一個文件描述符。
例如: file=open('abc.txt','r');

讀取文件內容用read函數，無參數。
例如：file.read（）

如果想讀取多個則多open幾個文件即可。

⑵ Python讀取xml文件總是報錯，小白，求解答

這種一般直接看最後一行：
xml.parsers.expat.ExpatError: XML declaration not well-formed: line 1, column 20
XML聲明格式不正確，第1行第20列（第20個字元），你自己按這個信息去檢查。

⑶ 用python怎麼操作xml文件內容

一、什麼是xml？
xml即可擴展標記語言，它可以用來標記數據、定義數據類型，是一種允許用戶對自己的標記語言進行定義的源語言。
abc.xml

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

Ok ,從結構上，它很像我們常見的HTML超文本標記語言。但他們被設計的目的是不同的，超文本標記語言被設計用來顯示數據，其焦點是數據的外觀。它被設計用來傳輸和存儲數據，其焦點是數據的內容。
那麼它有如下特徵：
首先，它是有標簽對組成，<aa></aa>
標簽可以有屬性：<aa id='123'></aa>
標簽對可以嵌入數據：<aa>abc</aa>
標簽可以嵌入子標簽（具有層級關系）：
二、獲得標簽屬性
那麼，下面來介紹如何用python來讀取這種類型的文件。

復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
print root.nodeName
print root.nodeValue
print root.nodeType
print root.ELEMENT_NODE

mxl.dom.minidom 模塊被用來處理xml文件，所以要先引入。
xml.dom.minidom.parse() 用於打開一個xml文件，並將這個文件對象dom變數。
documentElement 用於得到dom對象的文檔元素，並把獲得的對象給root
每一個結點都有它的nodeName，nodeValue，nodeType屬性。
nodeName為結點名字。
nodeValue是結點的值，只對文本結點有效。
nodeType是結點的類型。catalog是ELEMENT_NODE類型
現在有以下幾種：
'ATTRIBUTE_NODE'
'CDATA_SECTION_NODE'
'COMMENT_NODE'
'DOCUMENT_FRAGMENT_NODE'
'DOCUMENT_NODE'
'DOCUMENT_TYPE_NODE'
'ELEMENT_NODE'
'ENTITY_NODE'
'ENTITY_REFERENCE_NODE'
'NOTATION_NODE'
'PROCESSING_INSTRUCTION_NODE'
'TEXT_NODE'

三、獲得子標簽
現在要獲得catalog的子標簽以的標簽name

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

對於知道元素名字的子元素，可以使用getElementsByTagName方法獲取：

復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
bb = root.getElementsByTagName('maxid')
b= bb[0]
print b.nodeName
bb = root.getElementsByTagName('login')
b= bb[0]
print b.nodeName

如何區分相同標簽名字的標簽：

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<caption>和<item>標簽不止一個如何區分？
復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
bb = root.getElementsByTagName('caption')
b= bb[2]
print b.nodeName
bb = root.getElementsByTagName('item')
b= bb[1]
print b.nodeName

root.getElementsByTagName('caption') 獲得的是標簽為caption 一組標簽，b[0]表示一組標簽中的第一個；b[2] ，表示這一組標簽中的第三個。
四、獲得標簽屬性值

復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<login>和<item>標簽是有屬性的，如何獲得他們的屬性？
復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
itemlist = root.getElementsByTagName('login')
item = itemlist[0]
un=item.getAttribute("username")
print un
pd=item.getAttribute("passwd")
print pd
ii = root.getElementsByTagName('item')
i1 = ii[0]
i=i1.getAttribute("id")
print i
i2 = ii[1]
i=i2.getAttribute("id")
print i

getAttribute方法可以獲得元素的屬性所對應的值。
五、獲得標簽對之間的數據
復制代碼代碼如下:

<?xml version="1.0" encoding="utf-8"?>
<catalog>
<maxid>4</maxid>
<login username="pytest" passwd='123456'>
<caption>Python</caption>
<item id="4">
<caption>測試</caption>
</item>
</login>
<item id="2">
<caption>Zope</caption>
</item>
</catalog>

<caption>標簽對之間是有數據的，如何獲得這些數據？
獲得標簽對之間的數據有多種方法，
方法一：

復制代碼代碼如下:

#coding=utf-8
import xml.dom.minidom
#打開xml文檔
dom = xml.dom.minidom.parse('abc.xml')
#得到文檔元素對象
root = dom.documentElement
cc=dom.getElementsByTagName('caption')
c1=cc[0]
print c1.firstChild.data
c2=cc[1]
print c2.firstChild.data
c3=cc[2]
print c3.firstChild.data

firstChild 屬性返回被選節點的第一個子節點，.data表示獲取該節點人數據。
方法二：

復制代碼代碼如下:

#coding=utf-8
from xml.etree import ElementTree as ET
per=ET.parse('abc.xml')
p=per.findall('./login/item')
for oneper in p:
for child in oneper.getchildren():
print child.tag,':',child.text

p=per.findall('./item')
for oneper in p:
for child in oneper.getchildren():
print child.tag,':',child.text

方法二有點復雜，所引用模塊也與前面的不一樣，findall用於指定在哪一級標簽下開始遍歷。
getchildren方法按照文檔順序返回所有子標簽。並輸出標簽名（child.tag）和標簽的數據（child.text）
其實，方法二的作用不在於此，它核心功能是可以遍歷某一級標簽下的所有子標簽。

⑷ python讀取xml文件報錯ValueError: multi-byte encodings are not supported

問題在使用python對xml文件進行讀取時，提示ValueError: multi-byte encodings are not supported

xml是用gb2312編碼的。

很多貼子上說把xml的編碼格式改為utf-8，就可以正常執行了。

但是這里有一個問題，xml原先的編碼格式和encoding欄位顯示的編碼格式都是gb2312，如果只改了encoding欄位，之後再使用這個xml文件，就會按utf-8解析gb2312，會造成不可預知的後果。
第二個問題就是指改一個xml文件還好，但是有幾百上千的時候，改這個就不方便了。
解決方案 用parseString函數
python提供了兩種xml的輸入方式，一種是文件，一種是字元串。我們可以先將xml文件讀入內存，然後關閉文件。再將xml字元串中的gb2312用replace改為utf-8，然後用parseString解析，這樣就不會報錯。

注意事項 如果文件過大，有可能內存不夠，所以適用於小的xml文件。注意要把不使用的文件給close掉，以免佔用文件描述符。

⑸ 用python讀取xml<></>之間的內容並修改

python是有相關的解析html格式的模塊的

可以識別出標簽，簡單的處理文件你可以用Beautiful Soup模塊，想做大一些的爬蟲可以使用scrapy框架的xpath語法來鎖定標簽。

這里引用下官方說明：

Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱，通過解析文檔為用戶提供需要抓取的數據，因為簡單，所以不需要多少代碼就可以寫出一個完整的應用程序。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器，為用戶靈活地提供不同的解析策略或強勁的速度。

因此可以很方便地提取出HTML或XML標簽中的內容

給你個樣例：

frombs4importBeautifulSoup
importurllib2

html=urllib2.urlopen(url).read()#這里是直接爬取一個網址了，html變數也可以是一個本地的文件
content=BeautifulSoup(html).findAll('a')#使用這句就可以提取出文件中所有的<a></a>中的內容

"""模塊還支持很多路徑索引修改相關的功能，總之功能是比較強大的"""

希望我的回答可以幫到你：-）

⑹ python讀取xml文件有哪些方法

1、以下幾種方法建議初學者使用：

xml.etree.ElementTree
xml.dom
xml.dom.minidom
xml.dom.pulldom
xml.parsers.expat
其中，第一個模塊更加輕便簡介，對於簡單的xml文檔，推薦使用

下面的方法涉及知識比較多，熟練掌握上面方法後可以了解使用：

2、Dom讀取

3、Dom4j讀取
使用dom4j需要導入相關的jar包

import java.io.File;
import java.util.Iterator;
import java.util.List;

4、JDom讀取
使用jdom需要導入相關的jar包

import java.io.FileInputStream;

import java.io.InputStream;

5、Sax讀取

6、properties的讀取

⑺ 求大神指教：如何用python讀取xml文件中指定標簽的文檔內容並將其修改最好寫下詳細代碼，非常感謝哈！

使用python自帶的ElementTree模塊，給你個例子你就知道了

xml文檔
<?xml version="1.0" encoding="utf-8"?>
<config>
<id>0</id>
<log_path>E:/Python</log_path>
</config>

Python 代碼，修改id節的內容

from xml.etree import ElementTree
xml_file='config.xml'
xml=ElementTree.ElementTree(file=xml_file).getroot()
xml.find('id').text=1

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1084

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1362

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1047

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1223

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1090

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1442

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：648

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：545

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1221

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1244

python讀取xml

與python讀取xml相關的資訊