pythonhtml解析

發布時間: 2022-09-24 02:30:30

A. python怎麼安裝lxml html 解析器

lxml是Python中與XML及HTML相關功能中最豐富和最容易使用的庫。lxml並不是Python自帶的包，而是為libxml2和libxslt庫的一個Python化的綁定。它與眾不同的地方是它兼顧了這些庫的速度和功能完整性，以及純Python API的簡潔性，與大家熟知的ElementTree API兼容但比之更優越！但安裝lxml卻又有點麻煩，因為存在依賴，直接安裝的話用easy_install, pip都不能成功，會報gcc錯誤。下面列出來Windows、Linux下面的安裝方法:
【Windows系統】
先確保Python已經安裝好，環境變數也配置好了，相應的的easy_install、pip也安裝好了.
1. 執行 pip install virtualenv
[python] view plain print?
C:\>pip install virtualenv
Requirement already satisfied (use --upgrade to upgrade): virtualenv in c:\python27\lib\site-package
s\virtualenv-12.0.4-py2.7.egg
2. 從官方網站下載與系統，Python版本匹配的lxml文件：
http //pypi.python.org/pypi/lxml/2.3/
NOTE:
比如說我的電腦是Python 2.7.4, 64位操作系統，那麼我就可以下載
[python] view plain print?
lxml-2.3-py2.7-win-amd64.egg (md5) # Python Egg
或
lxml-2.3.win-amd64-py2.7.exe (md5) # MS Windows installer
3. 執行 easy_install lxml-2.3-py2.7-win-amd64.egg
[python] view plain print?
D:\Downloads>easy_install lxml-2.3-py2.7-win-amd64.egg # 進入該文件所在目錄執行該命令
Processing lxml-2.3-py2.7-win-amd64.egg
creating c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Extracting lxml-2.3-py2.7-win-amd64.egg to c:\python27\lib\site-packages
Adding lxml 2.3 to easy-install.pth file
Installed c:\python27\lib\site-packages\lxml-2.3-py2.7-win-amd64.egg
Processing dependencies for lxml==2.3
Finished processing dependencies for lxml==2.3
NOTE:
1. 可用exe可執行文件，方法更簡單直接安裝就可以
2. 可用easy_install安裝方式，也可以用pip的方式
[python] view plain print?
#再執行下，就安裝成功了！
>>> import lxml
>>>
3. 如用pip安裝，常用命令就是:
pip install simplejson # 安裝Python包
pip install --upgrade simplejson # 升級Python包
pip uninstall simplejson # 卸載Python包
4. 如用Eclipse+Pydev的開發方式，需要移除舊包，重新載入一次
Window --> Preferences --> PyDev --> Interperter-python # 否則導包的時候會報錯
【Linux系統】
因為lxml依賴的包如下:
libxml2, libxml2-devel, libxlst, libxlst-devel, python-libxml2, python-libxslt
所以安裝步驟如下:
第一步: 安裝 libxml2
$ sudo apt-get install libxml2 libxml2-dev
第二步: 安裝 libxslt
$ sudo apt-get install libxlst libxslt-dev
第三步: 安裝 python-libxml2 和 python-libxslt
$ sudo apt-get install python-libxml2 python-libxslt
第四步: 安裝 lxml
$ sudo easy_install lxml

B. Python自帶的HTMLParser解析HTML時，怎麼把取出Form下所有是hidden的input

HTMLParser好像不是個很好的解決方案吧，他本來就有很多缺陷，而且他也是基於正則匹配的。

你還不如自己寫個正則匹配去匹配所有input，type是hidden的。

要麼就用Beautiful Soup，這個也不用安裝，直接用就可以了。

C. Python編寫一個程序以嘗試解析XML/HTML標簽.

要給這段文字添加一個 root 標簽，然後對裡面的 node 進行遍歷。root 標簽的名字可以任意定（但是必須添加一個），我這里使用的 root 命名，對於其它的名字也一樣。如果你是直接讀取的 XML 文件，而不是字元串，可以將文件打開，然後把文件句柄傳入 ElementTree.parse() 函數，最後對其返回值進行遍歷。

fromxml.etreeimportElementTree
parsed=ElementTree.XML('''<root>
<composer>WolfgangAmadeusMozart</composer><author>SamuelBeckett</author><city>London</city>
</root>''')
outstr=[]
fornodeinparsed:
outstr+=['%s:%s'%(node.tag,node.text)]
print(''.join(outstr))

D. python 解析html 什麼包好

對html的解析是網頁抓取的基礎，分析抓取的結果找到自己想要的內容或標簽以達到抓取的目的。
HTMLParser是python用來解析html的模塊。它可以分析出html裡面的標簽、數據等等，是一種處理html的簡便途徑。 HTMLParser採用的是一種事件驅動的模式，當HTMLParser找到一個特定的標記時，它會去調用一個用戶定義的函數，以此來通知程序處理。它主要的用戶回調函數的命名都是以handler_開頭的，都是HTMLParser的成員函數。當我們使用時，就從HTMLParser派生出新的類，然後重新定義這幾個以handler_開頭的函數即可。這幾個函數包括：
handle_startendtag 處理開始標簽和結束標簽
handle_starttag 處理開始標簽，比如<xx> tag不區分大小寫

handle_endtag 處理結束標簽，比如</xx>
handle_charref 處理特殊字元串，就是以&#開頭的，一般是內碼表示的字元
handle_entityref 處理一些特殊字元，以&開頭的，比如
handle_data 處理數據，就是<xx>data</xx>中間的那些數據
handle_comment 處理注釋
handle_decl 處理<!開頭的，比如<!DOCTYPE html PUBLIC 「-//W3C//DTD HTML 4.01 Transitional//EN」
handle_pi 處理形如<?instruction>的東西
def handle_starttag(self,tag,attr):
#注意：tag不區分大小寫，此時也可以解析 <A 標簽
# SGMLParser 會在創建attrs 時將屬性名轉化為小寫。

if tag=='a':
for href,link in attr:
if href.lower()=="href":
pass

1. 基本解析，找到開始和結束標簽

[python] view plain
<span style="font-size:18px;">#coding:utf-8

from HTMLParser import HTMLParser
'''''
HTMLParser的成員函數:

handle_startendtag 處理開始標簽和結束標簽
handle_starttag 處理開始標簽，比如<xx>
handle_endtag 處理結束標簽，比如</xx>
handle_charref 處理特殊字元串，就是以&#開頭的，一般是內碼表示的字元
handle_entityref 處理一些特殊字元，以&開頭的，比如
handle_data 處理數據，就是<xx>data</xx>中間的那些數據
handle_comment 處理注釋
handle_decl 處理<!開頭的，比如<!DOCTYPE html PUBLIC 「-//W3C//DTD HTML 4.01 Transitional//EN」
handle_pi 處理形如<?instruction>的東西

'''
class myHtmlParser(HTMLParser):
#處理<!開頭的內容
def handle_decl(self,decl):
print 'Encounter some declaration:'+ decl
def handle_starttag(self,tag,attrs):
print 'Encounter the beginning of a %s tag' % tag
def handle_endtag(self,tag):
print 'Encounter the end of a %s tag' % tag
#處理注釋
def handle_comment(self,comment):
print 'Encounter some comments:' + comment

if __name__=='__main__':
a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\
<html><head><title>test</title><body><a href="http: //www.163.com">鏈接到163</a></body></html>'
m=myHtmlParser()
m.feed(a)
m.close()

輸出結果：

Encounter some declaration:DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"
Encounter the beginning of a html tag
Encounter the beginning of a head tag
Encounter some comments:insert javaScript here!
Encounter the beginning of a title tag
Encounter the end of a title tag
Encounter the beginning of a body tag
Encounter the beginning of a a tag
Encounter the end of a a tag
Encounter the end of a body tag
Encounter the end of a html tag</span>

E. python 對html解析時怎麼判斷標簽內的標簽是否存在然後獲取父標簽

想不到好辦法。
exp=re.compile("(?is)<a\s+href=\"([^\"]+)\"[^>]*>(?:(?:</em>)|(?:</a>))(?<=<em>[^<]+)"
試試這個。

F. Python html 模塊簡介

比如：

比如，數學符號，，可以直接獲得：

escape 將特殊字元＆， < 和 > 替換為HTML安全序列。如果可選的 flags quote 為 True （默認值），則還會翻譯引號字元，包括雙引號（ " ）和單引號（ ' ）字元。

將字元串 s 中的所有命名和數字字元引用 (例如 > , > , > ) 轉換為相應的 Unicode 字元。此函數使用 HTML 5 標准為有效和無效字元引用定義的規則，以及 HTML 5 命名字元引用列表。

這個模塊定義了一個 HTMLParser 類，為 HTML（超文本標記語言）和 XHTML 文本文件解析提供基礎。

class html.parser.HTMLParser(*, convert_charrefs=True) 創建一個能解析無效標記的解析器實例。查找標簽（tags）和其他標記（markup）並調用 handler 函數。

用法：

通過調用 self.handle_starttag 處理開始標簽，或通過調用 self.handle_startendtag 處理結束標簽。標簽之間的數據通過以 data 為參數調用 self.handle_data 從解析器傳遞到派生類（數據可以分成任意塊）。如果 convert_charrefs 為 True ，則將字元引用自動轉換為相應的 Unicode 字元（並且 self.handle_data 不再拆分成塊），否則通過調用帶有字元串的 self.handle_entityref 或 self.handle_charref 來傳遞它們以分別包含命名或數字引用作為參數。如果 convert_charrefs 為 True (默認值)，則所有字元引用( script / style 元素中的除外)都會自動轉換為相應的 Unicode 字元。

一個 HTMLParser 類的實例用來接受 HTML 數據，並在標記開始、標記結束、文本、注釋和其他元素標記出現的時候調用對應的方法。要實現具體的行為，請使用 HTMLParser 的子類並重載其方法。

這個解析器不檢查結束標記是否與開始標記匹配，也不會因外層元素完畢而隱式關閉了的元素引發結束標記處理。

下面是簡單的 HTML 解析器的一個基本示例，使用 HTMLParser 類，當遇到開始標記、結束標記以及數據的時候將內容列印出來。

輸出：

HTMLParser.reset() 重置實例。丟失所有未處理的數據。在實例化階段被隱式調用。

HTMLParser.feed(data) 填充一些文本到解析器中。如果包含完整的元素，則被處理；如果數據不完整，將被緩沖直到更多的數據被填充，或者 close() 被調用。 data 必須為 str 類型。

HTMLParser.close() 如同後面跟著一個文件結束標記一樣，強制處理所有緩沖數據。這個方法能被派生類重新定義，用於在輸入的末尾定義附加處理，但是重定義的版本應當始終調用基類 HTMLParser 的 close() 方法。

HTMLParser.getpos() 返回當前行號和偏移值。

HTMLParser.get_starttag_text() 返回最近打開的開始標記中的文本。結構化處理時通常應該不需要這個，但在處理「已部署」的 HTML 或是在以最小改變來重新生成輸入時可能會有用處（例如可以保留屬性間的空格等）。

下列方法將在遇到數據或者標記元素的時候被調用。他們需要在子類中重載。基類的實現中沒有任何實際操作（除了 handle_startendtag() ）：

HTMLParser.handle_starttag 這個方法在標簽開始的時候被調用（例如： <div id="main"> ）。 tag 參數是小寫的標簽名。 attrs 參數是一個 (name, value) 形式的列表，包含了所有在標記的 <> 括弧中找到的屬性。 name 轉換為小寫， value 的引號被去除，字元和實體引用都會被替換。比如，對於標簽 <a href="https://www.cwi.nl/"> ，這個方法將以下列形式被調用 handle_starttag('a', [('href', 'https://www.cwi.nl/')]) 。 html.entities 中的所有實體引用，會被替換為屬性值。

HTMLParser.handle_endtag(tag) 此方法被用來處理元素的結束標記（例如： </div> ）。 tag 參數是小寫的標簽名。

HTMLParser.handle_startendtag(tag, attrs) 類似於 handle_starttag() , 只是在解析器遇到 XHTML 樣式的空標記時被調用（ <tag ... /> ）。這個方法能被需要這種特殊詞法信息的子類重載；默認實現僅簡單調用 handle_starttag() 和 handle_endtag() 。

HTMLParser.handle_data(data) 這個方法被用來處理任意數據（例如：文本節點和 <script>...</script> 以及 <style>...</style> 中的內容）。

HTMLParser.handle_entityref(name) 這個方法被用於處理 &name; 形式的命名字元引用（例如 > ），其中 name 是通用的實體引用（例如： 'gt' ）。如果 convert_charrefs 為 True，該方法永遠不會被調用。

HTMLParser.handle_charref(name) 這個方法被用來處理 &#NNN; 和 &#xNNN; 形式的十進制和十六進制字元引用。例如， > 等效的十進制形式為 > ，而十六進制形式為 > ；在這種情況下，方法將收到 '62' 或 'x3E' 。如果 convert_charrefs 為 True ，則該方法永遠不會被調用。

HTMLParser.handle_comment(data) 這個方法在遇到注釋的時候被調用（例如：）。例如，這個注釋會用 ' comment ' 作為參數調用此方法。

Internet Explorer 條件注釋（condcoms）的內容也被發送到這個方法，因此，對於 ``，這個方法將接收到 '[if IE 9]>IE9-specific content<![endif]' 。

HTMLParser.handle_decl(decl) 這個方法用來處理 HTML doctype 申明（例如 <!DOCTYPE html> ）。 decl 形參為 <!...> 標記中的所有內容（例如： 'DOCTYPE html' ）。

HTMLParser.handle_pi(data) 此方法在遇到處理指令的時候被調用。 data 形參將包含整個處理指令。例如，對於處理指令 <?proc color='red'> ，這個方法將以 handle_pi("proc color='red'") 形式被調用。它旨在被派生類重載；基類實現中無任何實際操作。

註解： HTMLParser 類使用 SGML 語法規則處理指令。使用 '?' 結尾的 XHTML 處理指令將導致 '?' 包含在 data 中。

HTMLParser.unknown_decl(data) 當解析器讀到無法識別的聲明時，此方法被調用。 data 形參為 <![...]> 標記中的所有內容。某些時候對派生類的重載很有用。基類實現中無任何實際操作。

因此，我們可以如此定義：

下面介紹如何解析 HTML 文檔。

解析一個文檔類型聲明：

解析一個具有一些屬性和標題的元素：

script 和 style 元素中的內容原樣返回，無需進一步解析：

解析注釋：

解析命名或數字形式的字元引用，並把他們轉換到正確的字元（注意：這 3 種轉義都是 '>' ）：

填充不完整的塊給 feed() 執行， handle_data() 可能會多次調用（除非 convert_charrefs 被設置為 True ）：

解析無效的 HTML (例如：未引用的屬性）也能正常運行：

G. Python解析html出錯

自然是文件編碼的問題，文件讀取utf-8格式，建議使用codecs模塊,不用安裝，直接import就行，使用fp = codecs.open(filename,'r','utf-8')讀取utf-8編碼文件，python自帶的open是默認gbk的。此外，建議文件都使用utf-8格式，gbk實在是windows的遺留問題，utf-8本來可以一統天下，就是windows一直不改，才使得windows下文件編碼一直很麻煩。

H. python解析html時解析不到不到網頁源碼中script下面的信息

import re
s= '<script>var j,l; </script>'
m = re.search("<script>(.*?)</script>", s)
print m.group(1)
>>>
var j,l;
>>>

I. python 對HTML解碼時出錯

>>> import urllib.request
>>> response = urllib.request.urlopen('h)
>>> html = response.read()
>>> print(html.decode('utf-8'))

J. python使用BeautifulSoup解析html出現的問題

用這兩個參數：findAll('div',{'class':'content'})

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1051

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1333

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1014

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1193

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1063

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1417

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：627

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：520

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1192

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1198

pythonhtml解析

與pythonhtml解析相關的資訊