當前位置:首頁 » 編程語言 » python提取鏈接

python提取鏈接

發布時間: 2023-10-23 12:48:54

㈠ 用python selenium提取網頁中的所有<a>標簽中的超級鏈接地址

提取所有鏈接應該用循環:

urls=driver.find_elements_by_xpath("//a")

forurlinurls:
print(url.get_attribute("href"))

如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

㈡ python中怎麼把圖中的圖片鏈接提取出來並且下載鏈接對應的圖片啊

你不已經提出出來了嗎?
在做個下載,保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)

㈢ Python提取網頁鏈接和標題

#coding=utf-8
importurllib

url="http://www..com/"
title=""
flag="<title>"
res=urllib.urlopen(url).readlines()
forlineinres:
ifflaginline:
start=line.find(flag)
end=line.find("</title>")
title=line[start+len(flag):end]
break
print"標題:",title

鏈接你自己對著標題的處理方法改改就行了

㈣ python怎麼獲取動態網頁鏈接

四中方法:

'''
得到當前頁面所有連接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 (DOM樹)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium(要開瀏覽器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

㈤ Python提取網頁鏈接和標題

提取所有鏈接應該用循環:
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法報錯應該是沒有找到a標簽對象,如果確定是有的話,可能是頁面載入比較慢還沒載入出來,selenium默認是不會等待對象出現的,需要在找對象前加一些等待時間;另外如果頁面上有iframe的話需要先切換進去才能找到裡面的對象。

㈥ 寫個python 爬蟲怎麼爬取一個網頁上面發現的url鏈接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('網頁源碼',"html.parser")
bs.findAll('a')#查找所有的超鏈接
#具體方法可以參見官方文檔

2.使用正則表達式

熱點內容
加密狗威步 發布:2025-08-17 09:40:51 瀏覽:135
月報的演算法 發布:2025-08-17 09:36:25 瀏覽:892
安卓版本10怎麼打開隱藏游戲 發布:2025-08-17 09:33:25 瀏覽:588
php獲取地址欄 發布:2025-08-17 09:31:59 瀏覽:120
燃料存儲檢查 發布:2025-08-17 09:30:45 瀏覽:678
怎麼取消qq漫遊密碼 發布:2025-08-17 09:24:53 瀏覽:456
linux微型 發布:2025-08-17 09:18:26 瀏覽:523
一個伺服器怎分為多台電腦 發布:2025-08-17 09:17:29 瀏覽:975
伺服器被入侵怎麼辦 發布:2025-08-17 09:12:29 瀏覽:56
python保存到excel 發布:2025-08-17 09:12:28 瀏覽:669