当前位置:首页 » 编程语言 » python提取链接

python提取链接

发布时间: 2023-10-23 12:48:54

㈠ 用python selenium提取网页中的所有<a>标签中的超级链接地址

提取所有链接应该用循环:

urls=driver.find_elements_by_xpath("//a")

forurlinurls:
print(url.get_attribute("href"))

如果get_attribute方法报错应该是没有找到a标签对象,如果确定是有的话,可能是页面加载比较慢还没加载出来,selenium默认是不会等待对象出现的,需要在找对象前加一些等待时间;另外如果页面上有iframe的话需要先切换进去才能找到里面的对象。

㈡ python中怎么把图中的图片链接提取出来并且下载链接对应的图片啊

你不已经提出出来了吗?
在做个下载,保存就行了。
req=request.get(img.get('src'))
picture=req.content
path=r'D:\ProgramData\picture.png'
with open(path,'wb') as f:
f.write(picture)

㈢ Python提取网页链接和标题

#coding=utf-8
importurllib

url="http://www..com/"
title=""
flag="<title>"
res=urllib.urlopen(url).readlines()
forlineinres:
ifflaginline:
start=line.find(flag)
end=line.find("</title>")
title=line[start+len(flag):end]
break
print"标题:",title

链接你自己对着标题的处理方法改改就行了

㈣ python怎么获取动态网页链接

四中方法:

'''
得到当前页面所有连接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 (DOM树)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium(要开浏览器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

㈤ Python提取网页链接和标题

提取所有链接应该用循环:
urls = driver.find_elements_by_xpath("//a")
for url in urls:
print(url.get_attribute("href"))如果get_attribute方法报错应该是没有找到a标签对象,如果确定是有的话,可能是页面加载比较慢还没加载出来,selenium默认是不会等待对象出现的,需要在找对象前加一些等待时间;另外如果页面上有iframe的话需要先切换进去才能找到里面的对象。

㈥ 写个python 爬虫怎么爬取一个网页上面发现的url链接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('网页源码',"html.parser")
bs.findAll('a')#查找所有的超链接
#具体方法可以参见官方文档

2.使用正则表达式

热点内容
c语言小程序游戏 发布:2025-08-17 18:23:09 浏览:795
ios今日头条源码 发布:2025-08-17 18:23:02 浏览:305
大众途安l和gl6配置哪个好点 发布:2025-08-17 18:16:26 浏览:220
搭建网狐数据库没有服务器 发布:2025-08-17 18:16:16 浏览:136
影视源码盗版 发布:2025-08-17 18:15:45 浏览:692
服务器怎么强制停止 发布:2025-08-17 18:15:44 浏览:524
爱奇艺如何更改密码 发布:2025-08-17 18:03:00 浏览:818
如何把文字变成密码 发布:2025-08-17 18:02:54 浏览:352
安卓刷机首页字母按哪个 发布:2025-08-17 17:59:07 浏览:583
c语言实现哈夫曼编码 发布:2025-08-17 17:54:50 浏览:48