當前位置:首頁 » 編程語言 » python獲取url

python獲取url

發布時間: 2022-06-06 17:06:06

python爬蟲怎麼獲取下一頁的URL和網頁內容

用瀏覽器調試工具,如firebug,查看點擊下一頁時的http請求,再用python模擬就行了。

② python爬蟲怎麼獲取下一頁的url

用瀏覽器調試工具,如firebug
查看點擊下一頁時的http請求,再用python模擬就行了。

③ python里怎麼獲得一個url最後一個/後的字元串

1、python處理字元串非常簡單,獲取url最後一個/之後的字元串,使用字元串函數rindex得到最後一個/位置,然後再對url字元串進行切片就可以得到url最後一個/後的字元串
2、代碼:
url = 'http://..com/question/1242758094522051179.html'
ri = url.rindex('/')
ss = url[ri + 1:]
print(ss)
3、輸出果:
1242758094522051179.html
4、函數說明:
rindex(...)

S.rindex(sub[,
start[,
end]])
->
int

從字元串右則查找指字元串,sub要查找了內容,start起始位置,end結束位置,函數返回位置。
5、字元串切片說明:
str[start:end]
獲取字元串以start開始位置end位置之前的字元結束的字元,如果start為空為從字元串起始開始,如果end為空則到字元串末尾。以示例中代碼為例url[ri
+
1:]就是取url中ri+1位置到url結尾的子字元串。

④ 如下一串字元串,用python怎樣提取其中的url,並放到列表中

re.findall(r'https?:[a-zA-Z./d]+',url)

⑤ 如何python獲取sql資料庫訪問的url

python
操作資料庫,要安裝一個Python和資料庫交互的包MySQL-python-1.2.2.win32-py2.5.exe,然後我們就可以使用MySQLdb這個包進行資料庫操作了。

操作步驟如下:
1、建立資料庫連接
import
MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="sa",db="mytable")
cursor=conn.cursor()
2、執行資料庫操作
n=cursor.execute(sql,param)
我們要使用連接對象獲得一個cursor對象,接下來,我們會使用cursor提供的方法來進行工作.
這些方法包括兩大類:1.執行命令,2.接收返回值

3、cursor用來執行命令的方法:

callproc(self, procname,
args):用來執行存儲過程,接收的參數為存儲過程名和參數列表,返回值為受影響的行數
execute(self, query,
args):執行單條sql語句,接收的參數為sql語句本身和使用的參數列表,返回值為受影響的行數
executemany(self, query,
args):執行單挑sql語句,但是重復執行參數列表裡的參數,返回值為受影響的行數

nextset(self):移動到下一個結果集

4、cursor用來接收返回值的方法:


fetchall(self):接收全部的返回結果行.
fetchmany(self,
size=None):接收size條返回結果行.如果size的值大於返回的結果行的數量,則會返回cursor.arraysize條數據.

fetchone(self):返回一條結果行.
scroll(self, value,
mode='relative'):移動指針到某一行.如果mode='relative',則表示從當前所在行移動value條,如果mode='absolute',則表示從結果集的第一
行移動value條.

5、下面的代碼是一個完整的例子.

#使用sql語句,這里要接收的參數都用%s佔位符.要注意的是,無論你要插入的數據是什麼類型,佔位符永遠都要用%s
sql="insert
into cdinfo values(%s,%s,%s,%s,%s)"
#param應該為tuple或者list
param=(title,singer,imgurl,url,alpha)
#執行,如果成功,n的值為1
n=cursor.execute(sql,param)
#再來執行一個查詢的操作
cursor.execute("select
* from cdinfo")
#我們使用了fetchall這個方法.這樣,cds里保存的將會是查詢返回的全部結果.每條結果都是一個tuple類型的數據,這些tuple組成了一個tuple
cds=cursor.fetchall()
#因為是tuple,所以可以這樣使用結果集
print
cds[0][3]
#或者直接顯示出來,看看結果集的真實樣子
print
cds
#如果需要批量的插入數據,就這樣做
sql="insert
into cdinfo values(0,%s,%s,%s,%s,%s)"
#每個值的集合為一個tuple,整個參數集組成一個tuple,或者list
param=((title,singer,imgurl,url,alpha),(title2,singer2,imgurl2,url2,alpha2))
#使用executemany方法來批量的插入數據.這真是一個很酷的方法!
n=cursor.executemany(sql,param)
需要注意的是(或者說是我感到奇怪的是),在執行完插入或刪除或修改操作後,需要調用一下conn.commit()方法進行提交.這樣,數據才會真正保
存在資料庫中.我不清楚是否是我的mysql設置問題,總之,今天我在一開始使用的時候,如果不用commit,那數據就不會保留在資料庫中,但是,數據
確實在資料庫呆過.因為自動編號進行了累積,而且返回的受影響的行數並不為0.

6、關閉資料庫連接

需要分別的關閉指針對象和連接對象.他們有名字相同的方法
cursor.close()
conn.close()

Django操作資料庫
django是一個出色的用於python的web框架。django連接有操作資料庫的api,使用起來十分簡潔。我們在settings.py中配置好所要連接的資料庫,然後在moles、view、urls中分別寫好業務邏輯

⑥ python爬蟲怎麼獲取到的網站的所有url

首先我們可以先獲取要下載圖片的整個頁面信息。
getjpg.py
#coding=utf-8
import
urllib
def
getHtml(url):
page
=
urllib.urlopen(url)
html
=
page.read()
return
html
print
html
Urllib
模塊提供了讀取web頁面數據的介面,我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先,我們定義了一個getHtml()函數:
urllib.urlopen()方法用於打開一個URL地址。
read()方法用於讀取URL上的數據,向getHtml()函數傳遞一個網址,並把整個頁面下載下來。執行程序就會把整個網頁列印輸出。

⑦ python 如何獲取url信息

importweb

defmake_text(string):
returnstring

urls=('/','tutorial')
render=web.template.render('templates/')

app=web.application(urls,globals())

my_form=web.form.Form(
web.form.Textbox('',class_='textfield',id='textfield'),
)

classtutorial:
defGET(self):
form=my_form()
returnrender.tutorial(form,"Yourtextgoeshere.")

defPOST(self):
form=my_form()
form.validates()
s=form.value['textfield']
returnmake_text(s)

if__name__=='__main__':
app.run()

⑧ python爬取網頁信息,怎麼獲取到網頁的真實URL

首先要知道這個url是用get還是post方法,然後看看請求頭或者url有沒有攜帶什麼會產生變化的數據,你單獨請求ajax頁面的時候是要帶上這些數據的。

⑨ python怎麼獲取動態網頁鏈接

四中方法:

'''
得到當前頁面所有連接
'''

import requests

import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver

url = 'http://www.ok226.com'
r = requests.get(url)
r.encoding = 'gb2312'

# 利用 re
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)
for link in matchs:
print(link)

print()

# 利用 BeautifulSoup4 (DOM樹)
soup = BeautifulSoup(r.text,'lxml')
for a in soup.find_all('a'):
link = a['href']
print(link)

print()

# 利用 lxml.etree (XPath)
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
print(link)

print()

# 利用selenium(要開瀏覽器!)
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
print(link.get_attribute("href"))
driver.close()

熱點內容
路由器無線密碼從哪裡看 發布:2024-04-30 13:41:07 瀏覽:763
安卓由哪個公司提供 發布:2024-04-30 12:27:03 瀏覽:416
伺服器2個cpu的內存如何安裝 發布:2024-04-30 12:19:02 瀏覽:328
如何搭建outlook伺服器 發布:2024-04-30 10:46:50 瀏覽:637
美圖忘記密碼手機如何刷機 發布:2024-04-30 10:45:43 瀏覽:192
sql字元設置 發布:2024-04-30 10:39:03 瀏覽:307
androidram 發布:2024-04-30 10:36:06 瀏覽:281
購買的新車有哪些基本配置 發布:2024-04-30 10:27:32 瀏覽:325
遠程訪問攝像頭 發布:2024-04-30 10:10:57 瀏覽:75
貼吧網站源碼 發布:2024-04-30 10:10:42 瀏覽:253