當前位置:首頁 » 操作系統 » 源碼抓取工具

源碼抓取工具

發布時間: 2022-09-08 04:46:53

Ⅰ 如何快速獲取Chromium源碼編譯

1.下載depot_tools
注意:不要使用拖拽和復制粘貼的方式從壓縮包中提取文件,否則」.git」隱藏文件夾下的文件不會被提取出來。「.git」文件夾是depot_tools自動更新的必要文件。你可以使用解壓工具的「解壓文件…」操作。

環境變數設置,給個圖更直觀:
管理員許可權用戶:

修改PATH系統變數,在最後增加depot_tools的路徑地址,如:C:\workspace\depot_tools.

非管理員用戶:

添加PATH用戶變數:在用戶變數點擊新建,增加PATH變數名,變數值為depot_tools的路徑地址,如上圖。

2.安裝git和python
如果你已經手動安裝了msysgit和python,則跳過這一步。
從命令行到保存chromium源碼的路徑下,運行命令:gclient。第一次運行,gclient將會安裝所有和獲取源碼相關的工具,例如git,python:
Fetching
fromhttps://src.chromium.org/svn/trunk/tools/third_party/svn_bin.zip
fatal:
unable toaccess 'https://chromium.googlesource.com/chromium/tools/depot_tools.git/':Failed connect to chromium.googlesource.com:9217; No error
Cannot
rebase:You have unstaged changes.
Please
commit orstash them.
Failed
to updatedepot_tools.
如果遇到上述問題,應該是你無法連接到chromium伺服器,你可以使用vpn或者代理。

注意:
1)如果你在cygwin或者PowerShell等非命令行窗口運行gclient時,有可能能正常運行,但是msysgit,python和其他工具可能不會正確安裝。
2)在首次運行gclient時,如果看到和文件系統相關的很奇怪的錯誤,你可以去這里找答案:

http://tortoisesvn.tigris.org/faq.html#cantmove2.
3)如果你在windows xp上運行,並且看到像下面的錯誤:「The system cannotexecute the specified program」, 請安裝

「Microsoft Visual C++ 2008 RedistributablePackage」.

3.git設置
Git安裝後需要一些設置

如果你從來沒有用過git,還是先網路一下git的使用方法,至少知道一些簡單的操作命令。

*在獲取代碼之前,確認git,python,depot_tools已經加入環境變數中。
4.獲取代碼
1)獲取主幹代碼:到達保存chromium代碼的路徑,直接右鍵git bash,輸入$ fetch --nohooks chromium --nosvn=true開始獲取主幹代碼:

這個過程比較慢,估計下載需要幾個小時時間,慢的話也許十幾個小時,所以大家最好把這一步放在晚上睡覺時進行。

2)獲取主幹分支標簽(版本)信息:
切換至src目錄下:
git fetch --tags >>tags.txt 2>&1 //標簽號42.0.2311.61會保存在tags.txt文件中
git checkout -b chrome_42.0.2311.61_local_branch 42.0.2311.61
gclient sync --with_branch_heads --jobs 16

以上命令的解析大家都可以在命令的幫助裡面查到。
至此,代碼已經被下載到各位的硬碟中,通過git命令就可以看到分支及標簽情況。今天先講這么多,下次會把編譯過程提供給大家。
註:拉取代碼的過程可能很長,取決於使用的vpn的質量;最後代碼拉取成功但是執行runhooks的時候腳本可能會失敗,至於是否影響chrome的編譯,那就只能看運氣了。

附:
chromium源碼channel:
canary
channel:實驗版本,每日發布。它沒有經過充分測試,可能有某些奇怪的bug。
dev
channel:每2星期發布,相對穩定,新功能和新特性都有。
beta
channel:每周更新,6周大版本更新。比較穩定了,比dev版小1個版本,比stable版本早進化一個月。
stable
channel:穩定版,比dev版本小2個版本,2到3周次版本更新,6周主版本更新。

Ⅱ 提取網站的部分源代碼用什麼軟體

提取網站的部分源代碼 是不需要軟體的 Internet Explorer 本身就支持JSP,ASP等網頁編輯的代碼.

操作方法: 在頁面空白處單擊右鍵 選擇 查看源文件(V)
(其中有一些獨立的加密文件是無權查看的,即便是你使用第三方軟體,被加密的文件也無法復制或篡改)

Ⅲ 如何獲取android源代碼

當前的Android代碼託管在兩個方:https://github.com/android 和https://android.googlesource.com之前在 android.git.kernel.org上也有託管,不過現在重定向到了https://android.googlesource.com好在都支持git訪問

google提供的repo工具實際上是一個內部操作git工具來簡化操作Android源碼的Python腳本。經過嘗試,直接使用git工具在ubuntu下可以實現cloneAndroid源碼。下面介紹一下方法:

1.獲取當前的在github上託管的Androidgitrepositories:

github頁面為:https://github.com/android/following。不過這個頁面不支持通過wget"https://github.com/android/following"或者curl"https://github.com/android/following"的方式訪問,錯誤信息如下:

這個時候需能做的只能是"tryagain"了。

需要說明的是"不要試圖同時並發執行多個gitclone命令",這樣會導致大量出現上面貼圖中的錯誤,另外,整個clone過程中耗時最多的gitrepository如下:

kernel_common.gitkernel_msm.gitplatform_frameworks_base.gitplatform_prebuilt.git其中platform_prebuilt.git是google提供的預編譯好的二進制文件,包含:各種庫文件,jar包,可執行程序等等,如果只是閱讀Android源代碼,這個gitrepository可以不用clone.

Ⅳ 抓包可以抓到瀏覽的網頁源代碼嗎

可以的,用httpwatch、fldder等工具都可以,還有瀏覽器自帶的Debug調試工具,都可以抓到訪問過後的網頁源碼。

Ⅳ Hello,我請教你個問題,你知道如何做一個查看網頁源代碼的工具么什麼原理實現呢

不用工具 直接在打開的網頁上單擊右鍵就有個查看源代碼
如果網頁不讓查看源代碼 你可以點上面的查看-源代碼(有的是查看網頁源文件)
或者文件-另存為 把網頁下載下來 在本地用DW或其它網頁編輯軟體打開下載的靜態頁面就可以看了
還不會可以HI我

Ⅵ 如何用apktool提取源代碼

准備的工具除了jdk還有以下內容(在Google官網都有):


如果想把反編譯好的文件變回apk文件,只要在控制台輸入

apktool.jar b memo就可以了

其中b就是重新封包的意思,memo是你剛才解包出來的文件夾,前提是確保所有文件都在memo文件夾里!!

Ⅶ python,求一個簡單的selenium+re的網頁源碼爬取

網頁爬取不一定要用Selenium,Selenium是為了注入瀏覽器獲取點擊行為的調試工具,如果網頁無需人工交互就可以抓取,不建議你使用selenium。要使用它,你需要安裝一個工具軟體,使用Chrome瀏覽器需要下載chromedriver.exe到system32下,如使用firefox則要下載geckodriver.exe到system32下。下面以chromedriver驅動chrome為例:

#-*-coding:UTF-8-*-
fromseleniumimportwebdriver
frombs4importBeautifulSoup
importre
importtime

if__name__=='__main__':

options=webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0(Linux;Android4.0.4;GalaxyNexusBuild/IMM76B)AppleWebKit/535.19(KHTML,likeGecko)Chrome/18.0.1025.133MobileSafari/535.19"')
driver=webdriver.Chrome()
driver.get('url')#你要抓取網路文庫的URL,隨便找個幾十頁的替換掉

html=driver.page_source
bf1=BeautifulSoup(html,'lxml')
result=bf1.find_all(class_='rtcspage')
bf2=BeautifulSoup(str(result[0]),'lxml')
title=bf2.div.div.h1.string
pagenum=bf2.find_all(class_='size')
pagenum=BeautifulSoup(str(pagenum),'lxml').span.string
pagepattern=re.compile('頁數:(d+)頁')
num=int(pagepattern.findall(pagenum)[0])
print('文章標題:%s'%title)
print('文章頁數:%d'%num)


whileTrue:
num=num/5.0
html=driver.page_source
bf1=BeautifulSoup(html,'lxml')
result=bf1.find_all(class_='rtcspage')
foreach_resultinresult:
bf2=BeautifulSoup(str(each_result),'lxml')
texts=bf2.find_all('p')
foreach_textintexts:
main_body=BeautifulSoup(str(each_text),'lxml')
foreachinmain_body.find_all(True):
ifeach.name=='span':
print(each.string.replace('xa0',''),end='')
elifeach.name=='br':
print('')
print(' ')
ifnum>1:
page=driver.find_elements_by_xpath("//div[@class='page']")
driver.execute_script('arguments[0].scrollIntoView();',page[-1])#拖動到可見的元素去
nextpage=driver.find_element_by_xpath("//a[@data-fun='next']")
nextpage.click()
time.sleep(3)
else:
break

執行代碼,chromedriver自動為你打開chrome瀏覽器,此時你翻頁到最後,點擊閱讀更多,然後等一段時間後關閉瀏覽器,代碼繼續執行。

Ⅷ 怎麼可以把一個網站的整站源碼抓下來

可以試試WebZIP軟體,不過感覺這樣做是不道德的,搞不好還會造成侵權行為!

Ⅸ 如何提取出網頁源碼裡面的超鏈接地址

Private Sub Command1_Click()

Dim s As String

s = Text1.Text
s = Replace(Text1.Text, vbCrLf, "") '移除所有回車換行符

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
'Dim oMatches As MatchCollection
'Dim oMatch As Match

Dim oRegEx As Object
Set oRegEx = CreateObject("VBScript.RegExp")
Dim oMatches As Object
Dim oMatch As Object

With oRegEx
.Global = True '全局匹配
.IgnoreCase = True '忽略大小寫
.Pattern = "<a[^>]*?href=[""' ]?(.*?)(?:""|'| ).[^> ]*?>([\s\S]*?)</a>"
'提取所有A標簽的正則式,小括弧中是子匹配引用組第一個是 (.*?) 第二個是([\s\S]*?)
Set oMatches = .Execute(s)

If oMatches.Count >= 1 Then
Text2.Text = ""

Dim sHref As String, sInnerText As String

Dim i As Integer

Dim sLink As String

'Dim colLinks As Scripting.Dictionary
'Set colLinks = New Scripting.Dictionary

Dim colLinks As Object
Set colLinks = CreateObject("Scripting.Dictionary")

For Each oMatch In oMatches

sHref = oMatch.SubMatches(0) '(.*?)
sInnerText = oMatch.SubMatches(1) '([\s\S]*?)
sInnerText = RemoveTags(sInnerText) '移除A標簽(內容)中的多餘標簽
sInnerText = Replace(sInnerText, " ", "") '移除A標簽(內容)中的所有空格
sLink = "<A href=""" & sHref & """>" & sInnerText & "</A>"

If Not colLinks.Exists(sLink) Then
colLinks.Add sLink, sLink
Text2.Text = Text2.Text & sLink & vbNewLine
End If

Next

End If

End With

Set oMatches = Nothing
Set oMatch = Nothing
Set oRegEx = Nothing
Set colLinks = Nothing
End Sub

'這個函數可以去除HTML代碼中的標簽
Function RemoveTags(ByVal html As String)

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
Dim oRegEx As Object

Set oRegEx = CreateObject("VBScript.RegExp")

With oRegEx
.Global = True
.IgnoreCase = True
.Pattern = "<[^>]*>"
RemoveTags = .Replace(html, "")
End With

Set oRegEx = Nothing
End Function

熱點內容
地鐵逃生怎麼進入游戲安卓 發布:2024-05-03 17:49:35 瀏覽:992
aws雲存儲 發布:2024-05-03 17:48:50 瀏覽:954
安卓微信王者號怎麼轉成蘋果 發布:2024-05-03 17:44:38 瀏覽:745
原子類源碼 發布:2024-05-03 17:44:19 瀏覽:165
安卓瀏覽圖片如何全屏 發布:2024-05-03 17:24:08 瀏覽:104
傳奇倉庫腳本 發布:2024-05-03 17:23:56 瀏覽:541
2010資料庫技術及應用 發布:2024-05-03 17:21:51 瀏覽:921
小米賬號密碼忘了怎麼 發布:2024-05-03 17:17:44 瀏覽:780
皇家農場腳本 發布:2024-05-03 16:46:41 瀏覽:458
順序存儲鏈式存儲 發布:2024-05-03 16:46:41 瀏覽:879