源碼抓取工具

發布時間: 2022-09-08 04:46:53

Ⅰ 如何快速獲取Chromium源碼和編譯

1.下載depot_tools
注意：不要使用拖拽和復制粘貼的方式從壓縮包中提取文件，否則」.git」隱藏文件夾下的文件不會被提取出來。「.git」文件夾是depot_tools自動更新的必要文件。你可以使用解壓工具的「解壓文件…」操作。

環境變數設置，給個圖更直觀：
管理員許可權用戶：

修改PATH系統變數，在最後增加depot_tools的路徑地址，如：C:\workspace\depot_tools.

非管理員用戶：

添加PATH用戶變數：在用戶變數點擊新建，增加PATH變數名，變數值為depot_tools的路徑地址，如上圖。

2.安裝git和python
如果你已經手動安裝了msysgit和python，則跳過這一步。
從命令行到保存chromium源碼的路徑下，運行命令：gclient。第一次運行，gclient將會安裝所有和獲取源碼相關的工具，例如git，python：
Fetching
fromhttps://src.chromium.org/svn/trunk/tools/third_party/svn_bin.zip
fatal:
unable toaccess 'https://chromium.googlesource.com/chromium/tools/depot_tools.git/':Failed connect to chromium.googlesource.com:9217; No error
Cannot
rebase:You have unstaged changes.
Please
commit orstash them.
Failed
to updatedepot_tools.
如果遇到上述問題，應該是你無法連接到chromium伺服器，你可以使用vpn或者代理。

注意:
1）如果你在cygwin或者PowerShell等非命令行窗口運行gclient時，有可能能正常運行，但是msysgit，python和其他工具可能不會正確安裝。
2）在首次運行gclient時，如果看到和文件系統相關的很奇怪的錯誤，你可以去這里找答案：

http://tortoisesvn.tigris.org/faq.html#cantmove2.
3）如果你在windows xp上運行，並且看到像下面的錯誤：「The system cannotexecute the specified program」, 請安裝

「Microsoft Visual C++ 2008 RedistributablePackage」.

3.git設置
Git安裝後需要一些設置

如果你從來沒有用過git，還是先網路一下git的使用方法，至少知道一些簡單的操作命令。

*在獲取代碼之前，確認git，python，depot_tools已經加入環境變數中。
4.獲取代碼
1）獲取主幹代碼：到達保存chromium代碼的路徑，直接右鍵git bash，輸入$ fetch --nohooks chromium --nosvn=true開始獲取主幹代碼：

這個過程比較慢，估計下載需要幾個小時時間，慢的話也許十幾個小時，所以大家最好把這一步放在晚上睡覺時進行。

2）獲取主幹分支標簽（版本）信息：
切換至src目錄下：
git fetch --tags >>tags.txt 2>&1 //標簽號42.0.2311.61會保存在tags.txt文件中
git checkout -b chrome_42.0.2311.61_local_branch 42.0.2311.61
gclient sync --with_branch_heads --jobs 16

以上命令的解析大家都可以在命令的幫助裡面查到。
至此，代碼已經被下載到各位的硬碟中，通過git命令就可以看到分支及標簽情況。今天先講這么多，下次會把編譯過程提供給大家。
註：拉取代碼的過程可能很長,取決於使用的vpn的質量；最後代碼拉取成功但是執行runhooks的時候腳本可能會失敗，至於是否影響chrome的編譯,那就只能看運氣了。

附：
chromium源碼channel:
canary
channel：實驗版本，每日發布。它沒有經過充分測試，可能有某些奇怪的bug。
dev
channel：每2星期發布，相對穩定，新功能和新特性都有。
beta
channel：每周更新，6周大版本更新。比較穩定了，比dev版小1個版本，比stable版本早進化一個月。
stable
channel：穩定版，比dev版本小2個版本，2到3周次版本更新，6周主版本更新。

Ⅱ 提取網站的部分源代碼用什麼軟體

提取網站的部分源代碼是不需要軟體的 Internet Explorer 本身就支持JSP,ASP等網頁編輯的代碼.

操作方法: 在頁面空白處單擊右鍵選擇查看源文件(V)
(其中有一些獨立的加密文件是無權查看的,即便是你使用第三方軟體,被加密的文件也無法復制或篡改)

Ⅲ 如何獲取android源代碼

當前的Android代碼託管在兩個方:https://github.com/android 和https://android.googlesource.com之前在 android.git.kernel.org上也有託管，不過現在重定向到了https://android.googlesource.com好在都支持git訪問。

google提供的repo工具實際上是一個內部操作git工具來簡化操作Android源碼的Python腳本。經過嘗試，直接使用git工具在ubuntu下可以實現cloneAndroid源碼。下面介紹一下方法:

1.獲取當前的在github上託管的Androidgitrepositories:

github頁面為:https://github.com/android/following。不過這個頁面不支持通過wget"https://github.com/android/following"或者curl"https://github.com/android/following"的方式訪問，錯誤信息如下:

這個時候需能做的只能是"tryagain"了。

需要說明的是"不要試圖同時並發執行多個gitclone命令"，這樣會導致大量出現上面貼圖中的錯誤，另外，整個clone過程中耗時最多的gitrepository如下:

kernel_common.gitkernel_msm.gitplatform_frameworks_base.gitplatform_prebuilt.git其中platform_prebuilt.git是google提供的預編譯好的二進制文件，包含:各種庫文件，jar包，可執行程序等等，如果只是閱讀Android源代碼，這個gitrepository可以不用clone.

Ⅳ 抓包可以抓到瀏覽的網頁源代碼嗎

可以的，用httpwatch、fldder等工具都可以，還有瀏覽器自帶的Debug調試工具，都可以抓到訪問過後的網頁源碼。

Ⅳ Hello,我請教你個問題，你知道如何做一個查看網頁源代碼的工具么什麼原理實現呢

不用工具直接在打開的網頁上單擊右鍵就有個查看源代碼
如果網頁不讓查看源代碼你可以點上面的查看-源代碼(有的是查看網頁源文件)
或者文件-另存為把網頁下載下來在本地用DW或其它網頁編輯軟體打開下載的靜態頁面就可以看了
還不會可以HI我

Ⅵ 如何用apktool提取源代碼

准備的工具除了jdk還有以下內容（在Google官網都有）：

如果想把反編譯好的文件變回apk文件，只要在控制台輸入

apktool.jar b memo就可以了

其中b就是重新封包的意思，memo是你剛才解包出來的文件夾，前提是確保所有文件都在memo文件夾里！！

Ⅶ python，求一個簡單的selenium+re的網頁源碼爬取

網頁爬取不一定要用Selenium，Selenium是為了注入瀏覽器獲取點擊行為的調試工具，如果網頁無需人工交互就可以抓取，不建議你使用selenium。要使用它，你需要安裝一個工具軟體，使用Chrome瀏覽器需要下載chromedriver.exe到system32下，如使用firefox則要下載geckodriver.exe到system32下。下面以chromedriver驅動chrome為例：

#-*-coding:UTF-8-*-
fromseleniumimportwebdriver
frombs4importBeautifulSoup
importre
importtime

if__name__=='__main__':

	options=webdriver.ChromeOptions()
	options.add_argument('user-agent="Mozilla/5.0(Linux;Android4.0.4;GalaxyNexusBuild/IMM76B)AppleWebKit/535.19(KHTML,likeGecko)Chrome/18.0.1025.133MobileSafari/535.19"')
	driver=webdriver.Chrome()
	driver.get('url')#你要抓取網路文庫的URL，隨便找個幾十頁的替換掉

	html=driver.page_source
	bf1=BeautifulSoup(html,'lxml')
	result=bf1.find_all(class_='rtcspage')
	bf2=BeautifulSoup(str(result[0]),'lxml')
	title=bf2.div.div.h1.string
	pagenum=bf2.find_all(class_='size')
	pagenum=BeautifulSoup(str(pagenum),'lxml').span.string
	pagepattern=re.compile('頁數：(d+)頁')
	num=int(pagepattern.findall(pagenum)[0])
	print('文章標題：%s'%title)
	print('文章頁數：%d'%num)


	whileTrue:
		num=num/5.0
		html=driver.page_source
		bf1=BeautifulSoup(html,'lxml')
		result=bf1.find_all(class_='rtcspage')
		foreach_resultinresult:
			bf2=BeautifulSoup(str(each_result),'lxml')
			texts=bf2.find_all('p')
			foreach_textintexts:
				main_body=BeautifulSoup(str(each_text),'lxml')
				foreachinmain_body.find_all(True):
					ifeach.name=='span':
						print(each.string.replace('xa0',''),end='')
					elifeach.name=='br':
						print('')
			print('
')
		ifnum>1:
			page=driver.find_elements_by_xpath("//div[@class='page']")
			driver.execute_script('arguments[0].scrollIntoView();',page[-1])#拖動到可見的元素去
			nextpage=driver.find_element_by_xpath("//a[@data-fun='next']")
			nextpage.click()
			time.sleep(3)
		else:
			break

執行代碼，chromedriver自動為你打開chrome瀏覽器，此時你翻頁到最後，點擊閱讀更多，然後等一段時間後關閉瀏覽器，代碼繼續執行。

Ⅷ 怎麼可以把一個網站的整站源碼抓下來

可以試試WebZIP軟體，不過感覺這樣做是不道德的，搞不好還會造成侵權行為！

Ⅸ 如何提取出網頁源碼裡面的超鏈接地址

Private Sub Command1_Click()

Dim s As String

s = Text1.Text
s = Replace(Text1.Text, vbCrLf, "") '移除所有回車換行符

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
'Dim oMatches As MatchCollection
'Dim oMatch As Match

Dim oRegEx As Object
Set oRegEx = CreateObject("VBScript.RegExp")
Dim oMatches As Object
Dim oMatch As Object

With oRegEx
.Global = True '全局匹配
.IgnoreCase = True '忽略大小寫
.Pattern = "<a[^>]*?href=[""' ]?(.*?)(?:""|'| ).[^> ]*?>([\s\S]*?)</a>"
'提取所有A標簽的正則式,小括弧中是子匹配引用組第一個是 (.*?) 第二個是([\s\S]*?)
Set oMatches = .Execute(s)

If oMatches.Count >= 1 Then
Text2.Text = ""

Dim sHref As String, sInnerText As String

Dim i As Integer

Dim sLink As String

'Dim colLinks As Scripting.Dictionary
'Set colLinks = New Scripting.Dictionary

Dim colLinks As Object
Set colLinks = CreateObject("Scripting.Dictionary")

For Each oMatch In oMatches

sHref = oMatch.SubMatches(0) '(.*?)
sInnerText = oMatch.SubMatches(1) '([\s\S]*?)
sInnerText = RemoveTags(sInnerText) '移除A標簽(內容)中的多餘標簽
sInnerText = Replace(sInnerText, " ", "") '移除A標簽(內容)中的所有空格
sLink = "<A href=""" & sHref & """>" & sInnerText & "</A>"

If Not colLinks.Exists(sLink) Then
colLinks.Add sLink, sLink
Text2.Text = Text2.Text & sLink & vbNewLine
End If

Next

End If

End With

Set oMatches = Nothing
Set oMatch = Nothing
Set oRegEx = Nothing
Set colLinks = Nothing
End Sub

'這個函數可以去除HTML代碼中的標簽
Function RemoveTags(ByVal html As String)

'Dim oRegEx As RegExp
'Set oRegEx = New RegExp
Dim oRegEx As Object

Set oRegEx = CreateObject("VBScript.RegExp")

With oRegEx
.Global = True
.IgnoreCase = True
.Pattern = "<[^>]*>"
RemoveTags = .Replace(html, "")
End With

Set oRegEx = Nothing
End Function

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1118

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1397

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1088

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1264

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1125

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1480

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：680

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：586

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1252

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1302

源碼抓取工具

與源碼抓取工具相關的資訊