python爬蟲爬微信

發布時間: 2022-02-28 03:45:06

Ⅰ python爬取微信好友運動步數

微信分享的url本身就有openid,偽造Request Headers然後拿到返回的信息就行了

Ⅱ python可以爬微信嗎

主要思路
從UI獲取文本信息是最為簡單的方法，於是應該優先逆向UI代碼部分。
逆向微信apk
首先解包微信apk，用dex2jar反編譯classes.dex，然後用JD-GUI查看jar源碼。當然，能看到的源碼都是經過高度混淆的。但是，繼承自安卓重要組件（如Activity、Service等）的類名無法被混淆，於是還是能從中看到點東西。
首先定位到微信APP package。我們知道這個是 com.tencent.mm。
在 com.tencent.mm
中，我們找到一個 ui
包，有點意思。
展開 com.tencent.mm.ui
，發現多個未被混淆的類，其中發現 MMBaseActivity直接繼承自 Activity
， MMFragmentActivity
繼承自 ActionBarActivity
， MMActivity
繼承自 MMFragmentActivity
，並且 MMActivity
是微信中大多數Activity的父類：
public class MMFragmentActivity
extends ActionBarActivity
implements SwipeBackLayout.a, b.a {
...
}
public abstract class MMActivity
extends MMFragmentActivity {
...
}
public class MMBaseActivity
extends Activity {
...
}
現在需要找出朋友圈的Activity，為此要用Xposed hook MMActivity。
創建一個Xposed模塊
參考 [TUTORIAL]Xposed mole devlopment，創建一個Xposed項目。
簡單Xposed模塊的基本思想是：hook某個APP中的某個方法，從而達到讀寫數據的目的。
小編嘗試hook com.tencent.mm.ui.MMActivity.setContentView這個方法，並列印出這個Activity下的全部TextView內容。那麼首先需要遍歷這個Activity下的所有TextView，遍歷ViewGroup的方法參考了SO的以下代碼：
private void getAllTextViews(final View v) {if (v instanceof ViewGroup) {
ViewGroup vg = (ViewGroup) v;
for (int i = 0; i < vg.getChildCount(); i++) {View child = vg.getChildAt(i);
getAllTextViews(child);
}
} else if (v instanceof TextView ) {
dealWithTextView((TextView)v); //dealWithTextView(TextView tv)方法：列印TextView中的顯示文本}
}
Hook MMActivity.setContentView
的關鍵代碼如下：
findAndHookMethod("com.tencent.mm.ui.MMActivity", lpparam.classLoader, "setContentView", View.class, new XC_MethodHook() {...
});
在findAndHookMethod方法中，第一個參數為完整類名，第三個參數為需要hook的方法名，其後若干個參數分別對應該方法的各形參類型。在這里， Activity.setContentView(View view)方法只有一個類型為 View
的形參，因此傳入一個 View.class
。
現在，期望的結果是運行時可以從Log中讀取到每個Activity中的所有的TextView的顯示內容。
但是，因為View中的數據並不一定在 setContentView()時就載入完畢，因此小編的實驗結果是，log中啥都沒有。
意外的收獲
當切換到朋友圈頁面時，Xposed模塊報了一個異常，異常源從 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI這個類捕捉到。從類名上看，這個很有可能是朋友圈首頁的UI類。展開這個類，發現更多有趣的東西：
這個類下有個子類 a
(被混淆過的類名)，該子類下有個名為 gyO的 ListView
類的實例。我們知道， ListView
是顯示列表類的UI組件，有可能就是用來展示朋友圈的列表。
順藤摸瓜
那麼，我們先要獲得一個 SnsTimeLineUI.a.gyO的實例。但是在這之前，要先獲得一個 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a的實例。繼續搜索，發現 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI有一個名為 gLZ
的 SnsTimeLineUI.a
實例，那麼我們先取得這個實例。
經過測試， com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a(boolean, boolean, String, boolean)這個方法在每次初始化微信界面的時候都會被調用。因此我們將hook這個方法，並從中取得 gLZ。
findAndHookMethod("com.tencent.mm.plugin.sns.ui.SnsTimeLineUI", lpparam.classLoader, "a", boolean.class, boolean.class, String.class, boolean.class, new XC_MethodHook() {@Override
protected void afterHookedMethod(MethodHookParam param) throws Throwable {XposedBridge.log("Hooked. ");
Object currentObject = param.thisObject;
for (Field field : currentObject.getClass().getDeclaredFields()) { //遍歷類成員field.setAccessible(true);
Object value = field.get(currentObject);
if (field.getName().equals("gLZ")) {
XposedBridge.log("Child A found.");
childA = value;
//這里獲得了gLZ
...
}
}
}
});
現在取得了 SnsTimeLineUI.a
的一個實例 gLZ
，需要取得這個類下的 ListView
類型的 gyO
屬性。
private void dealWithA() throws Throwable{if (childA == null) {
return;
}
for (Field field : childA.getClass().getDeclaredFields()) { //遍歷屬性field.setAccessible(true);
Object value = field.get(childA);
if (field.getName().equals("gyO")) { //取得了gyOViewGroup vg = (ListView)value;
for (int i = 0; i < vg.getChildCount(); i++) { //遍歷這個ListView的每一個子View...
View child = vg.getChildAt(i);
getAllTextViews(child); //這里調用上文的getAllTextViews()方法，每一個子View里的所有TextView的文本...
}
}
}
}
現在已經可以將朋友圈頁面中的全部文字信息列印出來了。我們需要根據TextView的子類名判斷這些文字是朋友圈內容、好友昵稱、點贊或評論等。
private void dealWithTextView(TextView v) {String className = v.getClass().getName();String text = ((TextView)v).getText().toString().trim().replaceAll("\n", " ");if (!v.isShown())
return;
if (text.equals(""))
return;
if (className.equals("com.tencent.mm.plugin.sns.ui.AsyncTextView")) {//好友昵稱
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.SnsTextView")) {//朋友圈文字內容
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.MaskTextView")) {if (!text.contains(":")) {
//點贊
...
} else {
//評論
...
}
}
}
自此，我們已經從微信APP里取得了朋友圈數據。當然，這部分抓取代碼需要定時執行。因為從 ListView中抓到的數據只有當前顯示在屏幕上的可見部分，為此需要每隔很短一段時間再次執行，讓用戶在下滑載入的過程中抓取更多數據。
剩下的就是數據分類處理和格式化輸出到文件，受本文篇幅所限不再贅述，詳細實現可參考作者GitHub上的源碼。

Ⅲ 寫個python 爬蟲怎麼爬取一個網頁上面發現的url鏈接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('網頁源碼',"html.parser")
bs.findAll('a')#查找所有的超鏈接
#具體方法可以參見官方文檔

2.使用正則表達式

Ⅳ 如何利用Python網路爬蟲爬取微信朋友圈動態

前兩天剛看過相關資料：

上篇：網頁鏈接

下篇：網頁鏈接

Ⅳ 如何用Python爬取數據

方法/步驟

在做爬取數據之前，你需要下載安裝兩個東西，一個是urllib,另外一個是python-docx。
7
這個爬下來的是源代碼，如果還需要篩選的話需要自己去添加各種正則表達式。

Ⅵ Python爬蟲可以爬取什麼

Python爬蟲可以爬取的東西有很多，Python爬蟲怎麼學？簡單的分析下：

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。
淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。
安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。
雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy，搭建工程化爬蟲
4.學習資料庫知識，應對大規模數據存儲與提取
5.掌握各種技巧，應對特殊網站的反爬措施
6.分布式爬蟲，實現大規模並發採集，提升效率

一

學習 Python 包並實現基本的爬蟲過程

大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事網路、騰訊新聞等基本上都可以上手了。

當然如果你需要爬取非同步載入的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。

二

了解非結構化數據的存儲

爬回來的數據可以直接用文檔形式存在本地，也可以存入資料庫中。

開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。

當然你可能發現爬回來的數據並不是干凈的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更干凈的數據。

三

學習 scrapy，搭建工程化的爬蟲

掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常復雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。

scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。

學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。

四

學習資料庫基礎，應對大規模數據存儲

爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種資料庫是必須的，學習目前比較主流的 MongoDB 就OK。

MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因為這里要用到的資料庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。

五

掌握各種技巧，應對特殊網站的反爬措施

當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態載入等等。

遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。

往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了.

六

分布式爬蟲，實現大規模並發採集

爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分布式爬蟲。

分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。

Scrapy 前面我們說過了，用於做基本的頁面爬取，MongoDB 用於存儲爬取的數據，Redis 則用來存儲要爬取的網頁隊列，也就是任務隊列。

所以有些東西看起來很嚇人，但其實分解開來，也不過如此。當你能夠寫分布式的爬蟲的時候，那麼你可以去嘗試打造一些基本的爬蟲架構了，實現一些更加自動化的數據獲取。

你看，這一條學習路徑下來，你已然可以成為老司機了，非常的順暢。所以在一開始的時候，盡量不要系統地去啃一些東西，找一個實際的項目（開始可以從豆瓣、小豬這種簡單的入手），直接開始就好。

因為爬蟲這種技術，既不需要你系統地精通一門語言，也不需要多麼高深的資料庫技術，高效的姿勢就是從實際的項目中去學習這些零散的知識點，你能保證每次學到的都是最需要的那部分。

當然唯一麻煩的是，在具體的問題中，如何找到具體需要的那部分學習資源、如何篩選和甄別，是很多初學者面臨的一個大問題。

以上就是我的回答，希望對你有所幫助，望採納。

Ⅶ 我想用python爬蟲爬取數據，但是數據格式不是很懂，誰能給我說說怎麼爬取

這已經是一個json格式的文本了，直接把文本請求下來轉換成json就行了，就會變成python里dict和list嵌套的結構

Ⅷ xposed + python 怎麼爬取微信朋友圈的數據

有JAVA的，你參考一下
主要思路

從UI獲取文本信息是最為簡單的方法，於是應該優先逆向UI代碼部分。

逆向微信apk

首先解包微信apk，用dex2jar反編譯classes.dex，然後用JD-GUI查看jar源碼。當然，能看到的源碼都是經過高度混淆的。但是，繼承自安卓重要組件（如Activity、Service等）的類名無法被混淆，於是還是能從中看到點東西。

首先定位到微信APP package。我們知道這個是 com.tencent.mm
。
在 com.tencent.mm
中，我們找到一個 ui
包，有點意思。
展開 com.tencent.mm.ui
，發現多個未被混淆的類，其中發現 MMBaseActivity
直接繼承自 Activity
， MMFragmentActivity
繼承自 ActionBarActivity
， MMActivity
繼承自 MMFragmentActivity
，並且 MMActivity
是微信中大多數Activity的父類：

public class MMFragmentActivity
extends ActionBarActivity
implements SwipeBackLayout.a, b.a {
...
}
public abstract class MMActivity
extends MMFragmentActivity {
...
}
public class MMBaseActivity
extends Activity {
...
}

現在需要找出朋友圈的Activity，為此要用Xposed hook MMActivity
。

創建一個Xposed模塊

參考 [TUTORIAL]Xposed mole devlopment
，創建一個Xposed項目。

簡單Xposed模塊的基本思想是：hook某個APP中的某個方法，從而達到讀寫數據的目的。

小編嘗試hook com.tencent.mm.ui.MMActivity.setContentView
這個方法，並列印出這個Activity下的全部TextView內容。那麼首先需要遍歷這個Activity下的所有TextView，遍歷ViewGroup的方法參考了SO的以下代碼：

private void getAllTextViews(final View v) {
if (v instanceof ViewGroup) {
ViewGroup vg = (ViewGroup) v;
for (int i = 0; i < vg.getChildCount(); i++) {
View child = vg.getChildAt(i);
getAllTextViews(child);
}
} else if (v instanceof TextView ) {
dealWithTextView((TextView)v); //dealWithTextView(TextView tv)方法：列印TextView中的顯示文本
}
}

Hook MMActivity.setContentView
的關鍵代碼如下：

findAndHookMethod("com.tencent.mm.ui.MMActivity", lpparam.classLoader, "setContentView", View.class, new XC_MethodHook() {
...
});

在findAndHookMethod方法中，第一個參數為完整類名，第三個參數為需要hook的方法名，其後若干個參數分別對應該方法的各形參類型。在這里， Activity.setContentView(View view)
方法只有一個類型為 View
的形參，因此傳入一個 View.class
。

現在，期望的結果是運行時可以從Log中讀取到每個Activity中的所有的TextView的顯示內容。

但是，因為View中的數據並不一定在 setContentView()
時就載入完畢，因此小編的實驗結果是，log中啥都沒有。

意外的收獲

當切換到朋友圈頁面時，Xposed模塊報了一個異常，異常源從 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI
這個類捕捉到。從類名上看，這個很有可能是朋友圈首頁的UI類。展開這個類，發現更多有趣的東西：

這個類下有個子類 a
(被混淆過的類名)，該子類下有個名為 gyO
的 ListView
類的實例。我們知道， ListView
是顯示列表類的UI組件，有可能就是用來展示朋友圈的列表。

順藤摸瓜

那麼，我們先要獲得一個 SnsTimeLineUI.a.gyO
的實例。但是在這之前，要先獲得一個 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a
的實例。繼續搜索，發現 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI
有一個名為 gLZ
的 SnsTimeLineUI.a
實例，那麼我們先取得這個實例。

經過測試， com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a(boolean, boolean, String, boolean)
這個方法在每次初始化微信界面的時候都會被調用。因此我們將hook這個方法，並從中取得 gLZ
。

findAndHookMethod("com.tencent.mm.plugin.sns.ui.SnsTimeLineUI", lpparam.classLoader, "a", boolean.class, boolean.class, String.class, boolean.class, new XC_MethodHook() {
@Override
protected void afterHookedMethod(MethodHookParam param) throws Throwable {
XposedBridge.log("Hooked. ");
Object currentObject = param.thisObject;
for (Field field : currentObject.getClass().getDeclaredFields()) { //遍歷類成員
field.setAccessible(true);
Object value = field.get(currentObject);
if (field.getName().equals("gLZ")) {
XposedBridge.log("Child A found.");
childA = value;
//這里獲得了gLZ
...
}
}
}
});

現在取得了 SnsTimeLineUI.a
的一個實例 gLZ
，需要取得這個類下的 ListView
類型的 gyO
屬性。

private void dealWithA() throws Throwable{
if (childA == null) {
return;
}
for (Field field : childA.getClass().getDeclaredFields()) { //遍歷屬性
field.setAccessible(true);
Object value = field.get(childA);
if (field.getName().equals("gyO")) { //取得了gyO
ViewGroup vg = (ListView)value;
for (int i = 0; i < vg.getChildCount(); i++) { //遍歷這個ListView的每一個子View
...
View child = vg.getChildAt(i);
getAllTextViews(child); //這里調用上文的getAllTextViews()方法，每一個子View里的所有TextView的文本
...
}
}
}
}

現在已經可以將朋友圈頁面中的全部文字信息列印出來了。我們需要根據TextView的子類名判斷這些文字是朋友圈內容、好友昵稱、點贊或評論等。

private void dealWithTextView(TextView v) {
String className = v.getClass().getName();
String text = ((TextView)v).getText().toString().trim().replaceAll("\n", " ");
if (!v.isShown())
return;
if (text.equals(""))
return;
if (className.equals("com.tencent.mm.plugin.sns.ui.AsyncTextView")) {
//好友昵稱
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.SnsTextView")) {
//朋友圈文字內容
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.MaskTextView")) {
if (!text.contains(":")) {
//點贊
...
} else {
//評論
...
}
}
}

自此，我們已經從微信APP里取得了朋友圈數據。當然，這部分抓取代碼需要定時執行。因為從 ListView
中抓到的數據只有當前顯示在屏幕上的可見部分，為此需要每隔很短一段時間再次執行，讓用戶在下滑載入的過程中抓取更多數據。

剩下的就是數據分類處理和格式化輸出到文件，受本文篇幅所限不再贅述，詳細實現可參考作者GitHub上的源碼。

Ⅸ python爬蟲爬取不出信息

Python爬蟲程序本身沒有問題，但是卻爬取不了數據主要原因如下：

1.對方有反爬程序
幾乎所網站為了防止一些惡意抓取，會設置反爬程序，你會發現明明很多數據顯示在瀏覽器上，但是卻抓取不出來。
2.偽裝方式沒有繞過目標網站反爬
網站都有反爬蟲機制，防止爬取數據，爬蟲想要爬取數據，就需要隱藏自身的身份，偽裝成用戶的身份進行訪問，如果沒有偽裝好，被檢測到爬蟲，也是被會限制的。比如請求頭沒有設置好，Cookie問題等等。
3.IP被限制
爬蟲除了IP所有數據都可以偽裝，當你的IP訪問次數過多之後，就會被限制住，再也無法訪問了。這個時候就需要帶入ip代理池了。

Ⅹ Python爬蟲爬取圖片這個報錯怎麼處理

你好！你的錯誤原因在於html頁面獲取到的img標簽src屬性中的鏈接，可能是因為src中的url格式是這樣的：

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

這樣獲取到的鏈接都沒有帶上協議：http或者https。而導致程序拋出ValueError的錯誤異常。

因為正常的url格式應該類似這樣的：https://www..com/

即協議://用戶名:密碼@子域名.域名.頂級域名:埠號/目錄/文件名.文件後綴?參數=值#標志

參考網頁鏈接

可將代碼中第一個for循環中download_links.append修改為：

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：826

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1091

python中的init方法發布：2025-10-20 08:17:33 瀏覽：796

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：961

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：852

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1205

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：426

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：305

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：981

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：949

python爬蟲爬微信

與python爬蟲爬微信相關的資訊