python爬虫爬微信

发布时间: 2022-02-28 03:45:06

Ⅰ python爬取微信好友运动步数

微信分享的url本身就有openid,伪造Request Headers然后拿到返回的信息就行了

Ⅱ python可以爬微信吗

主要思路
从UI获取文本信息是最为简单的方法，于是应该优先逆向UI代码部分。
逆向微信apk
首先解包微信apk，用dex2jar反编译classes.dex，然后用JD-GUI查看jar源码。当然，能看到的源码都是经过高度混淆的。但是，继承自安卓重要组件（如Activity、Service等）的类名无法被混淆，于是还是能从中看到点东西。
首先定位到微信APP package。我们知道这个是 com.tencent.mm。
在 com.tencent.mm
中，我们找到一个 ui
包，有点意思。
展开 com.tencent.mm.ui
，发现多个未被混淆的类，其中发现 MMBaseActivity直接继承自 Activity
， MMFragmentActivity
继承自 ActionBarActivity
， MMActivity
继承自 MMFragmentActivity
，并且 MMActivity
是微信中大多数Activity的父类：
public class MMFragmentActivity
extends ActionBarActivity
implements SwipeBackLayout.a, b.a {
...
}
public abstract class MMActivity
extends MMFragmentActivity {
...
}
public class MMBaseActivity
extends Activity {
...
}
现在需要找出朋友圈的Activity，为此要用Xposed hook MMActivity。
创建一个Xposed模块
参考 [TUTORIAL]Xposed mole devlopment，创建一个Xposed项目。
简单Xposed模块的基本思想是：hook某个APP中的某个方法，从而达到读写数据的目的。
小编尝试hook com.tencent.mm.ui.MMActivity.setContentView这个方法，并打印出这个Activity下的全部TextView内容。那么首先需要遍历这个Activity下的所有TextView，遍历ViewGroup的方法参考了SO的以下代码：
private void getAllTextViews(final View v) {if (v instanceof ViewGroup) {
ViewGroup vg = (ViewGroup) v;
for (int i = 0; i < vg.getChildCount(); i++) {View child = vg.getChildAt(i);
getAllTextViews(child);
}
} else if (v instanceof TextView ) {
dealWithTextView((TextView)v); //dealWithTextView(TextView tv)方法：打印TextView中的显示文本}
}
Hook MMActivity.setContentView
的关键代码如下：
findAndHookMethod("com.tencent.mm.ui.MMActivity", lpparam.classLoader, "setContentView", View.class, new XC_MethodHook() {...
});
在findAndHookMethod方法中，第一个参数为完整类名，第三个参数为需要hook的方法名，其后若干个参数分别对应该方法的各形参类型。在这里， Activity.setContentView(View view)方法只有一个类型为 View
的形参，因此传入一个 View.class
。
现在，期望的结果是运行时可以从Log中读取到每个Activity中的所有的TextView的显示内容。
但是，因为View中的数据并不一定在 setContentView()时就加载完毕，因此小编的实验结果是，log中啥都没有。
意外的收获
当切换到朋友圈页面时，Xposed模块报了一个异常，异常源从 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI这个类捕捉到。从类名上看，这个很有可能是朋友圈首页的UI类。展开这个类，发现更多有趣的东西：
这个类下有个子类 a
(被混淆过的类名)，该子类下有个名为 gyO的 ListView
类的实例。我们知道， ListView
是显示列表类的UI组件，有可能就是用来展示朋友圈的列表。
顺藤摸瓜
那么，我们先要获得一个 SnsTimeLineUI.a.gyO的实例。但是在这之前，要先获得一个 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a的实例。继续搜索，发现 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI有一个名为 gLZ
的 SnsTimeLineUI.a
实例，那么我们先取得这个实例。
经过测试， com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a(boolean, boolean, String, boolean)这个方法在每次初始化微信界面的时候都会被调用。因此我们将hook这个方法，并从中取得 gLZ。
findAndHookMethod("com.tencent.mm.plugin.sns.ui.SnsTimeLineUI", lpparam.classLoader, "a", boolean.class, boolean.class, String.class, boolean.class, new XC_MethodHook() {@Override
protected void afterHookedMethod(MethodHookParam param) throws Throwable {XposedBridge.log("Hooked. ");
Object currentObject = param.thisObject;
for (Field field : currentObject.getClass().getDeclaredFields()) { //遍历类成员field.setAccessible(true);
Object value = field.get(currentObject);
if (field.getName().equals("gLZ")) {
XposedBridge.log("Child A found.");
childA = value;
//这里获得了gLZ
...
}
}
}
});
现在取得了 SnsTimeLineUI.a
的一个实例 gLZ
，需要取得这个类下的 ListView
类型的 gyO
属性。
private void dealWithA() throws Throwable{if (childA == null) {
return;
}
for (Field field : childA.getClass().getDeclaredFields()) { //遍历属性field.setAccessible(true);
Object value = field.get(childA);
if (field.getName().equals("gyO")) { //取得了gyOViewGroup vg = (ListView)value;
for (int i = 0; i < vg.getChildCount(); i++) { //遍历这个ListView的每一个子View...
View child = vg.getChildAt(i);
getAllTextViews(child); //这里调用上文的getAllTextViews()方法，每一个子View里的所有TextView的文本...
}
}
}
}
现在已经可以将朋友圈页面中的全部文字信息打印出来了。我们需要根据TextView的子类名判断这些文字是朋友圈内容、好友昵称、点赞或评论等。
private void dealWithTextView(TextView v) {String className = v.getClass().getName();String text = ((TextView)v).getText().toString().trim().replaceAll("\n", " ");if (!v.isShown())
return;
if (text.equals(""))
return;
if (className.equals("com.tencent.mm.plugin.sns.ui.AsyncTextView")) {//好友昵称
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.SnsTextView")) {//朋友圈文字内容
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.MaskTextView")) {if (!text.contains(":")) {
//点赞
...
} else {
//评论
...
}
}
}
自此，我们已经从微信APP里取得了朋友圈数据。当然，这部分抓取代码需要定时执行。因为从 ListView中抓到的数据只有当前显示在屏幕上的可见部分，为此需要每隔很短一段时间再次执行，让用户在下滑加载的过程中抓取更多数据。
剩下的就是数据分类处理和格式化输出到文件，受本文篇幅所限不再赘述，详细实现可参考作者GitHub上的源码。

Ⅲ 写个python 爬虫怎么爬取一个网页上面发现的url链接

1.使用beautifulsoup框架。

frombs4importBeautifulSoup
bs=BeautifulSoup('网页源码',"html.parser")
bs.findAll('a')#查找所有的超链接
#具体方法可以参见官方文档

2.使用正则表达式

Ⅳ 如何利用Python网络爬虫爬取微信朋友圈动态

前两天刚看过相关资料：

上篇：网页链接

下篇：网页链接

Ⅳ 如何用Python爬取数据

方法/步骤

在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。
7
这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。

Ⅵ Python爬虫可以爬取什么

Python爬虫可以爬取的东西有很多，Python爬虫怎么学？简单的分析下：

如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

知乎：爬取优质答案，为你筛选出各话题下最优质的内容。
淘宝、京东：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。
安居客、链家：抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。
拉勾网、智联：爬取各类职位信息，分析各行业人才需求情况及薪资水平。
雪球网：抓取雪球高回报用户的行为，对股票市场进行分析和预测。

爬虫是入门Python最好的方式，没有之一。Python有很多应用的方向，比如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。

掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。

对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTMLCSS，结果入了前端的坑，瘁……

但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。

在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。

1.学习 Python 包并实现基本的爬虫过程
2.了解非结构化数据的存储
3.学习scrapy，搭建工程化爬虫
4.学习数据库知识，应对大规模数据存储与提取
5.掌握各种技巧，应对特殊网站的反爬措施
6.分布式爬虫，实现大规模并发采集，提升效率

一

学习 Python 包并实现基本的爬虫过程

大部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，建议从requests+Xpath 开始，requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

如果你用过 BeautifulSoup，会发现 Xpath 要省事不少，一层一层检查元素代码的工作，全都省略了。这样下来基本套路都差不多，一般的静态网站根本不在话下，豆瓣、糗事网络、腾讯新闻等基本上都可以上手了。

当然如果你需要爬取异步加载的网站，可以学习浏览器抓包分析真实请求或者学习Selenium来实现自动化，这样，知乎、时光网、猫途鹰这些动态的网站也可以迎刃而解。

二

了解非结构化数据的存储

爬回来的数据可以直接用文档形式存在本地，也可以存入数据库中。

开始数据量不大的时候，你可以直接通过 Python 的语法或 pandas 的方法将数据存为csv这样的文件。

当然你可能发现爬回来的数据并不是干净的，可能会有缺失、错误等等，你还需要对数据进行清洗，可以学习 pandas 包的基本用法来做数据的预处理，得到更干净的数据。

三

学习 scrapy，搭建工程化的爬虫

掌握前面的技术一般量级的数据和代码基本没有问题了，但是在遇到非常复杂的情况，可能仍然会力不从心，这个时候，强大的 scrapy 框架就非常有用了。

scrapy 是一个功能非常强大的爬虫框架，它不仅能便捷地构建request，还有强大的 selector 能够方便地解析 response，然而它最让人惊喜的还是它超高的性能，让你可以将爬虫工程化、模块化。

学会 scrapy，你可以自己去搭建一些爬虫框架，你就基本具备爬虫工程师的思维了。

四

学习数据库基础，应对大规模数据存储

爬回来的数据量小的时候，你可以用文档的形式来存储，一旦数据量大了，这就有点行不通了。所以掌握一种数据库是必须的，学习目前比较主流的 MongoDB 就OK。

MongoDB 可以方便你去存储一些非结构化的数据，比如各种评论的文本，图片的链接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因为这里要用到的数据库知识其实非常简单，主要是数据如何入库、如何进行提取，在需要的时候再学习就行。

五

掌握各种技巧，应对特殊网站的反爬措施

当然，爬虫过程中也会经历一些绝望啊，比如被网站封IP、比如各种奇怪的验证码、userAgent访问限制、各种动态加载等等。

遇到这些反爬虫的手段，当然还需要一些高级的技巧来应对，常规的比如访问频率控制、使用代理IP池、抓包、验证码的OCR处理等等。

往往网站在高效开发和反爬虫之间会偏向前者，这也为爬虫提供了空间，掌握这些应对反爬虫的技巧，绝大部分的网站已经难不到你了.

六

分布式爬虫，实现大规模并发采集

爬取基本数据已经不是问题了，你的瓶颈会集中到爬取海量数据的效率。这个时候，相信你会很自然地接触到一个很厉害的名字：分布式爬虫。

分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具。

Scrapy 前面我们说过了，用于做基本的页面爬取，MongoDB 用于存储爬取的数据，Redis 则用来存储要爬取的网页队列，也就是任务队列。

所以有些东西看起来很吓人，但其实分解开来，也不过如此。当你能够写分布式的爬虫的时候，那么你可以去尝试打造一些基本的爬虫架构了，实现一些更加自动化的数据获取。

你看，这一条学习路径下来，你已然可以成为老司机了，非常的顺畅。所以在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目（开始可以从豆瓣、小猪这种简单的入手），直接开始就好。

因为爬虫这种技术，既不需要你系统地精通一门语言，也不需要多么高深的数据库技术，高效的姿势就是从实际的项目中去学习这些零散的知识点，你能保证每次学到的都是最需要的那部分。

当然唯一麻烦的是，在具体的问题中，如何找到具体需要的那部分学习资源、如何筛选和甄别，是很多初学者面临的一个大问题。

以上就是我的回答，希望对你有所帮助，望采纳。

Ⅶ 我想用python爬虫爬取数据，但是数据格式不是很懂，谁能给我说说怎么爬取

这已经是一个json格式的文本了，直接把文本请求下来转换成json就行了，就会变成python里dict和list嵌套的结构

Ⅷ xposed + python 怎么爬取微信朋友圈的数据

有JAVA的，你参考一下
主要思路

从UI获取文本信息是最为简单的方法，于是应该优先逆向UI代码部分。

逆向微信apk

首先解包微信apk，用dex2jar反编译classes.dex，然后用JD-GUI查看jar源码。当然，能看到的源码都是经过高度混淆的。但是，继承自安卓重要组件（如Activity、Service等）的类名无法被混淆，于是还是能从中看到点东西。

首先定位到微信APP package。我们知道这个是 com.tencent.mm
。
在 com.tencent.mm
中，我们找到一个 ui
包，有点意思。
展开 com.tencent.mm.ui
，发现多个未被混淆的类，其中发现 MMBaseActivity
直接继承自 Activity
， MMFragmentActivity
继承自 ActionBarActivity
， MMActivity
继承自 MMFragmentActivity
，并且 MMActivity
是微信中大多数Activity的父类：

public class MMFragmentActivity
extends ActionBarActivity
implements SwipeBackLayout.a, b.a {
...
}
public abstract class MMActivity
extends MMFragmentActivity {
...
}
public class MMBaseActivity
extends Activity {
...
}

现在需要找出朋友圈的Activity，为此要用Xposed hook MMActivity
。

创建一个Xposed模块

参考 [TUTORIAL]Xposed mole devlopment
，创建一个Xposed项目。

简单Xposed模块的基本思想是：hook某个APP中的某个方法，从而达到读写数据的目的。

小编尝试hook com.tencent.mm.ui.MMActivity.setContentView
这个方法，并打印出这个Activity下的全部TextView内容。那么首先需要遍历这个Activity下的所有TextView，遍历ViewGroup的方法参考了SO的以下代码：

private void getAllTextViews(final View v) {
if (v instanceof ViewGroup) {
ViewGroup vg = (ViewGroup) v;
for (int i = 0; i < vg.getChildCount(); i++) {
View child = vg.getChildAt(i);
getAllTextViews(child);
}
} else if (v instanceof TextView ) {
dealWithTextView((TextView)v); //dealWithTextView(TextView tv)方法：打印TextView中的显示文本
}
}

Hook MMActivity.setContentView
的关键代码如下：

findAndHookMethod("com.tencent.mm.ui.MMActivity", lpparam.classLoader, "setContentView", View.class, new XC_MethodHook() {
...
});

在findAndHookMethod方法中，第一个参数为完整类名，第三个参数为需要hook的方法名，其后若干个参数分别对应该方法的各形参类型。在这里， Activity.setContentView(View view)
方法只有一个类型为 View
的形参，因此传入一个 View.class
。

现在，期望的结果是运行时可以从Log中读取到每个Activity中的所有的TextView的显示内容。

但是，因为View中的数据并不一定在 setContentView()
时就加载完毕，因此小编的实验结果是，log中啥都没有。

意外的收获

当切换到朋友圈页面时，Xposed模块报了一个异常，异常源从 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI
这个类捕捉到。从类名上看，这个很有可能是朋友圈首页的UI类。展开这个类，发现更多有趣的东西：

这个类下有个子类 a
(被混淆过的类名)，该子类下有个名为 gyO
的 ListView
类的实例。我们知道， ListView
是显示列表类的UI组件，有可能就是用来展示朋友圈的列表。

顺藤摸瓜

那么，我们先要获得一个 SnsTimeLineUI.a.gyO
的实例。但是在这之前，要先获得一个 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a
的实例。继续搜索，发现 com.tencent.mm.plugin.sns.ui.SnsTimeLineUI
有一个名为 gLZ
的 SnsTimeLineUI.a
实例，那么我们先取得这个实例。

经过测试， com.tencent.mm.plugin.sns.ui.SnsTimeLineUI.a(boolean, boolean, String, boolean)
这个方法在每次初始化微信界面的时候都会被调用。因此我们将hook这个方法，并从中取得 gLZ
。

findAndHookMethod("com.tencent.mm.plugin.sns.ui.SnsTimeLineUI", lpparam.classLoader, "a", boolean.class, boolean.class, String.class, boolean.class, new XC_MethodHook() {
@Override
protected void afterHookedMethod(MethodHookParam param) throws Throwable {
XposedBridge.log("Hooked. ");
Object currentObject = param.thisObject;
for (Field field : currentObject.getClass().getDeclaredFields()) { //遍历类成员
field.setAccessible(true);
Object value = field.get(currentObject);
if (field.getName().equals("gLZ")) {
XposedBridge.log("Child A found.");
childA = value;
//这里获得了gLZ
...
}
}
}
});

现在取得了 SnsTimeLineUI.a
的一个实例 gLZ
，需要取得这个类下的 ListView
类型的 gyO
属性。

private void dealWithA() throws Throwable{
if (childA == null) {
return;
}
for (Field field : childA.getClass().getDeclaredFields()) { //遍历属性
field.setAccessible(true);
Object value = field.get(childA);
if (field.getName().equals("gyO")) { //取得了gyO
ViewGroup vg = (ListView)value;
for (int i = 0; i < vg.getChildCount(); i++) { //遍历这个ListView的每一个子View
...
View child = vg.getChildAt(i);
getAllTextViews(child); //这里调用上文的getAllTextViews()方法，每一个子View里的所有TextView的文本
...
}
}
}
}

现在已经可以将朋友圈页面中的全部文字信息打印出来了。我们需要根据TextView的子类名判断这些文字是朋友圈内容、好友昵称、点赞或评论等。

private void dealWithTextView(TextView v) {
String className = v.getClass().getName();
String text = ((TextView)v).getText().toString().trim().replaceAll("\n", " ");
if (!v.isShown())
return;
if (text.equals(""))
return;
if (className.equals("com.tencent.mm.plugin.sns.ui.AsyncTextView")) {
//好友昵称
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.SnsTextView")) {
//朋友圈文字内容
...
}
else if (className.equals("com.tencent.mm.plugin.sns.ui.MaskTextView")) {
if (!text.contains(":")) {
//点赞
...
} else {
//评论
...
}
}
}

自此，我们已经从微信APP里取得了朋友圈数据。当然，这部分抓取代码需要定时执行。因为从 ListView
中抓到的数据只有当前显示在屏幕上的可见部分，为此需要每隔很短一段时间再次执行，让用户在下滑加载的过程中抓取更多数据。

剩下的就是数据分类处理和格式化输出到文件，受本文篇幅所限不再赘述，详细实现可参考作者GitHub上的源码。

Ⅸ python爬虫爬取不出信息

Python爬虫程序本身没有问题，但是却爬取不了数据主要原因如下：

1.对方有反爬程序
几乎所网站为了防止一些恶意抓取，会设置反爬程序，你会发现明明很多数据显示在浏览器上，但是却抓取不出来。
2.伪装方式没有绕过目标网站反爬
网站都有反爬虫机制，防止爬取数据，爬虫想要爬取数据，就需要隐藏自身的身份，伪装成用户的身份进行访问，如果没有伪装好，被检测到爬虫，也是被会限制的。比如请求头没有设置好，Cookie问题等等。
3.IP被限制
爬虫除了IP所有数据都可以伪装，当你的IP访问次数过多之后，就会被限制住，再也无法访问了。这个时候就需要带入ip代理池了。

Ⅹ Python爬虫爬取图片这个报错怎么处理

你好！你的错误原因在于html页面获取到的img标签src属性中的链接，可能是因为src中的url格式是这样的：

<imgsrc="//hao123.com/xxx/xxx/xxx/"></img>

这样获取到的链接都没有带上协议：http或者https。而导致程序抛出ValueError的错误异常。

因为正常的url格式应该类似这样的：https://www..com/

即协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

参考网页链接

可将代码中第一个for循环中download_links.append修改为：

forpic_taginsoup.find_all('img'):
pic_link=pic_tag.get('src')
download_links.append('http:'+pic_link)

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1083

制作脚本网站发布：2025-10-20 08:17:34 浏览：1362

python中的init方法发布：2025-10-20 08:17:33 浏览：1047

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1223

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1090

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1441

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：648

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：545

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1221

python股票数据获取发布：2025-10-20 07:39:44 浏览：1244

python爬虫爬微信

与python爬虫爬微信相关的资讯