当前位置:首页 » 编程语言 » python爬取中文

python爬取中文

发布时间: 2025-06-26 08:40:05

‘壹’ 小红书内容爬取:python爬虫入门案例

Python爬虫入门案例——小红书内容爬取的关键步骤如下

  1. 获取HTML页面

    • 使用requests库发送GET请求到指定的小红书URL。
    • 设置请求头,特别是UserAgent,以模仿浏览器行为,避免被反爬机制检测到。
    • 接收响应后,确保字符编码为UTF8,以便正确解析网页中的中文字符。
    • 将获取到的HTML文本保存下来,供后续处理。
  2. 将HTML转换为Markdown

    • 使用BeautifulSoup库解析HTML结构。
    • 查找并提取网页中的标题标签,作为Markdown文件的标题。
    • 如果找不到标题标签,则给出提示信息。
    • 筛选出内容部分的div,将其中的文本内容转换为Markdown格式的段落。
  3. 实战操作

    • 在主程序中,指定小红书的探索页面URL。
    • 调用get_html函数获取该页面的HTML内容。
    • 使用html_to_markdown函数将HTML内容转换为Markdown格式。
    • 将转换后的Markdown文件保存在本地,方便后续阅读和分享。

注意事项: 网络抓取行为需要遵守相关法律法规,并尊重网站的robots.txt规定。 在进行爬虫开发时,要注意合法合规,避免对目标网站造成不必要的负担或损害。

‘贰’ 如何用Python requests 爬取网页所有文字

您可以用requests库的get方法,以请求的网址为参数,获取网页所有html代码,再访问结果是text属性即可。

‘叁’ python爬虫之woff 超详细 woff字体反扒 起点woff爬虫 字体爬虫 起点中文网woff

Python爬虫深入理解woff字体反扒:从起点中文网开始


首先,我们来探讨一个具体案例——爬取起点中文网作品详情页,特别是处理woff字体的反扒技术。相对于其他网站,这里的挑战相对较小,但仍然能锻炼技能。虽然已有小说内容的爬取,但我们依然可以借此提升技术实践。


当你打开页面的开发者工具,会发现《明朝败家子》这本书的文字并未显示,取而代之的是编码为&#xxxxx的神秘字符。这正是woff字体反爬机制的体现。woff文件通常隐藏在CSS文件中。


接下来,反扒步骤如下:首先,我们选择保存HTML文档和woff字体,虽然直接爬取字体有些繁琐,但HTML文档的保存更简单。记得保存时选择UTF-8编码以避免乱码问题。可以使用FontCreatorPortable软件来查看和处理woff文件,HTML中的缺失字符将被识别为缺失的woff字。


利用fontTools库,我们可以解析woff文件,将其转换为字典结构,然后替换HTML中的字体。虽然过程相对直观,但对于初学者来说,自己动手实践的锻炼价值更高。


完成这个基础练习后,你可能会觉得简单。但请记住,这只是入门。尝试挑战像美团这样的复杂网站,你会发现思路大致相同。如果你需要美团的教程,随时可以联系我。继续加油,不断进步!


最后,这篇文章来自我的博客:CSDN-白寸。

‘肆’ 鐢╬ython鐖鍙栧叧阌璇嶅苟瑙i喷

Copyright © 1999-2020, CSDN.NET, All Rights Reserved

python
镓揿紑APP

灏忕緤锷锷涙闷浠g爜
鍏虫敞
瀛︿範镞ュ织锛歅ython 瀹炵幇缃戠粶鐖铏钬斺旀彁鍙栧叧阌瀛 铡熷垱
2022-06-19 13:02:38

灏忕緤锷锷涙闷浠g爜

镰侀缎174澶

鍏虫敞
缂栧啓涓娈礟ython浠g爜锛屽悜锏惧害鎻愪氦镆ヨ㈠叧阌璇嵝沧冭姳婧愯扳濓纴鎶揿彇锏惧害镄勬煡璇㈢粨鏋滐纴瑕佹眰链夋枃瀛椼侀摼鎺ワ纴鍙浠ュ湪娴忚埚櫒涓镓揿紑鎶揿彇镄勯摼鎺ワ纴鎴栬呰皟鐢ㄦ祻瑙埚櫒镓揿紑鎶揿彇镄勯摼鎺ャ

绾㈡嗗唴鏄镙规嵁缃戠珯淇℃伅闇瑕佹洿鏀圭殑鍐呭广.png

闄勪笂瀹屾暣浠g爜锛

import json
import requests
from lxml import etree
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/88.0.4324.104 Safari/537.36"
}
response = requests.get('https://www..com/s?wd=妗冭姳婧愯&lm=0', headers=headers)
r = response.text
html = etree.HTML(r, etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="content-right_8Zs40"]')
r3 = html.xpath('//*[@class="c-row source_1Vdff OP_LOG_LINK c-gap-top-xsmall"]/a/@href')
for i in range(4):
r11 = r1[i].xpath('string(.)')
r22 = r2[i].xpath('string(.)')
r33 = r3[i]
with open('妗冭姳婧愯.txt', 'a', encoding='utf-8') as c:
c.write(json.mps(r11,ensure_ascii=False) + '\n')
c.write(json.mps(r22, ensure_ascii=False) + '\n')
c.write(json.mps(r33, ensure_ascii=False) + '\n')
print(r11, end='\n')
print('------------------------')
print(r22, end='\n')
print(r33)

热点内容
不开机箱如何知道硬件配置 发布:2025-06-26 13:30:58 浏览:813
编写安卓项目要注意什么 发布:2025-06-26 13:26:19 浏览:573
外网访问内网tomcat 发布:2025-06-26 13:26:12 浏览:316
linuxc字符串 发布:2025-06-26 13:23:00 浏览:356
F0的源码 发布:2025-06-26 13:21:28 浏览:268
宣萱的访问 发布:2025-06-26 13:18:39 浏览:455
在哪里存密码 发布:2025-06-26 13:18:00 浏览:544
如何储存app密码 发布:2025-06-26 13:11:31 浏览:364
别克威朗pro什么配置值得买 发布:2025-06-26 13:07:20 浏览:623
迷你世界脚本怎么弹出一个字 发布:2025-06-26 13:02:34 浏览:44