當前位置:首頁 » 編程語言 » python抓取中文

python抓取中文

發布時間: 2022-07-13 20:44:04

『壹』 python抓取網頁中文信息

#-*-coding:utf-8-*-
importurllib
importre
#使用正則表達式限定抓取的網頁地址
regex=r'<ahref="(.+?)"target="_blank"><strongclass="'
pat=re.compile(regex)
page=1
url="

info=urllib.urlopen(url).read()
Sub_pages=re.findall(pat,info)
#獲得網址中所有產品信息
regex=r'<td>(.+?)&nbsp;</td>'
pat=re.compile(regex)
forpageinSub_pages:
content=urllib.urlopen(page).read()
info=re.findall(pat,content)
print' '.join(info)#改成這樣試試

『貳』 python 抓取的網頁鏈接,鏈接中的中文亂碼問題

應該是shell的編碼和listinfo編碼不一樣導致的,部分正常,部分亂碼有可能是因為兩種編碼部分字元恰好一樣。


試試

importsys
printi[i].encode(sys.getdefaultencoding())

『叄』 python3 re模塊怎麼抓取中文類型

Python的re模塊里沒有直接匹配中文的屬性或者方法。
不過可以用re.findall+()來匹配,但是如果數據裡面有中英文,那麼就得再次匹配了。
例:

test = '<html><head>網路</head></html>'
cont = re.findall(r'<ht.*?head>(.*?)</hea',test)
print(cont)

『肆』 求助python截取字元串中中文的方法

>>>re.findall(r'[^0-9a-zA-Z]+','測試awk測試123測試11')
['xb2xe2xcaxd4','xb2xe2xcaxd4','xb2xe2xcaxd4']

『伍』 python怎麼用正則表達式提取中文

1、字元串line='ufeffD0002044x01大數據x01數據分析x01技術x01工具x01應用 '
想提取出其中的「大數據」,「數據分析」,「技術」,「工具」,「應用」這些中文,用了正則表達式:
>>>pat2='x01(.*?)'
>>>rs=re.compile(pat2).findall(line)
>>>print(rs)
['','','','','']
顯示的結果是空,請問如何才能正確的提出中文部分。

2、原文: 法規名稱:'《中華人民共和國合同法》',Items:[{法條名稱:'第五十二條'
匹配成: 《中華人民共和國合同法》第五十二條
(?<=法規名稱:').*?(',Items:[{法條名稱:').*?(?=') 請問這樣匹配哪裡錯了?Python報sre_constants.error: unterminated character set at position 22

3、Python re正則匹配中文,其實非常簡單,把中文的unicode字元串轉換成utf-8格式就可以了,然後可以在re中隨意調用
unicode中中文的編碼為/u4e00-/u9fa5,因此正則表達式u」[u4e00-u9fa5]+」可以表示一個或者多個中文字元
>>> import re
>>> s='中文:123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u''
>>> print s
中文:123456aa哈哈哈bbcc 。

『陸』 Python2.7 request.get抓取網頁,中文亂碼怎麼破

可以使用pandas里的dataframe,這個很方便處理數據。我舉個例子 import pandas as pddata=pd.DataFrame(...) #...為招聘信息儲存的變數(或者列、行等等)data.to_excel('D:/recruit.xls')很方便,即使招聘信息有很多,也可以1秒內完成轉換

『柒』 如何python提取txt文檔裡面全部的中文和中文符號,並且保存為新的txt文檔

用beautifulsoup處理啊,去除英文和符號就是中文啦

importre
zhongwen=re.sub(r'[w<>/,=:"']','',text')

『捌』 python如何提取網頁xml文件中的中文

『玖』 為什麼python爬取的中文亂碼

編碼錯了唄,python的bytes,默認的decode參數utf-8,如果網頁不是utf-8的,你就得手動指定編碼,國內很多網頁是gbk、gb2312的

熱點內容
4200存儲伺服器 發布:2024-05-20 00:20:35 瀏覽:160
解壓小生活 發布:2024-05-20 00:15:03 瀏覽:143
粘土小游戲伺服器ip 發布:2024-05-20 00:14:00 瀏覽:196
魔獸世界如何快速增加伺服器 發布:2024-05-19 23:53:37 瀏覽:694
安卓手機如何轉入蘋果手機內 發布:2024-05-19 23:50:35 瀏覽:405
安卓哪個能安裝血染小鎮 發布:2024-05-19 23:45:57 瀏覽:901
tensorflowmac編譯 發布:2024-05-19 23:28:59 瀏覽:702
sqlmaxvarchar 發布:2024-05-19 23:24:02 瀏覽:703
linux配置網卡命令 發布:2024-05-19 23:22:57 瀏覽:505
python查看進程 發布:2024-05-19 22:59:37 瀏覽:158