php爬蟲框架

發布時間: 2022-06-10 06:43:30

『壹』你好，我如何用php來實現網路爬蟲呢具體一點

以下是訪問某音樂網站，並獲取其歌曲名等數組的示例，你可以參考：

<?php
header('Content-type:text/html;charset=utf-8');
$doc = file_get_contents('http://www.songtaste.com/music/');
$pa = '{MSL$(.*)$;}';
preg_match_all($pa,$doc,$r);
for($i=0;$i<count($r[1]);$i++)
{
$r1 = explode(', ',$r[1][$i]);
echo '歌曲標題：'. iconv('gb2312','utf-8',$r1[0]) .' 歌曲ID：'.$r1[1].'<br/>';
}
?>

『貳』 PHP爬蟲和基於命令行的python爬蟲有什麼差別

php和python 寫爬蟲採集一些簡單的都可以，但是相對來說python更好，更方便，有很多現成的庫和方法支持直接解析網站，剖析你需要的數據，而php需要你大部分正則匹配，麻煩。

『叄』求一個PHP寫的爬蟲，能繞過的。

根據題主的需求，手敲兩個小時代碼，拿走不謝
from selenium import webdriver
import time
import os
import requests

class Huaban():

    def get_picture_url(self, content):
        global path
        path = "E:\spider\pictures\huaban" + '\\' + content

        if not os.path.exists(path):
            os.makedirs(path)
        url = "http://huaban.com"

        driver.maximize_window()
        driver.get(url)
        time.sleep(8)


        try:
            driver.find_elements_by_xpath('//input[@name="email"]')[0].send_keys('花瓣賬號')
            print('user success!')
        except:
            print('user error!')
        time.sleep(3)
        try:
            driver.find_elements_by_xpath('//input[@name="password"]')[0].send_keys('賬號密碼')
            print('pw success!')
        except:
            print('pw error!')
        time.sleep(3)

『肆』 PHP, Python, Node.js 哪個比較適合寫爬蟲

我覺得做爬蟲肯定需要後台技術的支持，和自己的對很多技術的理解和掌握吧，然後就是需要自己去找資料，去請教有經驗的人。

1、如果是定向爬取幾個頁面，做一些簡單的頁面解析，爬取效率不是核心要求，那麼用什麼語言差異不大。此種情況下，如果還需要做js動態內容的解析，casperjs就不適合了，只有基於諸如chrome V8引擎之類自己做js引擎。
至於C、C++雖然性能不錯，但不推薦，尤其是考慮到成本等諸多因素；對於大部分公司還是建議基於一些開源的框架來做，不要自己發明輪子，做一個簡單的爬蟲容易，但要做一個完備的爬蟲挺難的。

『伍』 php有哪些爬蟲框架

Beanbun 是用 PHP 編寫的多進程網路爬蟲框架，具有良好的開放性、高可擴展性。
php爬蟲框架phpspider

『陸』 php爬蟲框架哪個好用

Beanbun使用的是workman和guzzle，資料庫使用的是medoo，支持分布式部署，可以使用內存（估計是workman自帶的容器）和redis做隊列，可以方便靈活的製作插件，擴展性強。
Beanbag安裝方便，可以使用composer進行安裝：
$composerrequirekiddyu/beanbun

『柒』 php 實現網路爬蟲

pcntl_fork或者swoole_process實現多進程並發。按照每個網頁抓取耗時500ms，開200個進程，可以實現每秒400個頁面的抓取。
curl實現頁面抓取，設置cookie可以實現模擬登錄
simple_html_dom 實現頁面的解析和DOM處理
如果想要模擬瀏覽器，可以使用casperJS。用swoole擴展封裝一個服務介面給PHP層調用

在這里有一套爬蟲系統就是基於上述技術方案實現的，每天會抓取幾千萬個頁面。

『捌』如何用php 編寫網路爬蟲

php不太適合用來寫網路爬蟲,因為幾乎沒有現成的框架,或者成熟的下載機制,也不太適合做並發處理.

下載頁面的話除了一個curl,就是file_get_contents,或者curl_multi來做並發請求.curl可以代理埠,虛假ip,帶cookie,帶header請求目標頁面,下載完成之後解析頁面可以用queryList來解析html.寫法類似jQuery.

提供給你我之前寫的類:curl.php 希望可以幫到你.

QueryList.php和phpQuery.php由於文件太大了,沒辦法貼上來

<?php
classHttp{
publicfunctioncurlRequest($url,$postData='',$timeOut=10,$httpHeader=array()){
$handle=curl_init();
curl_setopt($handle,CURLOPT_URL,$url);
if($httpHeader){
curl_setopt($handle,CURLOPT_HTTPHEADER,$httpHeader);
}
curl_setopt($handle,CURLOPT_RETURNTRANSFER,true);
curl_setopt($handle,CURLOPT_HEADER,0);curl_setopt($handle,CURLOPT_TIMEOUT,$timeOut);
curl_setopt($handle,CURLOPT_FOLLOWLOCATION,1);
curl_setopt($handle,CURLOPT_SSL_VERIFYPEER,false);
curl_setopt($handle,CURLOPT_SSL_VERIFYHOST,false);
curl_setopt($handle,CURLOPT_USERAGENT,'Mozilla/5.0(Macintosh;IntelMacOSX10_7_2)AppleWebKit/537.36(KHTML,likeGecko)Chrome/27.0.1453.93Safari/537.36');curl_setopt($handle,CURLOPT_ENCODING,'gzip,deflate,sdch');
if(!empty($postData)){
curl_setopt($handle,CURLOPT_POST,1);
curl_setopt($handle,CURLOPT_POSTFIELDS,$postData);
}
$result['response']=curl_exec($handle);
$result['httpStatus']=curl_getinfo($handle,CURLINFO_HTTP_CODE);
$result['fullInfo']=curl_getinfo($handle);
$result['errorMsg']='';
$result['errorNo']=0;
if(curl_errno($handle)){
$result['errorMsg']=curl_error($handle);
$result['errorNo']=curl_errno($handle);
}
curl_close($handle);
return$result;
}
}
?>

『玖』各種語言寫網路爬蟲有什麼優點缺點

我用 PHP 和 Python 都寫過爬蟲和正文提取程序。
最開始使用 PHP 所以先說說 PHP 的優點：
1.語言比較簡單，PHP 是非常隨意的一種語言。寫起來容易讓你把精力放在你要做的事情上，而不是各種語法規則等等。
2.各種功能模塊齊全，這里分兩部分：
1.網頁下載：curl 等擴展庫;
2.文檔解析：dom、xpath、tidy、各種轉碼工具，可能跟題主的問題不太一樣，我的爬蟲需要提取正文，所以需要很復雜的文本處理，所以各種方便的文本處理工具是我的大愛。;
總之容易上手。

缺點：
1.並發處理能力較弱：由於當時 PHP 沒有線程、進程功能，要想實現並發需要借用多路服用模型，PHP 使用的是 select 模型。實現其來比較麻煩，可能是因為水平問題我的程序經常出現一些錯誤，導致漏抓。

再說說 Python：
優點：
1.各種爬蟲框架，方便高效的下載網頁;
2.多線程、進程模型成熟穩定，爬蟲是一個典型的多任務處理場景，請求頁面時會有較長的延遲，總體來說更多的是等待。多線程或進程會更優化程序效率，提升整個系統下載和分析能力。
3.GAE 的支持，當初寫爬蟲的時候剛剛有 GAE，而且只支持 Python ，利用 GAE 創建的爬蟲幾乎免費，最多的時候我有近千個應用實例在工作。

缺點：
1.對不規范 HTML 適應能力差：舉個例子，如果一個頁面裡面同時有 GB18030 字元集的中文和 UTF-8 字元集的中文，Python 處理起來就沒有 PHP 那麼簡單，你自己需要做很多的判斷工作。當然這是提取正文時的麻煩。

Java 和 C++ 當時也考察過，相對腳本語言比較麻煩，所以放棄。

總之，如果開發一個小規模的爬蟲腳本語言是個各方面比較有優勢的語言。如果要開發一個復雜的爬蟲系統可能 Java 是個增加選項， C++ 我感覺寫個模塊之類的更加適合。對於一個爬蟲系統來說，下載和內文解析只是基本的兩個功能。真正好的系統還包括完善的任務調度、監控、存儲、頁面數據保存和更新邏輯、排重等等。爬蟲是一個耗費帶寬的應用，好的設計會節約大量的帶寬和伺服器資源，並且好壞差距很大。

『拾』如何用PHP做網路爬蟲

其實用PHP來爬會非常方便，主要是PHP的正則表達式功能在搜集頁面連接方面很方便，另外PHP的fopen、file_get_contents以及libcur的函數非常方便的下載網頁內容。

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：1119

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1398

python中的init方法發布：2025-10-20 08:17:33 瀏覽：1089

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1265

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：1125

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1481

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：680

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：586

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1253

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1304

php爬蟲框架

與php爬蟲框架相關的資訊