java寫爬蟲

發布時間: 2023-05-30 15:54:48

⑴ 如何java寫/實現網路爬蟲抓取網頁

網路爬蟲是一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。
java實現網頁源碼獲取的步驟：
(1)新建URL對象，表示要訪問的網址。如：url=new URL("http://www.sina.com.cn");
(2)建立HTTP連接，返回連接對象urlConnection對象。如：urlConnection = (HttpURLConnection)url.openConnection();
(3)獲取相應HTTP 狀態碼。如responsecode=urlConnection.getResponseCode();
(4)如果HTTP 狀態碼為200，表示成功。從urlConnection對象獲取輸入流對象來獲取請求的網頁源代碼。

⑵ 如何用Java寫一個爬蟲

我主要使用Jsoup解析，獲取源碼有時候使用Jsoup，比較復雜的時候比如需要換ip，改編碼或者模擬登陸的時候使用HttpClient，以下是抓取開源中國新聞的一段代碼，可以運行。
package demo;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
*
* 使用JSoup 解析網頁，語法使用 JS，css，Jquery 選擇器語法，方便易懂
*
* Jsoup教程網：jsoup開發指南,jsoup中文使用手冊,jsoup中文文檔
*
* @author geekfly
*
*/
public class JsoupDemo {
public static void main(String[] args) throws IOException {
String url = "新聞資訊 - 開源中國社區";
Document document = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; rv:30.0) Gecko/20100101 Firefox/30.0").get();
Elements elements = document.select("#RecentNewsList .List > li");
for (Element element : elements) {
Elements titleElement = element.select("h2 a");
String title = titleElement.text();
String link = titleElement.attr("href").trim();
Elements dataElement = element.select(".date");
Elements autherElement = dataElement.select("a");
String auther = autherElement.text();
autherElement.remove();
String date = dataElement.text();
String detail = element.select(".detail").text();
System.out.println("鏈接： " + link);
System.out.println("標題： " + title);
System.out.println("作者： " + auther);
System.out.println("發布時間： " + date);
System.out.println("詳細信息： " + detail);
System.out.println();
System.out.println();
}
System.out.println(elements.size());
}
}

⑶ Java多線程爬蟲實現

一、需求

1.定時抓取固定網站新聞標題、內容、發表時間和來源。

2.程序需要支持分布式、多線程

二、設計

1.網站是固定，但是未來也可能添加新的網站去抓取，每個網站內容節點設計都不一樣，這樣就需要支持動態可配置來新增網站以方便未來的擴展，這樣就需要每次都需要開發介入。

2.網站html節點的結構可能發生變化，所以也要支持提取節點可配置。

3.怎樣支持分布式？暫時最簡單的想法就是：多機器部署程序，還有新搞一台或者部署程序其中一台製作一個定時任務，定時開啟每台機器應該抓取哪個網站，暫時不能支持同一個網站同時可以支持被多台機器同時抓取，這樣會比較麻煩，要用到分布式隊列。所以暫時一個網站同時只會被單台機器抓取。

4.多線程，怎樣多線程？多線程抓取我這邊有兩個實現：

（1）一個線程抓取一個網站，維護一罩拿個自己的url隊列做廣度抓取，同時抓取多個網站。如圖：

（2）多個線程同時抓取不同的網站。如圖：

以上兩飢悶做張辦法其實各有優點，也給有缺點，看我們怎麼取捨了。

方法1：每個線程創建一個自己的隊列，圖中的queue可以不用concurrentQueue，優點：不涉及到控制並發，每個網站一個線程抓取一個網站，抓取完畢即自動回收銷毀線程。控制方便。缺點：線程數不可以擴展，例如當只有3個網站，你最多隻能開3個線程來抓取，不能開更多，有一定的局限性。

方法2：N個線程同時抓取N個網站，線程數和網站數目不掛鉤，優點：線程數可以調整並且和和抓取網站數量無關。3個網站我們可以開4個5個或者10個這個可以根據您的硬體資源進行調整。缺點：需要控制並發，並且要控制什麼時候銷毀線程（thread1空閑，並且queue為空不代表任務可以結束，可能thread2結果還沒返回），當被抓取的網站響應較慢時，會拖慢整個爬蟲進度。

三、實現

抓取方式最終還是選擇了方法二，因為線程數可配置！

使用技術：

jfinal用了之後才發現這東西不適合，但是由於項目進度問題，還是使用了。

maven項目管理

jettyserver

mysql

eclipse開發

項目需要重點攻破的難點：

（1）合理的控制N個線程正常的抓取網站，並且當所有爛衡線程工作都完成了並且需要抓取的隊列為空時，N個線程同時退出銷毀。

（2）不同網站設計節點不一樣，需要通過配置解決各個網站需要抓取的URL和抓取節點內容在html節點的位置。

（3）個性化內容處理，由於html結構設計問題，北大青鳥認為抓取的內容可能有些多餘的html標簽，或者多餘的內容該怎麼處理。

⑷ java適合寫爬蟲嗎

JAVA也可以實現爬蟲，比如jsoup包，一個非常方便解析html的工具呢。
不過相對來說，java語言笨重，稍微有些麻煩。

⑸ JAVA怎麼弄爬蟲

以下是一個使用java實現的簡單爬蟲核纖凱心代碼：
public void crawl() throws Throwable {
while (continueCrawling()) {
CrawlerUrl url = getNextUrl(); //獲取待爬取隊列中的下一個URL
if (url != null) {
printCrawlInfo();
String content = getContent(url); //獲取URL的文本信息

//聚焦爬蟲只爬取與主題內容相關的網頁，這里採用正則匹配簡單處理
if (isContentRelevant(content, this.regexpSearchPattern)) {
saveContent(url, content); //保存網頁至本地

//獲取網頁內容中的鏈接，並放入待爬取隊列中
Collection urlStrings = extractUrls(content, url);
addUrlsToUrlQueue(url, urlStrings);
} else {
System.out.println(url + " is not relevant ignoring ...");
}

//延時防止被對方屏蔽
Thread.sleep(this.delayBetweenUrls);
}
}
closeOutputStream();
}
private CrawlerUrl getNextUrl() throws Throwable {
CrawlerUrl nextUrl = null;
while ((nextUrl == null) && (!urlQueue.isEmpty())) {
CrawlerUrl crawlerUrl = this.urlQueue.remove();
//doWeHavePermissionToVisit：是否有許可權訪問該URL，友好的爬蟲會根據網站提供的"Robot.txt"中配置的規則進行爬取
//isUrlAlreadyVisited：URL是否訪問過，大型的搜索引擎往往採用BloomFilter進行排重仿困，這里簡單使用HashMap
//isDepthAcceptable：是否達到指定的深度上限。爬蟲一般採取廣度優先的方式。一些網站毀大喚會構建爬蟲陷阱（自動生成一些無效鏈接使爬蟲陷入死循環），採用深度限制加以避免
if (doWeHavePermissionToVisit(crawlerUrl)
&& (!isUrlAlreadyVisited(crawlerUrl))
&& isDepthAcceptable(crawlerUrl)) {
nextUrl = crawlerUrl;
// System.out.println("Next url to be visited is " + nextUrl);
}
}
return nextUrl;
}
private String getContent(CrawlerUrl url) throws Throwable {
//HttpClient4.1的調用與之前的方式不同
HttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(url.getUrlString());
StringBuffer strBuf = new StringBuffer();
HttpResponse response = client.execute(httpGet);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
HttpEntity entity = response.getEntity();
if (entity != null) {
BufferedReader reader = new BufferedReader(
new InputStreamReader(entity.getContent(), "UTF-8"));
String line = null;
if (entity.getContentLength() > 0) {
strBuf = new StringBuffer((int) entity.getContentLength());
while ((line = reader.readLine()) != null) {
strBuf.append(line);
}
}
}
if (entity != null) {
nsumeContent();
}
}
//將url標記為已訪問
markUrlAsVisited(url);
return strBuf.toString();
}
public static boolean isContentRelevant(String content,
Pattern regexpPattern) {
boolean retValue = false;
if (content != null) {
//是否符合正則表達式的條件
Matcher m = regexpPattern.matcher(content.toLowerCase());
retValue = m.find();
}
return retValue;
}
public List extractUrls(String text, CrawlerUrl crawlerUrl) {
Map urlMap = new HashMap();
extractHttpUrls(urlMap, text);
extractRelativeUrls(urlMap, text, crawlerUrl);
return new ArrayList(urlMap.keySet());
}
private void extractHttpUrls(Map urlMap, String text) {
Matcher m = (text);
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
// System.out.println("Term = " + term);
if (term.startsWith("http")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
urlMap.put(term, term);
System.out.println("Hyperlink: " + term);
}
}
}
}
private void extractRelativeUrls(Map urlMap, String text,
CrawlerUrl crawlerUrl) {
Matcher m = relativeRegexp.matcher(text);
URL textURL = crawlerUrl.getURL();
String host = textURL.getHost();
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
if (term.startsWith("/")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
String s = //" + host + term;
urlMap.put(s, s);
System.out.println("Relative url: " + s);
}
}
}

}
public static void main(String[] args) {
try {
String url = "";
Queue urlQueue = new LinkedList();
String regexp = "java";
urlQueue.add(new CrawlerUrl(url, 0));
NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,
regexp);
// boolean allowCrawl = crawler.areWeAllowedToVisit(url);
// System.out.println("Allowed to crawl: " + url + " " +
// allowCrawl);
crawler.crawl();
} catch (Throwable t) {
System.out.println(t.toString());
t.printStackTrace();
}
}

⑹ 如何使用Java語言實現一個網頁爬蟲

Java開源Web爬蟲

Heritrix

Heritrix是一個開源，可擴展的web爬蟲項目。Heritrix設計成嚴格按照robots.txt文件的排除指示和META robots標簽。

更多Heritrix信息

WebSPHINX

WebSPHINX是一個Java類包和Web爬蟲的互動式開發環境。Web爬蟲(也叫作機器人或蜘蛛)是可以自動瀏覽與處理Web頁面的程序。WebSPHINX由兩部分組成：爬蟲工作平台和WebSPHINX類包。

更多WebSPHINX信息

WebLech

WebLech是一個功能強大的Web站點下載與鏡像工具。它支持按功能需求來下載web站點並能夠盡可能模仿標准Web瀏覽器的行為。WebLech有一個功能控制台並採用多線程操作。

⑺ 如何用Java寫一個爬蟲

最近剛好在學這個，對於一些第三方工具類或者庫，一定宴旁要看官方tutorial啊。

學會用chrome network 分析請求，或者fiddler抓包分析。

普通的網頁直接用httpclient封裝的API就可以獲取網頁HTML了，然後 JSoup、正則提取內容。
若網站有反爬蟲機制的，會需要構造User-Agent 偽裝瀏覽器；若有需要登錄的，會傳入cookie進去。

有些網頁可能是利用ajax技術的，可以嘗試PhantomJS拿到渲染後的HTML(然後步驟同上); 或猛祥肢者直接chrome network分析請求的URL以及傳參，然後直接拿到json。

關於圖片驗證枝世碼的沒嘗試過，是不是要用到第三方ocr工具識別圖片驗證碼然後作為URL參數，希望做過的童鞋告知。

⑻ 如何用Java寫一個爬蟲

原理即是保存cookie數據保存登陸後的cookie.以後每次抓取頁面把cookie在頭部信息裡面發送過去。系統是根據cookie來判斷用戶的。世殲友有了cookie就有了登錄狀態，以後的訪問都是基於這個cookie對應的用戶的。補充：Java是一種可以撰寫跨平台應搜槐用軟體的面向對象的程序設計語言。Java技術具有卓越的通用性、高效性、平台移植性和安全性，廣泛應用於PC、數據中心、游戲控制台、科學超級計算機、行動電話和改伍互聯網，同時擁有全球最大的開發者專業社群。

⑼ 如何用Java寫一個爬蟲

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39

import java.io.File;
import java.net.URL;
import java.net.URLConnection;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.Scanner;
import java.util.UUID;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class DownMM {
public static void main(String[] args) throws Exception {
//out為輸出的路徑,注意要以\\結尾
String out = "D:\\JSP\\pic\\java\\";
try{
File f = new File(out);
if(! f.exists()) {
f.mkdirs();
}
}catch(Exception e){
System.out.println("no");
}

String url = "http://www.mzitu.com/share/comment-page-";
Pattern reg = Pattern.compile("<img src=\"(.*?)\"");
for(int j=0, i=1; i<=10; i++){
URL uu = new URL(url+i);
URLConnection conn = uu.openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");
Scanner sc = new Scanner(conn.getInputStream());
Matcher m = reg.matcher(sc.useDelimiter("\\A").next());
while(m.find()){
Files.(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));
System.out.println("已下載:"+j++);
}
}
}

⑽ java如何做高級爬蟲

下面說明知乎爬蟲的源碼和涉及主要技術點：
（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）
要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）
模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網路連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）
自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）
使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。 ...展開下面說明知乎爬蟲的源碼和涉及主要技術點：
（1）程序package組織

（2）模擬登錄（爬蟲主要技術點1）
要爬去需要登錄的網站數據，模擬登錄是必要可少的一步，而且往往是難點。知乎爬蟲的模擬登錄可以做一個很好的案例。要實現一個網站的模擬登錄，需要兩大步驟是：（1）對登錄的請求過程進行分析，找到登錄的關鍵請求和步驟，分析工具可以有IE自帶(快捷鍵F12)、Fiddler、HttpWatcher；（2）編寫代碼模擬登錄的過程。

（3）網頁下載（爬蟲主要技術點2）
模擬登錄後，便可下載目標網頁html了。知乎爬蟲基於HttpClient寫了一個網路連接線程池，並且封裝了常用的get和post兩種網頁下載的方法。

（4）自動獲取網頁編碼（爬蟲主要技術點3）
自動獲取網頁編碼是確保下載網頁html不出現亂碼的前提。知乎爬蟲中提供方法可以解決絕大部分亂碼下載網頁亂碼問題。

（5）網頁解析和提取（爬蟲主要技術點4）
使用Java寫爬蟲，常見的網頁解析和提取方法有兩種：利用開源Jar包Jsoup和正則。一般來說，Jsoup就可以解決問題，極少出現Jsoup不能解析和提取的情況。Jsoup強大功能，使得解析和提取異常簡單。知乎爬蟲採用的就是Jsoup。

（6）正則匹配與提取（爬蟲主要技術點5）
雖然知乎爬蟲採用Jsoup來進行網頁解析，但是仍然封裝了正則匹配與提取數據的方法，因為正則還可以做其他的事情，如在知乎爬蟲中使用正則來進行url地址的過濾和判斷。

（7）數據去重（爬蟲主要技術點6）
對於爬蟲，根據場景不同，可以有不同的去重方案。（1）少量數據，比如幾萬或者十幾萬條的情況，使用Map或Set便可；（2）中量數據，比如幾百萬或者上千萬，使用BloomFilter（著名的布隆過濾器）可以解決；（3）大量數據，上億或者幾十億，Redis可以解決。知乎爬蟲給出了BloomFilter的實現，但是採用的Redis進行去重。

（8）設計模式等Java高級編程實踐
除了以上爬蟲主要的技術點之外，知乎爬蟲的實現還涉及多種設計模式，主要有鏈模式、單例模式、組合模式等，同時還使用了Java反射。除了學習爬蟲技術，這對學習設計模式和Java反射機制也是一個不錯的案例。
4. 一些抓取結果展示收起

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：710

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：972

python中的init方法發布：2025-10-20 08:17:33 瀏覽：683

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：836

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：741

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1081

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：313

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：193

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：880

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：839

java寫爬蟲

與java寫爬蟲相關的資訊