java抓取

发布时间: 2022-05-02 19:07:58

1. 如何使用java抓取网页上指定部分的内容

1. 你可以选择用Java代码来找到整个网页的html代码，如下
(注意在处理网页方面的内容时，需要导入htmlparser包来支持)

import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;

public class htmlmover {
public static void main(String[] args){
NodeList rt= getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public static NodeList getNodeList(String url){
Parser parser = null;
HtmlPage visitor = null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");
visitor = new HtmlPage(parser);
parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return nodeList;
}
}

以上代码，public static NodeList getNodeList(String url) 为主体
传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)
这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了
注意： parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12 （刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点


<div id="sw01_con1">
<table width="655" border="0" cellspacing="0" cellpadding="0" class="hgtab">
<thead>
<tr>
<th width="85" align="center" class="th_l">交易币种</th>
<th width="80" align="center">交易单位</th>
<th width="130" align="center">现价(人民币)</th>
<th width="80" align="center">卖出价</th>
<th width="100" align="center">现汇买入价</th>
<th width="95" align="center">现钞买入价</th>
</tr>
</thead>
<tbody>
<tr align="center">
<td> 英镑</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 港币</td>
<td>100</td>
<td>81.54</td>
<td>82.13</td>
<td>81.81</td>
<td class="no">81.16</td>
</tr>
<tr align="center">
<td> 美元</td>
<td>100</td>
<td>635.49</td>
<td>639.35</td>
<td>636.8</td>
<td class="no">631.69</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞士法郎</td>
<td>100</td>
<td>710.89</td>
<td>707.78</td>
<td>702.14</td>
<td class="no">680.46</td>
</tr>
<tr align="center">
<td> 新加坡元</td>
<td>100</td>
<td>492.45</td>
<td>490.17</td>
<td>486.27</td>
<td class="no">471.25</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 瑞典克朗</td>
<td>100</td>
<td>93.66</td>
<td>93.79</td>
<td>93.04</td>
<td class="no">90.17</td>
</tr>
<tr align="center">
<td> 丹麦克朗</td>
<td>100</td>
<td>116.43</td>
<td>115.59</td>
<td>114.67</td>
<td class="no">111.13</td>
</tr>
<tr align="center" bgcolor="#f2f3f4">
<td> 挪威克朗</td>
<td>100</td>
<td>110.01</td>
<td>109.6</td>
<td>108.73</td>
<td class="no">105.37</td>
</tr>

</tbody>
</table>
</div>


大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想象，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据
以下代码仍需导入htmlparser Java支持包
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class Currencyrate {
public static void main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt= getNodeList(url);
for (int i = 0; i < rt.size(); i++){
System.out.println(rt.get(i));
}
}

public static ArrayList<String> getNodeList(String url){
final ArrayList<String> result=new ArrayList<String>();
Parser parser = null;
NodeList nodeList=null;
try {
parser = new Parser(url);
parser.setEncoding("GBK");

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
}
);
}catch (ParserException e) {
e.printStackTrace();
}
return result;
}

public static boolean getStringsByRegex(String txt) {
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
}

废话不多说，
public static ArrayList<String> getNodeList(String url) 主要方法
parser.setEncoding("GBK"); 需要注意，代码编码格式

nodeList = parser.parse(
new NodeFilter(){
@Override
public boolean accept(Node node){
}
｝
);
nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法
在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个
accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。
代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor); 就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。
于是
public boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return true;
}
return false;
}
Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if (m.find()){
return true;
}
return false;
}
大家可以发现我们索要的每一段都是
<tr align="center">
<td> 英镑</td>
<td>100</td>
<td>992.7</td>
<td>1001.24</td>
<td>993.26</td>
<td class="no">962.6</td>
</tr>
所以只要找到<td class="no">这个节点就行了，我们用正则表达式去比较
String regex="td class=\"no\""; 这个是比较标准（正则表达式 td class=”no” 其中两个引号需要作为转义字符来表示成\“ ）
变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是
for(int i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayList<String>中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayList<String>，就可以显示到我们所需要的Java widget上去了

2. java爬虫怎么抓取登陆后的网页数据

一般爬虫都不会抓登录以后的页面，
如果你只是临时抓某个站，可以模拟登录，然后拿到登录以后的Cookies，再去请求相关的页面。

3. Java中怎么抓取网页中的图片

通过httpclient来爬取网站内容，分析当前内容页中的图片‘规则’
抓取一般都是模拟浏览器访问目标网页，通过返回的页面html代码进行分析自己需要的数据
查找规则，例如你爬取的网页，看到当前页面显示的图片格式如下<img src="http://www..com/img/20101025_user.png">
通过解析爬取的网页源代码（html）进行字符串的操作即可，现在有相应的第三方jar包可以帮你更快的完成这部分工作，例如htmlpaser，获取到对应的地址，然后进行保存或下载。
你可以搜索，java爬虫(httpclient)和htmlpaser做更多的了解。

4. 如何java写/实现网络爬虫抓取网页

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。
java实现网页源码获取的步骤：
(1)新建URL对象，表示要访问的网址。如：url=new URL("http://www.sina.com.cn");
(2)建立HTTP连接，返回连接对象urlConnection对象。如：urlConnection = (HttpURLConnection)url.openConnection();
(3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();
(4)如果HTTP 状态码为200，表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。

5. 如何通过Java代码实现对网页数据进行指定抓取

通过Java代码实现对网页数据进行指定抓取方法步骤如下：
1在工程中导入Jsoup.jar包

2获取网址url指定HTML或者文档指定的body

3获取网页中超链接的标题和链接

4获取指定博客文章的内容

5获取网页中超链接的标题和链接的结果

6. java 抓取网页数据,要怎么抓取

如果是一般允许抓取的页面用 wget就可以抓取了，
不允许抓取的的爬虫程序可以考虑用HttpClient

7. 用Java来实现抓取数据的问题

你可以利用jsoup来抓取HTML页面的信息
Document doc = Jsoup.parse(input,"UTF-8","http://www.oschina.net/");

Elements links = doc.select("a[href]"); // 具有 href 属性的链接
Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 图片的元素

Element masthead = doc.select("div.masthead").first();
// 找出定义了 class=masthead 的元素

Elements resultLinks = doc.select("h3.r > a"); // direct a after h3

8. java爬虫抓取指定数据

根据java网络编程相关的内容，使用jdk提供的相关类可以得到url对应网页的html页面代码。

针对得到的html代码，通过使用正则表达式即可得到我们想要的内容。

比如，我们如果想得到一个网页上所有包括“java”关键字的文本内容，就可以逐行对网页代码进行正则表达式的匹配。最后达到去除html标签和不相关的内容，只得到包括“java”这个关键字的内容的效果。

从网页上爬取图片的流程和爬取内容的流程基本相同，但是爬取图片的步骤会多一步。

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

9. 如何用Java抓取百度百科

1、在工程中导入Jsoup.jar包

2、获取网址url指定HTML或者文档指定的body

3、获取网页中超链接的标题和链接

4、获取指定博客文章的内容

5、获取网页中超链接的标题和链接的结果

10. Java如何从一个网站中抓取数据

在这个另外的文件里写:
login user = new login();
String id = user.GetUserID();
System.out.println(id);

PS:java文件首字母用大写,方法首字母用小写.

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1091

制作脚本网站发布：2025-10-20 08:17:34 浏览：1369

python中的init方法发布：2025-10-20 08:17:33 浏览：1054

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1230

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1098

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1449

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：656

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：551

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1228

python股票数据获取发布：2025-10-20 07:39:44 浏览：1254

java抓取

与java抓取相关的资讯