阿Q吧 > 怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中

怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中

2025-04-14 00:37:15

推荐回答（2个）

回答1：

mport java.io.InputStream;
        import java.net.*;
        public class HelloHttp {
        }

        接著就可以仿照下列范例建立HTTP连线：

        URL url = new URL("http://tw.yahoo.com");
        HttpURLConnection http = (HttpURLConnection) url.openConnection();
        http.setRequestMethod("POST");
        InputStream input = http.getInputStream();
        http.disconnect();

    第1行建立一个URL物件，带入参数为想要建立HTTP连线的目的地，例如网站的网址。
    第2行建立一个HttpURLConnection物件，并利用URL的openConnection()来建立连线。
    第3行利用setRequestMethod()来设定连线的方式，一般分为POST及GET两种。
    第4行将连线取得的回应载入到一个InputStream中，然後就可以将InputStream的内容取出应用，以这个例子而言我们取得的会是网页的原始码。
    第5行用disconnect()将连线关闭。 

       将InputStream内容取出应用的范例如下：

        byte[] data = new byte[1024];
        int idx = input.read(data);
        String str = new String(data, 0, idx);
        System.out.println(str);
        input.close(); 

        针对 str 作 regular expression 处理 , 依照需求取得内容。

回答2：

use Regular Expression