怎么用java写网络爬虫将网页中的指定数据下载到本地excel文档中

2025-04-14 00:37:15
推荐回答(2个)
回答1:

mport java.io.InputStream;
        import java.net.*;
        public class HelloHttp {
        }

        接著就可以仿照下列范例建立HTTP连线:

        URL url = new URL("http://tw.yahoo.com");
        HttpURLConnection http = (HttpURLConnection) url.openConnection();
        http.setRequestMethod("POST");
        InputStream input = http.getInputStream();
        http.disconnect();

    第1行建立一个URL物件,带入参数为想要建立HTTP连线的目的地,例如网站的网址。
    第2行建立一个HttpURLConnection物件,并利用URL的openConnection()来建立连线。
    第3行利用setRequestMethod()来设定连线的方式,一般分为POST及GET两种。
    第4行将连线取得的回应载入到一个InputStream中,然後就可以将InputStream的内容取出应用,以这个例子而言我们取得的会是网页的原始码。
    第5行用disconnect()将连线关闭。 

       将InputStream内容取出应用的范例如下:

        byte[] data = new byte[1024];
        int idx = input.read(data);
        String str = new String(data, 0, idx);
        System.out.println(str);
        input.close(); 

        针对 str 作 regular expression 处理 , 依照需求取得内容。

回答2:

use Regular Expression