[Java] Jsoup 擷取網頁資訊

import java.io.IOException;

import java.io.UnsupportedEncodingException;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLEncoder;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class Parser

{

public static void main(String[] args){

try

{

url = new URL("http://tw.yahoo.com/");

HttpURLConnection con = (HttpURLConnection) url.openConnection();

int state = con.getResponseCode();

if (state == 200)

{

System.out.println("連接可用");

Document doc = Jsoup.parse(url, 3000);

System.out.println(doc.text());

}

else {

System.err.println("連接不可用!!!!");

}

} catch (IOException e)

{

e.printStackTrace();

}

這樣就可把yahoo的內容parse下來囉

by 小編 ting

如果截取的網址含有中文,那就要先轉成相對代碼才可以進行parse喔,以下代碼呈現

String url = new String(); // 重新組成網址字串

for (int j = 0; j < str.length(); j++) // str是你的網址字串

{

if (str.substring(j, j + 1).matches("[\\u4e00-\\u9fa5]+"))

{

url = url + URLEncoder.encode(str.substring(j, j + 1),"UTF-8");

} else

{

url = url + str.substring(j, j + 1).toString();

}

cycu98

cycu98的部落格

cycu98 發表在痞客邦留言(0) 人氣( 566 )

全站分類：圖文創作
個人分類： java

▲top

請先登入以發表留言。

cycu98的部落格

歡迎光臨cycu98在痞客邦的小天地

個人資訊

參觀人氣

cycu98的部落格

歡迎光臨cycu98在痞客邦的小天地