import java.io.IOException;

import java.io.UnsupportedEncodingException;

import java.net.HttpURLConnection;

import java.net.URL;

import java.net.URLEncoder;

 

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

 

public class Parser

{

public static void main(String[] args){ 

try

{

url = new URL("http://tw.yahoo.com/");

HttpURLConnection con = (HttpURLConnection) url.openConnection();

int state = con.getResponseCode();

if (state == 200)

{

System.out.println("連接可用");

Document doc = Jsoup.parse(url, 3000);

System.out.println(doc.text());

}

else {

System.err.println("連接不可用!!!!");

}

} catch (IOException e)

{

e.printStackTrace();

}

 

 

這樣就可把yahoo的內容parse下來囉

by 小編 ting


 如果截取的網址含有中文,那就要先轉成相對代碼才可以進行parse喔,以下代碼呈現

String url = new String(); // 重新組成網址字串

for (int j = 0; j < str.length(); j++) // str是你的網址字串

{

if (str.substring(j, j + 1).matches("[\\u4e00-\\u9fa5]+"))

{

url = url + URLEncoder.encode(str.substring(j, j + 1),"UTF-8");

} else

{

url = url + str.substring(j, j + 1).toString();

}

}

創作者介紹
創作者 cycu98的部落格 的頭像
cycu98

cycu98的部落格

cycu98 發表在 痞客邦 留言(0) 人氣( 566 )