import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLEncoder;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Parser
{
public static void main(String[] args){
try
{
url = new URL("http://tw.yahoo.com/");
HttpURLConnection con = (HttpURLConnection) url.openConnection();
int state = con.getResponseCode();
if (state == 200)
{
System.out.println("連接可用");
Document doc = Jsoup.parse(url, 3000);
System.out.println(doc.text());
}
else {
System.err.println("連接不可用!!!!");
}
} catch (IOException e)
{
e.printStackTrace();
}
}
這樣就可把yahoo的內容parse下來囉
by 小編 ting
如果截取的網址含有中文,那就要先轉成相對代碼才可以進行parse喔,以下代碼呈現
String url = new String(); // 重新組成網址字串
for (int j = 0; j < str.length(); j++) // str是你的網址字串
{
if (str.substring(j, j + 1).matches("[\\u4e00-\\u9fa5]+"))
{
url = url + URLEncoder.encode(str.substring(j, j + 1),"UTF-8");
} else
{
url = url + str.substring(j, j + 1).toString();
}
}
請先 登入 以發表留言。