Welcome to MyBlog_笑著流淚III
歡迎使用非Internet Explorer瀏覽器,欣賞這裡的一切資訊!!
我是武男, 24歲, 大家都叫我阿男...有的人還會叫我白目老百姓...找我的話請Google "武男" 就沒錯了~
[c#]擷取網頁原始碼Version 1.1
Autor 白目研究生
記得之前有寫過了,還有印象乎??(延伸閱讀)
不過貌似有編碼的問題
參考資料: http://www.purecs.net/thread/topic493_1.aspx
找了第二個Solution
加了一些正規式語法過濾不必要的資料 or 只留需要的資料
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(http://hostname/);
request.MaximumAutomaticRedirections = 4;
request.MaximumResponseHeadersLength = 4;
request.Credentials = CredentialCache.DefaultCredentials;
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
Stream receiveStream = response.GetResponseStream();
StreamReader readStream = new StreamReader(receiveStream, Encoding.UTF8); this.TextBox1.Text=readStream.ReadToEnd();
response.Close();
readStream.Close();
之後再加入Regex過濾資料
(?<=<a[\s\S]+?href=["'])http://[\s\S]+?(?=["'][\s\S]+?>)
抓出來的結果會像這樣子
嘖,結果還是沒有解決YAHOO大量存取的Error 999 的問題
Random Posts
請留言
Reader's Comments
Comment
Options
-
一月 27, 2008 -
技術文件 -
1 comment
-
Comments RSS

[...] MyBlog_笑著流淚II » 武男亂講-更方便的網頁瀏覽 on GuestBookMyBlog_笑著流淚II » [c#]擷取網頁原始碼Version 1.1 on [C#] 抓取 HTTP 內容在網頁程式中顯示heaven on [...]