我是武男, 24歲, 大家都叫我阿男...有的人還會叫我白目老百姓...找我的話請Google "武男" 就沒錯了~

[c#]擷取網頁原始碼Version 1.1

Autor 白目研究生

記得之前有寫過了,還有印象乎??(延伸閱讀)

不過貌似有編碼的問題

參考資料: http://www.purecs.net/thread/topic493_1.aspx

找了第二個Solution

加了一些正規式語法過濾不必要的資料 or 只留需要的資料

        HttpWebRequest request = (HttpWebRequest)WebRequest.Create(http://hostname/);
        request.MaximumAutomaticRedirections = 4;
        request.MaximumResponseHeadersLength = 4;
        request.Credentials = CredentialCache.DefaultCredentials;
        HttpWebResponse response = (HttpWebResponse)request.GetResponse();
        Stream receiveStream = response.GetResponseStream();
        StreamReader readStream = new StreamReader(receiveStream, Encoding.UTF8);        this.TextBox1.Text=readStream.ReadToEnd();
        response.Close();
        readStream.Close();

之後再加入Regex過濾資料

(?<=<a[\s\S]+?href=["'])http://[\s\S]+?(?=["'][\s\S]+?>) 

抓出來的結果會像這樣子

tssssssse.gif

嘖,結果還是沒有解決YAHOO大量存取的Error 999 的問題

Random Posts

請留言

Reader's Comments

  1. MyBlog_笑著流淚II » 武男亂講-更方便的網頁瀏覽 |

    [...] MyBlog_笑著流淚II » 武男亂講-更方便的網頁瀏覽 on GuestBookMyBlog_笑著流淚II » [c#]擷取網頁原始碼Version 1.1 on [C#] 抓取 HTTP 內容在網頁程式中顯示heaven on [...]

CommentComment