zoukankan      html  css  js  c++  java
  • 通过WebBrowser取得AJAX后的网页

    通常情况下通过WebBrowser的文档加载完成事件DocumentCompleted中进行判断

    if (_WebBrowder.ReadyState == WebBrowserReadyState.Complete)
     {
            //取网页信息并处理
     }

    不过,不幸的是很多网页相当复杂,有的时候调试可以看到_WebBrowder.ReadyState状态信息可能一直处于WebBrowserReadyState.Interactive状态,但是网页中相关数据已经加载完成或没有加载数据,或者卡了,等等情况都可能出现,为了能够数据采集提升效率,就得考虑超时情况,需要人为实时获取相关html来判断是否文档已加载了我们想要的数据,如果在限定的时间内未加载就要跳过,为了达到这个效果研究了很长时间一直都没解决,后来看到一篇文章http://www.cnblogs.com/wangchuang/p/3618883.html,通过对里面的类进行改进达到自己想要的效果,现在把自己的代码贴出来,有遇到类似的同鞋可以参考下

        /// <summary>
        /// 通过WebBrowser抓取网页数据
        /// WebBrowserCrawler  webBrowserCrawler=new WebBrowserCrawler();
        /// 示例:File.WriteAllText(Server.MapPath("sample.txt"),webBrowserCrawler.GetReult(http://www.in2.cc/sample/waterfalllab.htm));
        /// </summary>
        public class WebBrowserCrawler
        {
            // WebBrowser
            private WebBrowser _WebBrowder;
            //最後結果
            private string _Result { get; set; }
            //網址
            private string _Path { get; set; }
            //当一直在抓取资料,允许等待的的最大秒数,超时时间(秒)
            private int _MaxWaitSeconds { get; set; }
    
            public delegate bool MyDelegate(object sender, TestEventArgs e);
            /// <summary>
            /// 是否达到停止加载条件
            /// </summary>
            public event MyDelegate IsStopEvent; 
    
            /// <summary>
            /// 對外公開的Method
            /// </summary>
            /// <param name="url">URL Path</param>
            /// <param name="maxWaitSeconds">最大等待秒数</param>
            /// <returns></returns>
            public string GetReult(string url, int maxWaitSeconds = 60)
            {
                _Path = url;
                _MaxWaitSeconds = maxWaitSeconds <= 0 ? 60 : maxWaitSeconds;
    
                var mThread = new Thread(FatchDataToResult);
                //Apartment 是處理序當中讓物件共享相同執行緒存取需求的邏輯容器。 同一 Apartment 內的所有物件都能收到 Apartment 內任何執行緒所發出的
                //.NET Framework 並不使用 Apartment;Managed 物件必須自行以安全執行緒 (Thread-Safe) 的方式運用一切共
                //因為 COM 類別使用 Apartment,所以 Common Language Runtime 在 COM Interop 的狀況下呼叫出 COM 物件時必須建立 Apartment 並且加以初
                //Managed 執行緒可以建立並且輸入只容許一個執行緒的單一執行緒 Apartment (STA),或者含有一個以上執行緒的多執行緒 Apartment (MT
                //只要把執行緒的 ApartmentState 屬性設定為其中一個 ApartmentState 列舉型別 (Enumeration),即可控制所建立的 Apartment 屬於哪種
                //因為特定執行緒一次只能初始化一個 COM Apartment,所以第一次呼叫 Unmanaged 程式碼之後就無法再變更 Apartment
                //From : http://msdn.microsoft.com/zh-tw/library/system.threading.apartmentstate.
                mThread.SetApartmentState(ApartmentState.STA);
                mThread.Start();
                mThread.Join();
    
                return _Result;
            }
    
            /// <summary>
            /// Call _WebBrowder 抓取資料
            /// For thread Call
            /// </summary>
            private void FatchDataToResult()
            {
                _WebBrowder = new WebBrowser();
                _WebBrowder.ScriptErrorsSuppressed = true;
                _WebBrowder.Navigate(_Path);
                DateTime firstTime = DateTime.Now;
                //處理目前在訊息佇列中的所有 Windows
                //如果在程式碼中呼叫 DoEvents,您的應用程式就可以處理其他事件。例如,如果您的表單將資料加入 ListBox 並將 DoEvents 加入程式碼中,則當另一個視窗拖到您的表單上時,該表單將重
                //如果您從程式碼移除 DoEvents,您的表單將不會重新繪製,直到按鈕按一下的事件處理常式執
                while ((DateTime.Now - firstTime).TotalSeconds <= _MaxWaitSeconds)
                {
                    if (_WebBrowder.Document != null && _WebBrowder.Document.Body != null &&
                       !string.IsNullOrEmpty(_WebBrowder.Document.Body.OuterHtml) &&
                       this.IsStopEvent != null)
                    {
                        string html = _WebBrowder.Document.Body.OuterHtml;
                        bool rs = this.IsStopEvent(null, new TestEventArgs(html));
                        if (rs)
                        {
                            this._Result = html;
                            break;
                        }
                    }
                    Application.DoEvents();
                }
                _WebBrowder.Dispose();
            }
        }

    使用方法:

                WebBrowserCrawler obj = new WebBrowserCrawler();
                obj.IsStopEvent += new WebBrowserCrawler.MyDelegate((sender, e) => {
                    //当前html中已经加载了我想要的数据,返回true
                    return e.Html.Contains("aidfdsfsdf"); 
                });
                string url = "http://www.xxx.cn/aaa/index.html?keyword=sdfded";
                string html = obj.GetReult(url); //获取采集的数据
                if (!string.IsNullOrEmpty(html))
                {
                    //处理数据
                }
  • 相关阅读:
    LeetCode 461. Hamming Distance
    LeetCode 442. Find All Duplicates in an Array
    LeetCode 448. Find All Numbers Disappeared in an Array
    LeetCode Find the Difference
    LeetCode 415. Add Strings
    LeetCode 445. Add Two Numbers II
    LeetCode 438. Find All Anagrams in a String
    LeetCode 463. Island Perimeter
    LeetCode 362. Design Hit Counter
    LeetCode 359. Logger Rate Limiter
  • 原文地址:https://www.cnblogs.com/rookey/p/5019090.html
Copyright © 2011-2022 走看看