zoukankan html css js c++ java

Discuz 楼主帖子采集

       try
            {
                for (int i = 1; i < 130; i++)
                {
                    var html = GetHtmls("http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page="+i,"","","gbk");
                    var ms = Regex.Matches(html, @"<table[sS]+?</table");
                    File.AppendAllText("1.html",string.Format( "<h4>第{0}页</h4><hr>",i));
                    foreach (Match m in ms)
                    {
                        var temp = m.Groups[0].Value;
                        if (!temp.Contains("鱼骨的个人空间")) continue;
                        var m1 = Regex.Match(temp, @"t_msgfont"">([sS]+?)</div>s+<br");
                        var str = m1.Groups[1].Value;
                        str = Regex.Replace(str, @"[<i>s*本帖最后由.+?编辑s*</i>]", "");
                        File.AppendAllText("1.html","<p>"+str+"</p>");
                    }
                }
                MessageBox.Show("over");
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }

看到这帖子不错 http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page=1

写了一段代码进行采集,看着方便多了

365的

          try
            {
                for (int i = 1; i < 36; i++)
                {
                    var html = GetHtmls("http://xxxxxxx/thread-536585-"+i+"-1.html");
                    var ms = Regex.Matches(html, @"<tr><tds+width=""20%""s+align=""left""s+nowrap>[sS]+?id=""msg"">([sS]+?)</div>");
                    File.AppendAllText("365.html", string.Format("<h4>第{0}页</h4><hr>", i));
                    foreach (Match m in ms)
                    {
                        var temp = m.Groups[0].Value;
                        if (!temp.Contains("5>yswgxx</font>")) continue;
                        var m1 = Regex.Match(temp, @"(<fonts+color=blue>[sS]+?)</td>");
                        var str = m1.Groups[1].Value;

str = str+"<br>"+m.Groups[1].Value;

File.AppendAllText("365.html", "" + str.Replace("------ 发表于安卓手机365App","") + "");


                    }
                    //break;
                }
                MessageBox.Show("over");
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }

查看全文

相关阅读:
图形验证码---pillow
vue富文本编辑器vue-quill-editor
django邮件发送
 Django REST Framework JWT
jwt验证
 使用django的用户表进行登录管理
 [转]CSRF漏洞详细说明
 Django框架10
Django框架09
Django框架08

原文地址：https://www.cnblogs.com/simadi/p/4651239.html