zoukankan
html css js c++ java
采集系统万能正则表达式
由于经常要写一些采集的程序,下面的三个函数是采集中的很常用的函数。姑且叫采集系统万能正则表达式吧。全部源码见
http://www.softbk.com/news.asp?id=3564
欢迎一起交流
//
获取页面的html源码
public
string
GetHtmlSource(
string
Url,
string
charset)
{
if
(charset
==
""
||
charset
==
null
) charset
=
"
gb2312
"
;
string
text1
=
""
;
try
{
HttpWebRequest request1
=
(HttpWebRequest)WebRequest.Create(Url);
HttpWebResponse response1
=
(HttpWebResponse)request1.GetResponse();
Stream stream1
=
response1.GetResponseStream();
StreamReader reader1
=
new
StreamReader(stream1, Encoding.GetEncoding(charset));
text1
=
reader1.ReadToEnd();
stream1.Close();
response1.Close();
}
catch
(Exception exception1)
{
}
return
text1;
}
public
string
SniffwebCode(
string
code,
string
wordsBegin,
string
wordsEnd)
{
string
NewsTitle
=
""
;
Regex regex1
=
new
Regex(
""
+
wordsBegin
+
@"
(?<title>[\s\S]+?)
"
+
wordsEnd
+
""
, RegexOptions.Compiled
|
RegexOptions.IgnoreCase);
for
(Match match1
=
regex1.Match(code); match1.Success; match1
=
match1.NextMatch())
{
NewsTitle
=
match1.Groups[
"
title
"
].ToString();
}
return
NewsTitle;
}
public
ArrayList SniffwebCodeReturnList(
string
code,
string
wordsBegin,
string
wordsEnd)
{
ArrayList urlList
=
new
ArrayList();
//
string NewsTitle = "";
Regex regex1
=
new
Regex(
""
+
wordsBegin
+
@"
(?<title>[\s\S]+?)
"
+
wordsEnd
+
""
, RegexOptions.Compiled
|
RegexOptions.IgnoreCase);
for
(Match match1
=
regex1.Match(code); match1.Success; match1
=
match1.NextMatch())
{
urlList.Add(match1.Groups[
"
title
"
].ToString());
}
return
urlList;
}
查看全文
相关阅读:
Vue的基本使用
django中的跨表查询梳理
docker安装及配置
大数据分析(一)探索性分析
搜索引擎-一种提示词推荐算法
shell变量详解
机器学习之寻找KMeans的最优K
大数据系统之监控系统(二)Flume的扩展
大数据系统之监控系统(一)
大数据系统之系统设计
原文地址:https://www.cnblogs.com/wuyisky/p/978258.html
最新文章
深入浅出讲解:php的socket通信
PHP实现队列及队列原理
并发下常见的加锁及锁的PHP具体实现-转载
PHP禁止同一IP频繁访问以防止网站被防攻击或采集的代码
Linux下安装php环境并且配置Nginx支持php-fpm模块
Open XML格式化Excel数值
Open Xml 读取Excel中的图片
Open Xml轻松实现Word套打(只实现加载数据部分)
解决Dynamic CRM电子邮件配置中无法关闭SSL的问题(本文章为摘抄)
Dynamic CRM 安装与配置
热门文章
Orchard 模块开发学习笔记 (1)
使用Impersonation仿冒用户运行WCF 服务方法
Open xml 操作Excel 透视表(Pivot table)-- 实现Excel多语言报表
Celery
探索drf执行流程之APIView源码分析
redis看这一篇就够了
使用Python库paramiko登录远程设备
centos7上python3.6.5的安装及卸载
Nginx+uWSGI部署flask项目
Numpy
Copyright © 2011-2022 走看看