zoukankan
html css js c++ java
采集系统万能正则表达式
由于经常要写一些采集的程序,下面的三个函数是采集中的很常用的函数。姑且叫采集系统万能正则表达式吧。全部源码见
http://www.softbk.com/news.asp?id=3564
欢迎一起交流
//
获取页面的html源码
public
string
GetHtmlSource(
string
Url,
string
charset)
{
if
(charset
==
""
||
charset
==
null
) charset
=
"
gb2312
"
;
string
text1
=
""
;
try
{
HttpWebRequest request1
=
(HttpWebRequest)WebRequest.Create(Url);
HttpWebResponse response1
=
(HttpWebResponse)request1.GetResponse();
Stream stream1
=
response1.GetResponseStream();
StreamReader reader1
=
new
StreamReader(stream1, Encoding.GetEncoding(charset));
text1
=
reader1.ReadToEnd();
stream1.Close();
response1.Close();
}
catch
(Exception exception1)
{
}
return
text1;
}
public
string
SniffwebCode(
string
code,
string
wordsBegin,
string
wordsEnd)
{
string
NewsTitle
=
""
;
Regex regex1
=
new
Regex(
""
+
wordsBegin
+
@"
(?<title>[\s\S]+?)
"
+
wordsEnd
+
""
, RegexOptions.Compiled
|
RegexOptions.IgnoreCase);
for
(Match match1
=
regex1.Match(code); match1.Success; match1
=
match1.NextMatch())
{
NewsTitle
=
match1.Groups[
"
title
"
].ToString();
}
return
NewsTitle;
}
public
ArrayList SniffwebCodeReturnList(
string
code,
string
wordsBegin,
string
wordsEnd)
{
ArrayList urlList
=
new
ArrayList();
//
string NewsTitle = "";
Regex regex1
=
new
Regex(
""
+
wordsBegin
+
@"
(?<title>[\s\S]+?)
"
+
wordsEnd
+
""
, RegexOptions.Compiled
|
RegexOptions.IgnoreCase);
for
(Match match1
=
regex1.Match(code); match1.Success; match1
=
match1.NextMatch())
{
urlList.Add(match1.Groups[
"
title
"
].ToString());
}
return
urlList;
}
查看全文
相关阅读:
《信息安全系统设计基础》实验一 开发环境的熟悉
20145205 《信息安全系统设计基础》第9周学习总结
#20145205《信息安全系统设计基础》第八周学习暨期中总结
20145205 《信息安全系统设计基础》第7周学习总结
20145205 《信息安全系统设计基础》第6周学习总结
20145205 《信息安全系统设计基础》第5周学习总结
20145205 《信息安全系统设计基础》第3周学习总结
《信息安全系统设计基础》第一周问题总结
20145205 《信息安全系统设计基础》第2周学习总结
20145205 《信息安全系统设计基础》第1周学习总结
原文地址:https://www.cnblogs.com/wuyisky/p/978258.html
最新文章
20155338《网络对抗》Exp2 后门原理与实践
20155338《网络对抗技术》 Exp1 PC平台逆向破解
20155338《信息安全系统设计基础》课程总结
2017-2018-1 20155338 《信息安全系统设计基础》第十四周学习总结
2017-2018-1 20155338 《信息安全系统设计基础》第十三周学习总结
2017-2018-1 20155338 信息安全系统设计基础》实验五 通信协议设计
2017-2018-1 20155338 《信息安全系统设计基础》第十一周学习总结
2017-2018-1 20155338 20155307 20155335 实验四 外设驱动程序设计
2017-2018-1 20155338 加分项目——PWD的实现
2017-2018-1 20155338 20155307 20155335实验三 实时系统
热门文章
【课堂实践】嵌入式基础
20155316 《信息安全系统设计基础》课程总结
2017-2018-1 20155316 《信息安全系统设计基础》第14周学习总结
【实验课】实验五-通讯协议设计
2017-2018-1 20155316 《信息安全系统设计基础》第13周学习总结
个人部分链接汇总
2017-2018-1 20155316 《信息安全系统设计基础》第11周学习总结
【信息安全技术】实验报告:木马及远程控制技术
【课堂实践】第13周
2017-2018-1 20155316 《信息安全系统设计基础》第9周学习总结
Copyright © 2011-2022 走看看