zoukankan
html css js c++ java
采集系统万能正则表达式
由于经常要写一些采集的程序,下面的三个函数是采集中的很常用的函数。姑且叫采集系统万能正则表达式吧。全部源码见
http://www.softbk.com/news.asp?id=3564
欢迎一起交流
//
获取页面的html源码
public
string
GetHtmlSource(
string
Url,
string
charset)
{
if
(charset
==
""
||
charset
==
null
) charset
=
"
gb2312
"
;
string
text1
=
""
;
try
{
HttpWebRequest request1
=
(HttpWebRequest)WebRequest.Create(Url);
HttpWebResponse response1
=
(HttpWebResponse)request1.GetResponse();
Stream stream1
=
response1.GetResponseStream();
StreamReader reader1
=
new
StreamReader(stream1, Encoding.GetEncoding(charset));
text1
=
reader1.ReadToEnd();
stream1.Close();
response1.Close();
}
catch
(Exception exception1)
{
}
return
text1;
}
public
string
SniffwebCode(
string
code,
string
wordsBegin,
string
wordsEnd)
{
string
NewsTitle
=
""
;
Regex regex1
=
new
Regex(
""
+
wordsBegin
+
@"
(?<title>[\s\S]+?)
"
+
wordsEnd
+
""
, RegexOptions.Compiled
|
RegexOptions.IgnoreCase);
for
(Match match1
=
regex1.Match(code); match1.Success; match1
=
match1.NextMatch())
{
NewsTitle
=
match1.Groups[
"
title
"
].ToString();
}
return
NewsTitle;
}
public
ArrayList SniffwebCodeReturnList(
string
code,
string
wordsBegin,
string
wordsEnd)
{
ArrayList urlList
=
new
ArrayList();
//
string NewsTitle = "";
Regex regex1
=
new
Regex(
""
+
wordsBegin
+
@"
(?<title>[\s\S]+?)
"
+
wordsEnd
+
""
, RegexOptions.Compiled
|
RegexOptions.IgnoreCase);
for
(Match match1
=
regex1.Match(code); match1.Success; match1
=
match1.NextMatch())
{
urlList.Add(match1.Groups[
"
title
"
].ToString());
}
return
urlList;
}
查看全文
相关阅读:
jenkins+ant+jmeter实现自动化集成(详解)
Android ADB命令 adb devices 出现error:protocol fault (no status)
使用jmeter做接口测试
估计新版本所需要的案例数量
《将博客搬至CSDN》
HDFS NN refreshNodes操作的可用性和效率的改进
visudo: /etc/sudoers 忙,请稍后重试解决办法
Java try与finally对返回值的影响
Java中基本类型和包装类比较的问题
Java中ArrayList去重方法
原文地址:https://www.cnblogs.com/wuyisky/p/978258.html
最新文章
Spring集成JPA配置懒加载两个报错解决办法
EasyUI前台执行删除功能后台返回给前台信息 删除成功/删除失败+错误信息
SpringDataJPA对数据库的操作的几种方式
将一个文件夹中我们需要的文件拷贝到另一个文件夹中的代码实现
MYSQL基础语法
java导出excel并且压缩成zip上传到oss,并下载,使用字节流去存储,不用文件流保存文件到本地
linux系统下oracle表空间占用情况
linux查看内存及磁盘使用情况
帆软用工具测试超链接打开弹窗(iframe嵌套),解决js传参带中文传递有乱码问题
centOs7.5.64以上版本的操作系统搭建GitLab记录
热门文章
centOs7.5.64之前的操作系统搭建GitLab记录
解决eclipse maven工程中src/main/resources目录下创建的文件夹所显示样式不是文件夹,而是"包"图标样式的问题
【tomcat】启动报错:Failed to initialize end point associated with ProtocolHandler ["http-apr-8080"] java.lang.Exception: Socket bind failed 和java.net.BindException: Address already in use: JVM_Bind错误解决
String.Split()函数 非原创
charles+ios手机抓https包 经验分享
测试工作总结
charles抓包下载安装详细教程
彻底解决fiddler 里面 textview显示乱码问题
linux 启动 jmeter 报 No X11 DISPLAY variable was set, but this program performed an operation which requires it
(详细)Linux下安装Jenkins
Copyright © 2011-2022 走看看