网络蜘蛛爬虫程序

zoukankan html css js c++ java

网络蜘蛛爬虫程序

里面实现很简单，当然只能算是一个演示版本吧！不可能有Google Baidu的那么强大。有爬虫代码 Web代码

主要的代码分析如下：

/// <summary>
/// 取得该URL网页内容数据.调用后面的分析函数。
/// </summary>
private void GetHTML() {
if (_HTMLData != null) return;
Byte[] BinData;
try {
WebClient wc = new WebClient();
BinData = wc.DownloadData(_URL);
_HTMLData = Encoding.Default.GetString(BinData);
wc.Dispose();
}
catch (Exception) { Console.WriteLine("Can not read this page!"); return; }
GetTitle();
GetMeta();
GetLink();
if (OnFinishAnalyze != null) { OnFinishAnalyze(this, new EventArgs()); }
Console.WriteLine("Finish!");
this.Dispose();
}
/// <summary>
/// 分析URL里的Title
/// </summary>
private void GetTitle() {
if (_Title != null) return;

//"(<title>([\S\s]+)</title>)" 提取网页标题的正则表达式
Regex reg = new Regex(@"<title>([\S\s]+)</title>", RegexOptions.IgnoreCase);
try{
Match m = reg.Matches(_HTMLData)[0];
if (m.Success) _Title = m.Groups[1].Captures[0].ToString();
}
catch (Exception) { _Title = ""; }

}
/// <summary>
/// 解析Html代码里的超链接.获得子URL集.
/// </summary>
private void GetLink() {
if (_ChildURLSet != null) return;
ArrayList urlset=new ArrayList();
//"<a[\\s]+href=\"?([\\S]+)\"?[^ <>]+>([^ <>]+)</a>" //提取超链接的正则表达式
Regex reg = new Regex("<a[\\s]+href=\"?([\\S]+)\"?[^<>]+>([^<>]+?)</a>", RegexOptions.IgnoreCase);
MatchCollection mm;
try { mm = reg.Matches(_HTMLData); } catch (Exception) { return; }
urlset.Add(new QLinkURL(this._URL, "", this._MetaWords,this._Title));
foreach (Match m in mm) {
urlset.Add(new QLinkURL(URLJoin(m.Groups[1].Captures[0].ToString()), m.Groups[2].Captures[0].ToString().Replace(" ",""), ""));
}
_ChildURLSet = (QLinkURL[])urlset.ToArray(System.Type.GetType("QSplider.QLinkURL"));
}
private void GetMeta() {
if (_MetaWords != null) return;

//<meta[\S\s]+name="?keywords"?[\S\s]+content="?([\S\s]+)"?[\S\s]+></meta>
Regex reg = new Regex("<meta[\\S\\s]+name=\"?keywords\"?[\\S\\s]+content=\"?([\\S\\s]+)\"?[\\S\\s]+></meta>", RegexOptions.IgnoreCase);
try{
Match m = reg.Matches(_HTMLData)[0];
if (m.Success) _MetaWords = m.Groups[1].Captures[0].ToString();
}catch(Exception){ _MetaWords = "";}
}
public void Dispose() {
this._HTMLData = null;
this._ChildURLSet = null;
this._MetaWords = null;
this._Title = null;
}
public string URLJoin(string s2) {
s2=s2.Trim(_SplitChar);
if (s2.StartsWith("http://", true,null)) return s2;
if(s2.StartsWith("/")) s2.Substring(1,s2.Length-1);
if (_URL.LastIndexOf("/") > 9) _URL = _URL.Substring(0,_URL.LastIndexOf("/"));
return (_URL + "/" + s2).Trim(_SplitChar);
}

主要工作的函数就是上面的几个了！这是一个爬虫的代码！

当然还有数据库的，还有web的！
下载地址如下：
http://www.libing.net.cn/attachment.php?f=attachment%2F%2Fqsearch.splider.zip
http://www.libing.net.cn/attachment.php?f=attachment%2F%2Fqsearch.website.zip
http://59.70.157.222/QSearch.WebSite.zip

查看全文

相关阅读:
如何找出一个数组中第二大的数
 如何把一个整型数组中重复的数字去掉
 假设数组a有n个元素，元素取值范围是1~n，如何判定数组是否存在重复元素
 如何重新排列数组使得数组左边为奇数，右边为偶数，并使得空间复杂度为O(1)，时间复杂度为O(n)
给一个由n-1个整数组成的未排序的序列，其元素都是1~n中的不同的整数。如何在线性时间复杂度内寻找序列中缺失的整数
 已知大小分别为m、n的两个无序数组A、B和一个常数c，求满足A[i]+B[j]=c的所有A[i]和B[j]
如何找出数组中符合条件的数对
 如何找出数组中出现奇数次的元素
 云服务器ECS挖矿木马病毒处理和解决方案
 Java下载https文件上传到阿里云oss服务器

原文地址：https://www.cnblogs.com/zzxap/p/2175912.html