zoukankan
html css js c++ java
提取网页中的链接并生成xml
using System; using System.Xml; using System.Text; using System.Net; using System.IO; using System.Collections; using System.Text.RegularExpressions; public class App { public static void Main() { string strCode; ArrayList alLinks; Console.Write("请输入一个网页地址:"); string strURL = Console.ReadLine(); if (strURL.Substring(0, 7) != @"http://") { strURL = @"http://" + strURL; } Console.WriteLine("正在获取页面代码,请稍侯..."); strCode = GetPageSource(strURL); Console.WriteLine("正在提取超链接,请稍侯..."); alLinks = GetHyperLinks(strCode); Console.WriteLine("正在写入文件,请稍侯..."); WriteToXml(strURL, alLinks); } // 获取指定网页的HTML代码 static string GetPageSource(string URL) { Uri uri = new Uri(URL); HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri); HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse(); hwReq.Method = "Get"; hwReq.KeepAlive = false; StreamReader reader = new StreamReader(hwRes.GetResponseStream(), System.Text.Encoding.GetEncoding("GB2312")); return reader.ReadToEnd(); } // 提取HTML代码中的网址 static ArrayList GetHyperLinks(string htmlCode) { ArrayList al = new ArrayList(); string strRegex = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?"; Regex r = new Regex(strRegex, RegexOptions.IgnoreCase); MatchCollection m = r.Matches(htmlCode); for (int i = 0; i <= m.Count - 1; i++) { bool rep = false; string strNew = m[i].ToString(); // 过滤重复的URL foreach (string str in al) { if (strNew == str) { rep = true; break; } } if (!rep) al.Add(strNew); } al.Sort(); return al; } // 把网址写入xml文件 static void WriteToXml(string strURL, ArrayList alHyperLinks) { XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml", Encoding.UTF8); writer.Formatting = Formatting.Indented; writer.WriteStartDocument(false); writer.WriteDocType("HyperLinks", null, "urls.dtd", null); writer.WriteComment("提取自" + strURL + "的超链接"); writer.WriteStartElement("HyperLinks"); writer.WriteStartElement("HyperLinks", null); writer.WriteAttributeString("DateTime", DateTime.Now.ToString()); foreach (string str in alHyperLinks) { string title = GetDomain(str); string body = str; writer.WriteElementString(title, null, body); } writer.WriteEndElement(); writer.WriteEndElement(); writer.Flush(); writer.Close(); } // 获取网址的域名后缀 static string GetDomain(string strURL) { string retVal; string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)"; Regex r = new Regex(strRegex, RegexOptions.IgnoreCase); Match m = r.Match(strURL); retVal = m.ToString(); strRegex = @"\.|/{1}quot;; retVal = Regex.Replace(retVal, strRegex, "").ToString(); if (retVal == "") retVal = "other"; return retVal; } }
查看全文
相关阅读:
使用NHibernate绑定页面数据时,出现"未能加载视图状态,正在向其中加载视图状态。。。。"的Bug
以?替代参数配合扩展方法简化数据库操作的实践
好代码并非一蹴而就读《代码整洁之道》
C#中,数据处理层之数据库基类
C#中,页面层之简易验证模块
C#中,数据交互层参数替代方案(三)
读《程序员成长路线图:从入门到优秀》
unity3d 屏蔽右键选项弹窗
unity3d与web进行交互
unity3d 使用背景贴图
原文地址:https://www.cnblogs.com/zhangqs008/p/2341121.html
最新文章
帝国 CMS 文件位置的一些记录
【转】zencart 免注册购买模块(COWOA插件)
CSS 字体收集
【转】js 获取 根目录地址
asp.net 得到一个文件夹下的所有文件夹及子文件夹名,得到所有文件名,文件大小,文件夹大小
webclient下载+进度
wpf 复制/剪切到本地系统剪切板中以供右键粘贴用
wpf dll和exe合并成一个新的exe
读CLR有感
C#模拟键盘鼠标之三:windows服务配合改善模拟流程
热门文章
C#模拟键盘鼠标之一
NHibernate部分错误
读《你必须知道的.net(第二版)》
C#中,编写可选择任意属性转化成JSON
C#中,仿效Java中,SQL参数以?替代的做法,解决IN的防注入问题(续)
我的第一个windows phone软件
利用Attribute简化SQL删除操作
神奇的for循环,让你的for循环执行100w + 1比100w次快200w倍
C#模拟键盘鼠标之二:错误跳转以及内存查看
老系统维护
Copyright © 2011-2022 走看看