HTMLParser使用方式汇总(适用C# JAVA):
1. Lexer模式:
2. NodeFilter模式
3. NodeVisitor模式
-----------------------------------------涯上月灬指香专用分割线---------------------------------------------
1. HTMLParser解析的数据来源:
WebClient webclient = new WebClient();
String htmlContent = webclient.DownloadString("https://www.baidu.com/");
2. (Lexer模式)
使用依据: 该模式对整体数据负责,会返回一个线性的Node节点序列:
使用方式:
Lexer lexer = new Lexer(htmlContent);
Parser parser = new Parser();
parser.Lexer = lexer;
NodeList nodelist = parser.Parse(null); //开始解析,返回一个所有节点的线性序列
int size = nodelist.Size();
Console.WriteLine("扫描节点数:" + nodelist.Size());
for (int i = 0; i < size; i++)
{
INode node = nodelist.ElementAt(i);
Console.WriteLine(node.ToString());
}
Console.WriteLine("扫描结束");
3. (NodeFilter模式)
使用依据: 根据NodeFilter的要求过滤出符合要求的Node,只对结果负责
使用方式:
Parser parser = new Parser();
parser.InputHTML = htmlContent;
NodeList nodelist = parser.Parse(new NodeClassFilter(typeof(Winista.Text.HtmlParser.Tags.ImageTag))); //指定过滤出的标签为<Img>
for (int i = 0; i < nodelist.Size(); i++)
{
ImageTag node = (ImageTag)nodelist.ElementAt(i);
Console.WriteLine("href = {0}", node.ImageURL);
}
//如果没有你需要的过滤节点类型,可自定义节点过滤器
NodeList nodelist = parser.Parse(new CustomNodeFilter());
for (int i = 0; i < nodelist.Size(); i++)
{
INode node = nodelist.ElementAt(i);
Console.WriteLine(node.GetText());
}
class CustomNodeFilter : NodeFilter
{
public bool Accept(INode node) //自定义过滤器的条件
{
if(node is MetaTag)
{
MetaTag tag = (MetaTag)node;
if(tag.GetAttribute("title") != null)
{
return true;
}
}
return false;
}
}
Ps:
(继承树)
(Tags 类型图)
4. (NodeVisitor模式)
使用条件: 需要了解Parser解析过程,该模式对过程负责
使用方式:
Parser parser = new Parser();
parser.InputHTML = htmlContent;
parser.VisitAllNodesWith(new CustomNodeVIsitor());
class CustomNodeVIsitor: NodeVisitor
{
public override void BeginParsing() //当开始解析Html时回调
{
Console.WriteLine("开始解析Html页面");
}
public override void VisitTag(ITag tag) //当访问到一对标签的开始标签时回调 ,像<html>...</html> 中的<html>
{
Console.WriteLine("开始解析TAG" + tag.TagName);
}
public override void VisitEndTag(ITag tag) //当访问到一对标签的结束标签时回调, 像<html>...</html>中的</html>
{
Console.WriteLine("结束解析TAG" + tag.TagName);
}
public override void VisitStringNode(IText string_Renamed) //当访问到文本标签时回调, 像<div>我是内容</div>中的“我是内容”就是一个文本标签
{
Console.WriteLine("扫描到文本标签了");
}
public override void VisitRemarkNode(IRemark remark) //当访问到注释标签时,回调
{
Console.WriteLine("扫描到注释标签了");
}
}