关于信息采集中用到的一些点滴 - 走看看

zoukankan html css js c++ java

关于信息采集中用到的一些点滴

在这里记录一下

使用如下的正则表达式来抽取一个网页下的所有链接，并

<a[^>]+href=["']?(?'Url'[^"'>]+)['"]?[^>]*>

测试字符串

<a               href=www.sina.com.cn>ddfa</a>

<a               href=xx.aspx?id=11>ddfa</a>

<a               href="www.sina.com.cn">ddfa</a>

<a               href='www.sina.com.cn'>ddfa</a>

<a               href=http://www.sina.com.cn>ddfa</a>

采集网页中所有图片的正则表达式

((http(s)?://)?)+(((/?)+[\w-.]+(/))*)+[\w-./]+\.+(jpg|jpeg|png|ico|bmp|gif)

注意在正则中勾选case insensitive选项

测试字符串

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> New Document </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>

<BODY>

<a href=http://www.sina.com.cn>2</a>
<a href=/aa/.aspx>1<a>
<img src="ddd.gif" />
</BODY>
</HTML>

还可以有这样的链接http:// news.bjut.edu.cn/./newscontent.jsp?p=s&articleID=6769

效果和下面的是一样的

http://news.bjut.edu.cn/newscontent.jsp?p=s&articleID=6769

查看全文

相关阅读:
数组中只出现一次的数字
 平衡二叉树
 二叉树的深度
 数字在排序数组中出现的次数
 两个链表的第一个公共结点
 数组中的逆序对
 第一个只出现一次的字符
 丑数
 新浪微博授权时出现"关注 *** 的微博"
Bear 實驗室: 什麼是Git flow ? 如何在SourceTree使用Git flow管理開發!

原文地址：https://www.cnblogs.com/lexus/p/1284829.html

Copyright © 2011-2022 走看看