zoukankan      html  css  js  c++  java
  • 关于信息采集中用到的一些点滴

    在这里记录一下

    使用如下的正则表达式来抽取一个网页下的所有链接,并

    <a[^>]+href=["']?(?'Url'[^"'>]+)['"]?[^>]*>

    测试字符串

    <a               href=www.sina.com.cn>ddfa</a>

    <a               href=xx.aspx?id=11>ddfa</a>

    <a               href="www.sina.com.cn">ddfa</a>

    <a               href='www.sina.com.cn'>ddfa</a>

    <a               href=http://www.sina.com.cn>ddfa</a>

    采集网页中所有图片的正则表达式

    ((http(s)?://)?)+(((/?)+[\w-.]+(/))*)+[\w-./]+\.+(jpg|jpeg|png|ico|bmp|gif)

    注意在正则中勾选case insensitive选项

    测试字符串

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
    <HTML>
    <HEAD>
    <TITLE> New Document </TITLE>
    <META NAME="Generator" CONTENT="EditPlus">
    <META NAME="Author" CONTENT="">
    <META NAME="Keywords" CONTENT="">
    <META NAME="Description" CONTENT="">
    </HEAD>

    <BODY>
    <!-- 对于<a href="http://www.sina.com.cn%22%3e2%3c/a>这样网址的识别的还有问题 -->
    <a href=http://www.sina.com.cn>2</a>
    <a href=/aa/.aspx>1<a>
    <img src="ddd.gif" />
    </BODY>
    </HTML>

    还可以有这样的链接http:// news.bjut.edu.cn/./newscontent.jsp?p=s&articleID=6769

    效果和下面的是一样的

     http://news.bjut.edu.cn/newscontent.jsp?p=s&articleID=6769

  • 相关阅读:
    shell编程——循环执行
    ubuntu 设置管理 集锦
    27. 计算FPS
    29 GameProject4(+GUI)
    26. D3D显示文本
    30. D3D特效
    28. GUI
    32. 细节映射
    25. GameProject3
    Direct3D渲染到纹理 (部分转)
  • 原文地址:https://www.cnblogs.com/lexus/p/1284829.html
Copyright © 2011-2022 走看看