zoukankan      html  css  js  c++  java
  • 爬虫学习之-urlparse之urljoin()

    首先导入模块,用help查看相关文档

    复制代码
    >>> from urlparse import urljoin
    >>> help(urljoin)
    Help on function urljoin in module urlparse:
    
    urljoin(base, url, allow_fragments=True)
        Join a base URL and a possibly relative URL to form an absolute
        interpretation of the latter.
        
    复制代码
    1
    意思就是将基地址与一个相对地址形成一个绝对地址,然而讲的太过抽象

    接下来,看几个例子,从例子中发现规律。

    复制代码
    >>> urljoin("http://www.google.com/1/aaa.html","bbbb.html")
    'http://www.google.com/1/bbbb.html'
    >>> urljoin("http://www.google.com/1/aaa.html","2/bbbb.html")
    'http://www.google.com/1/2/bbbb.html'
    >>> urljoin("http://www.google.com/1/aaa.html","/2/bbbb.html")
    'http://www.google.com/2/bbbb.html'
    >>> urljoin("http://www.google.com/1/aaa.html","http://www.google.com/3/ccc.html")
    'http://www.google.com/3/ccc.html'
    >>> urljoin("http://www.google.com/1/aaa.html","http://www.google.com/ccc.html")
    'http://www.google.com/ccc.html'
    >>> urljoin("http://www.google.com/1/aaa.html","javascript:void(0)")
    'javascript:void(0)'
    复制代码

    规律不难发现,但是并不是万事大吉了,还需要处理特殊情况,如链接是其本身,链接中包含无效字符等

    1
    url = urljoin("****","****")<br><br>### find()查找字符串函数,如果查到:返回查找到的第一个出现的位置。否则,返回-1<br>if url.find("'")!=-1:<br>    continue  <br><br>### 只取井号前部分<br>url = url.split('#')[0]<br><br>### 这个isindexed()是我自己定义的函数,判断该链接不在保存链接的数据库中<br>if url[0:4]=='http' and not self.isindexed(url):<br><br>    ###newpages = set(),无序不重复元素集<br>    newpages.add(url)

  • 相关阅读:
    hibernate&查询
    hibernate&一对多&多对多
    hibernate&三种状态的对象&一级缓存&快照机制
    Hibernate5.0安装&基本配置&基本使用
    python获取命令行输入的参数
    node.js + express搭建服务流程
    xpath获取两个标签之间的所有标签
    flask快速入门
    03.调用js执行代码
    02.5 js中的语法知识补充
  • 原文地址:https://www.cnblogs.com/brady-wang/p/9680193.html
Copyright © 2011-2022 走看看