zoukankan html css js c++ java

爬虫学习之-urlparse之urljoin()

首先导入模块，用help查看相关文档

>>> from urlparse import urljoin
>>> help(urljoin)
Help on function urljoin in module urlparse:

urljoin(base, url, allow_fragments=True)
    Join a base URL and a possibly relative URL to form an absolute
    interpretation of the latter.

意思就是将基地址与一个相对地址形成一个绝对地址，然而讲的太过抽象

接下来，看几个例子，从例子中发现规律。

>>> urljoin("http://www.google.com/1/aaa.html","bbbb.html")
'http://www.google.com/1/bbbb.html'
>>> urljoin("http://www.google.com/1/aaa.html","2/bbbb.html")
'http://www.google.com/1/2/bbbb.html'
>>> urljoin("http://www.google.com/1/aaa.html","/2/bbbb.html")
'http://www.google.com/2/bbbb.html'
>>> urljoin("http://www.google.com/1/aaa.html","http://www.google.com/3/ccc.html")
'http://www.google.com/3/ccc.html'
>>> urljoin("http://www.google.com/1/aaa.html","http://www.google.com/ccc.html")
'http://www.google.com/ccc.html'
>>> urljoin("http://www.google.com/1/aaa.html","javascript:void(0)")
'javascript:void(0)'

规律不难发现，但是并不是万事大吉了，还需要处理特殊情况，如链接是其本身，链接中包含无效字符等

url = urljoin("****","****")<br><br>### find()查找字符串函数，如果查到：返回查找到的第一个出现的位置。否则，返回-1<br>if url.find("'")!=-1:<br>    continue  <br><br>### 只取井号前部分<br>url = url.split('#')[0]<br><br>### 这个isindexed()是我自己定义的函数，判断该链接不在保存链接的数据库中<br>if url[0:4]=='http' and not self.isindexed(url):<br><br>    ###newpages = set(),无序不重复元素集<br>    newpages.add(url)

查看全文

相关阅读:
shell脚本修改文件
 腾讯企业邮箱获取客户端专用密码(授权码)
java内存dump文件导出与查看
 为什么MySQL数据库索引选择使用B+树？
nginx 平滑重启的实现方法
 nginx重启平滑重启
 Nginx常用的平滑重启
 nginx reload和reopen
转载【小程序】：微信小程序开发---应用与页面的生命周期
 【微信小程序】用户首次进入小程序拒绝授权，如何再次调用授权页面，获取用户信息userInfo

原文地址：https://www.cnblogs.com/brady-wang/p/9680193.html