zoukankan      html  css  js  c++  java
  • python + Jquery,抓取西东网上的Java教程资源网址

    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    # @Date    : 2018-06-15 14:01:45
    # @Author  : Chenjun (320316430@qq.com;)
    # @Link    : http://example.org
    # @Version : $Id$
    
    from pyquery import PyQuery as pq
    
    URL = 'http://xidong.net/File001/File_25266.html'def get_resource_lis(URL):
        doc = pq(url=URL, encoding='utf-8')  #响应头部没有声明编码类型,需要手动说明,否则抓到的数据会中文乱码
        datas = doc('tr')   #通过网页检查发现资源放在表格的tr中
        resource_lis = datas.items() 
        return resource_lis
    
    
    def main():
        resource_lis = get_resource_lis(URL)
        for source in resource_lis:
            print(source.find('a').attr('href'))  #取到每个tr中的a标签的href属性值,也就是我需要的地址
    
    if __name__ == '__main__': main()
    #后续可以存储到非关系型数据库中
     
  • 相关阅读:
    POJ
    CodeForces
    部分和问题
    NOIP200502校门外的树
    消灭虫子
    抓牛
    最长不下降子序列的长度
    HDNoip201501计算结果最小
    抽签
    Ants
  • 原文地址:https://www.cnblogs.com/tarantino/p/9188728.html
Copyright © 2011-2022 走看看