zoukankan      html  css  js  c++  java
  • 一个简单的python网页解析+本地文件名修改的小程序

    昨天在码农周刊上看到有整理的机器学习相关的经典论文集合,链接在这里http://suanfazu.com/discussion/68/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E8%AE%BA%E6%96%87survey%E5%90%88%E9%9B%86?utm_campaign=Manong_Weekly_Issue_11&utm_medium=EDM&utm_source=Manong_Weekly。页面上每篇论文点进去就是下载的链接。作为一个松鼠显然想把它们都下载了收藏起来,但是手动下载还分类整理太麻烦了,于是就写了个python的小程序,自动下载这些pdf并按类别保存在不同的文件夹里。

    主要用了beautifulsoup,因为页面元素非常规律因此写起来很省事,大体如下:

    因为网页里的类别(比如Active LearningBiologyClassification)这种大黑标题都用了<b>标签,之后与<b>并列的下一个标签是一个空白<br>,再之后就是罗列了论文标题的列表<ul>了,<ul>里包含若干论文<li>,<li>里有<a href>下载链接,以及text论文名称。

    <b>Application</b>
    <br><br>
    <ul>
        <li>
            <a href .....>paer title</a>
        </li>
    </ul>

    大概就是上面这样的结构,所以只要找到所有的<b>标签(也就是类别名),利用类别名建立文件夹,然后用next_sibling找到这个类别的文章列表,用<a>标签的href属性找到每篇文章的下载链接,text找到标题名,再用urllib.urlretrieve下载就好,代码如下:

    #!-*-coding:utf-8-*
    
    import urllib
    import urllib2
    import bs4
    import os
    
    saveurl = "/home/yujing/dev/papers/";
    
    def downloadFunc( b,alist):
        os.chdir(saveurl)
        folder = b.text
        if not os.path.exists(folder):
            os.mkdir(folder)
        os.chdir(folder)
    
        for a in alist:
            pdfurl = a['href']
            pdfname = a.text
            if not os.path.exists(pdfname):
                urllib.urlretrieve(pdfurl,pdfname)
    
    def process():
        headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
    
        siteurl = "http://suanfazu.com/discussion/68/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E8%AE%BA%E6%96%87survey%E5%90%88%E9%9B%86?utm_campaign=Manong_Weekly_Issue_11&utm_medium=EDM&utm_source=Manong_Weekly"
    
        req=urllib2.Request(siteurl,headers=headers)
        response = urllib2.urlopen(req)
        pages = response.read()
        page = bs4.BeautifulSoup(pages)
    
        blist = page.find_all('b')
    
        for b in blist:
            print(b.text)
            ul = b.next_sibling.next_sibling;
            alist = ul.find_all('a')
            downloadFunc(b,alist)

    这样有个问题,因为论文的标题里有些:、<>这种符号,在linux下可以,但是windows的文件名是不可以包括这些字符的,于是又需要批量改下文件名。。。然后正好又学习了下相关的os模块的函数,把用到的简单列在下面:

    #切换工作目录
    os.chdir(url)
    
    #列出指定路径下的目录和文件
    os.listdir(url)
    
    #获取当前目录
    os.getcwd()
    
    #回上一级目录
    os.chdir(os.pardir)
    
    #修改文件名
    shutil.move(路径+原文件名,路径+新文件名)
    
    #判断目录或文件是否存在
    os.path.exists(folder)
    
    #建立新目录
    os.mkdir(folder)

    再收藏下其他一些方法 From: http://hi.baidu.com/wubotao/item/e7b68f952f326dbdcc80e54d

    os.listdir(dirname):列出dirname下的目录和文件
    os.getcwd():获得当前工作目录
    os.curdir:返回当前目录('.')
    os.chdir(dirname):改变工作目录到dirname

    os.path.isdir(name):判断name是不是一个目录,name不是目录就返回false
    os.path.isfile(name):判断name是不是一个文件,不存在name也返回false
    os.path.exists(name):判断是否存在文件或目录name
    os.path.getsize(name):获得文件大小,如果name是目录返回0L

    os.path.abspath(name):获得绝对路径
    os.path.normpath(path):规范path字符串形式
    os.path.split(name):分割文件名与目录(事实上,如果你完全使用目录,它也会将最后一个目录作为文件名而分离,同时它不会判断文件或目录是否存在)
    os.path.splitext():分离文件名与扩展名
    os.path.join(path,name):连接目录与文件名或目录
    os.path.basename(path):返回文件名
    os.path.dirname(path):返回文件路径
    os.remove(dir) #dir为要删除的文件夹或者文件路径
    os.rmdir(path) #path要删除的目录的路径。需要说明的是,使用os.rmdir删除的目录必须为空目录,否则函数出错。

  • 相关阅读:
    梯度下降法-4.向量化和数据标准化
    梯度下降法-3.实现线性回归中的梯度下降法
    梯度下降法-2.线性回归中的梯度下降法
    梯度下降法-1.原理及简单实现
    线性回归算法-5.更多思考
    TCP/IP协议
    TFTP 服务器
    python3 系统编程进程
    python3 私有化 属性property
    python3 面向对象
  • 原文地址:https://www.cnblogs.com/parapax/p/3459481.html
Copyright © 2011-2022 走看看