zoukankan      html  css  js  c++  java
  • Python进阶篇:Python简单爬虫

    目录

    • 前言
    • 要解决的问题
    • 设计方案
    • 代码说明
    • 小结

    前言

    前一段一直在打基础,已经学习了变量,流程控制,循环,函数这几块的知识点,就想通过写写小程序来实践一下,来加深知识点的记忆和理解。首先考虑的就是爬虫啦,一直很崇拜爬虫大师,特别想能够学习一些爬虫技术,去淘宝上爬爬数据,说不定什么时候可以使用数据进行一些分析,比如哪天自己也开了个小店啥的~~。为了能够开始起步, 我看了一些视频,查阅了一些资料,起步阶段就不用那些很牛逼的框架了,主要是想通过基本的爬虫来了解爬虫的基本概念和思路。

    要解决的问题

    查阅百度百科的某个关键词以及相关联的关键词的集合。这是一个比较有意义的事情,通过这样的数据能更好的理解相关的生态圈。比如我查阅“分布式计算”  http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/85448 文章里面含有很多的有链接的关键词,就这样不断的迭代去爬这些链接的关键词的文章内的关键词。

    设计方案

    爬虫含有5个组成部分:主程序,URL管理器,HTML下载器,HTML解析器,结果展示器

    主程序:调度其他的部件的执行,并作为主程序入口来执行代码

    URL管理器: 管理URL的集合以及状态 - 未下载的URL,已下载的URL,添加新的URL,去除已现在的URL

    HTML下载器: 下载URL对应的HTML

    HTML解析器: 解析下载下来的HTML,取出有用的数据

    结果展示器: 组织最终生成的数据,并展示或者存储起来

    代码说明

    • 代码组织架构

    •  代码展示
    部件名称 程序名称 代码
    主程序 SpiderMain.py
    from Spider import UrlManager,HtmlDownloader,HtmlParser,HtmlOutputer
    
    class Spider(object):
    
        def __init__(self):
            self.urlmanager = UrlManager.Manager()
            self.htmldownloader = HtmlDownloader.Downloader()
            self.htmlparser = HtmlParser.Parser()
            self.htmloutputer = HtmlOutputer.Outputer()
    
    
        def scrpy(self, root_url):
            self.urlmanager.add_new_urls(root_url)
            count = 1
            while(self.urlmanager.has_new_url()):
                if(count>10):
                    break
    
                curr_url = self.urlmanager.get_new_url()
                html_content = self.htmldownloader.load(curr_url)
                print("No.%d Downloading URL %s" % (count, curr_url))
                word,new_urls,lemmasummary = self.htmlparser.parse(curr_url,html_content)
                data={}
                data['word']=word
                data['curr_url']=curr_url
                data['lemmasummary']=lemmasummary
                self.htmloutputer.collect(data)
                self.urlmanager.add_new_urls(new_urls)
                count = count + 1
            self.htmloutputer.genhtml()
    
    
    
    if(__name__=='__main__'):
        root_url = "http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/85448"
        spider = Spider()
        spider.scrpy({root_url})
    URL管理器 UrlManager.py
    class Manager(object):
        def __init__(self):
            self.old_urls=set()
            self.new_urls=set()
    
        def add_new_urls(self, root_url):
            for url in root_url:
                if(root_url not in self.old_urls and  root_url not in self.new_urls):
                    self.new_urls.add(url)
    
        def has_new_url(self):
            if(len(self.new_urls) > 0):
                return True
            else:
                return False
    
        def get_new_url(self):
            tmp=self.new_urls.pop()
            self.old_urls.add(tmp)
            return tmp
    HTML下载器 HtmlDownloader.py
    import urllib.request
    
    class Downloader(object):
        def load(self, curr_url):
            html = urllib.request.urlopen(curr_url)
            return html.read().decode("UTF-8",'ignore')
    HTML解析器 HtmlParser.py
    import re
    from urllib.parse import urljoin
    from bs4 import BeautifulSoup
    
    class Parser(object):
        def __init__(self):
            self.title = ''
            self.urls = set()
            self.lemmasummary = ''
    
        def parse(self, curr_url, html_content):
            soup = BeautifulSoup(html_content, 'html.parser',from_encoding="utf-8")
            soupurls=soup.find_all('a',href=re.compile(r'/view'))
            for url in soupurls:
               self.urls.add(urljoin(curr_url,url['href']))
            self.title = soup.title.string.split("_")[0]
            self.lemmasummary = soup.find('div',class_='lemma-summary')
            return self.title,self.urls,self.lemmasummary
    结果展示器 HtmlOutputer.py
    class Outputer(object):
        def __init__(self):
            self.table = []
    
        def collect(self, data):
            self.table.append(data)
    
        def genhtml(self):
            html = open('result.html','w')
            html.write("<html>")
            html.write("<head>")
            html.write("</head>")
            html.write("<body>")
            html.write("<table>")
            for data in self.table:
                html.write("<tr>")
                html.write("<td>%s</td>" % data['word'])
                html.write("<td>%s</td>" % data['curr_url'])
                html.write("<td>%s</td>" % data['lemmasummary'])
                html.write("</tr>")
            html.write("</table>")
            html.write("</body>")
            html.write("</html>")
            html.close()

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    •  最终的结果

     

    小结

    在上面的爬虫代码里面,主要体现了爬虫的几个部件之间的配合,以及每个部件的所引用的模块,比如urllib,bs4,re

     

  • 相关阅读:
    Linux 学习 -- 修改文件的权限(chmod)
    Spring MVC
    Spring AOP与IOC
    Java学习
    SSH学习
    Android之Service
    Android之操作相册
    Android之ListView优化
    Android之Bitmap 高效加载
    Android数据储存之SQLiteDatabase SQLiteOpenHelper类的简单使用
  • 原文地址:https://www.cnblogs.com/benchen/p/6111840.html
Copyright © 2011-2022 走看看