zoukankan      html  css  js  c++  java
  • 正怎表达式在爬虫里的应用

    爬虫小例子:

    ]

    import re
    from urllib.request import urlopen
    
    def getPage(url):   # 获取网页的字符串
        response = urlopen(url)
        return response.read().decode('utf-8')
    
    def parsePage(s):
        ret = com.finditer(s)  # 从s这个网页源码中 找到所有符合com正则表达式规则的内容 并且以迭代器的形式返回
        for i in ret:
            yield {
                "id": i.group("id"),
                "title": i.group("title"),
                "rating_num": i.group("rating_num"),
                "comment_num": i.group("comment_num"),
            }
    
    def main(num):  # 0  25 50  # 这个函数执行10次,每次爬取一页的内容
        url = 'https://movie.douban.com/top250?start=%s&filter=' % num
        response_html = getPage(url)   # response_html就是这个url对应的html代码 就是 str
        ret = parsePage(response_html) # ret是一个生成器
        print(ret)
        f = open("move_info7", "a", encoding="utf8")
        for obj in ret:
            print(obj)
            data = str(obj)
            f.write(data + "
    ")
        f.close()
    
    com = re.compile(
            '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>d+).*?<span class="title">(?P<title>.*?)</span>'
            '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)
    
    count = 0
    for i in range(10):
        main(count)
        count += 25
    View Code
  • 相关阅读:
    557. Reverse Words in a String III
    14. Longest Common Prefix
    linux 修改系统时间 同步网络时间
    Django学习
    mysql操作
    mysql ,shell代码
    mysql学习
    Mac环境下mysql安装以及登录
    Mac自带Apache服务器的使用
    MongoDB连接数据库
  • 原文地址:https://www.cnblogs.com/li-123-peng/p/9493510.html
Copyright © 2011-2022 走看看