zoukankan html css js c++ java

利用Python3的requests和re库爬取猫眼电影笔记

以下笔记，作为参考借鉴，如有疑问可以联系我进行交流探讨！

代码思路很简单，简单概括为：
首先利用requests的get方法获取页面的html文件，之后对得到的html文件进行相对应的正则处理，然后把爬取到的数据保存到本地。

# -*- coding: utf-8 -*-
"""
爬取的相关信息有：电影名次、电影名称、主演、上映时间、评分
 
"""
 
import re
import time
import requests
from multiprocessing import Pool
from http.cookiejar import CookieJar
from requests.exceptions import RequestException
 
#创建requests回话
s = requests.Session()
#对需要登录或者需要利用cookie登录的，可以使用CookieJar( )这个方法。
s.cookies = CookieJar()
 
#创建个头文件，里面的用户我习惯使用这个"Baiduspider+"。
header = {
    'user-agent': 'Baiduspider+',
}
 
#根据url获取HTML文件
def getHTML(url, code='utf-8'):
    try:
        response = s.get(url, headers=header)
        response.raise_for_status()
        response.encoding = code
        return response.text
    except RequestException:
        print('getHTML Error')
 
#对HTML进行正则表达式处理
def parseHTML(html):
    pattern = re.compile('.*?board-index-.*?">(.*?)</i>.*?class="name">.*?'
                         + '"boarditem-click".*?"{movieId:.*?}">+(.*?)</a>.*?class="star">'
                         + '(.*?)</p>.*?class="releasetime">(.*?)</p>.*?<p class="score">'
                         + '<i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>', re.S)
 
 #需要把html字符串化，否则报错：TypeError: expected string or bytes-like object
    items = re.findall(pattern, str(html)) 
 
    for item in items:
        yield {
            '序号': item[0],
            '电影名': item[1],
            '主演': item[2].strip(),
            '上映时间': item[3],
            '评分': item[4] + item[5],
        }
 
#把数据保存到本地
def writePAGE(content):
    with open('result.txt', 'a' ) as f:
        f.write(str(content) + '
')
        f.close()
 
#编写主函数
def main(page):
    url = 'https://maoyan.com/board/4?offset=' + str(page)
    html = getHTML(url)
    items = parseHTML(html)
 
    for item in items:
        print(item)
        writePAGE(item)
 
 
if __name__ == '__main__':
    start = time.time()
 
#多进程爬取
    pool = Pool()
    pool.map(main, [page * 10 for page in range(10)])
    pool.close()  # 关闭进程池，不接受新的进程
    pool.join()  # 主进程阻塞等待子进程的退出
 
    end = time.time()
#打印出最后运行的时间
    print('It spends %s s' % (end - start))

查看全文

相关阅读:
ELK搭建
 php 高效日志记录扩展seaslog 的使用
 linux批量修改文件中包含字符串的查找替换
 goaccess
mysql启动错误，提示crash 错误
 laravel config 配置无效
 地址重写 No input file specified的解决方法
 redis 一些操作命令
 RNN与LSTM
最大熵推导LR

原文地址：https://www.cnblogs.com/68xi/p/9294359.html