zoukankan html css js c++ java

静觅爬虫学习笔记8-爬取猫眼电影

　　不知道是不是我学习太晚的原因，猫眼电影这网站我用requests进行爬取源码直接返回给我一个您的访问被禁止。作为萌新的我登时就傻了，还好认真听了之前的课，直接换selenium抓了源码，虽然效率惨不忍睹，但多少也能运行了，下面上代码

import json
import requests
import re
from requests.exceptions import RequestException
from multiprocessing import Pool
from selenium import webdriver


def get_one_page(url):                  # 获取网页源码
    browser = webdriver.Chrome()
    try:
        browser.get(url)
        return browser.page_source
    finally:
        browser.close()


def  parse_one_page(html):                 # 利用正则表达式提取内容
    pattern = re.compile('<dd>.*?board-index.*?>(d+)</i>.*?data-src="(.*?)".*?name"><a'
                        +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                        +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield{
            'index':item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3].strip()[3:],
            'time':item[4].strip()[5:],
            'score':item[5]+item[6]
        }


def write_to_file(content):                 # 写入文件
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False) + '
')
        f.close()


def main(offset):
    url="http://maoyan.com/board/4?offset=" + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    for i in range(10):
        main(i*10)
    #多线程写法，实测不是很好用，因为同时打开多个网页，抓取结果容易乱序
    """
    pool = Pool()
    pool.map(main,[i*10 for i in range(10)])
    """

多线程那块这写法不太好用....

而且有的时候爬取的数据不足100个，会漏掉1到2个，而且每次漏掉的还是不同的数据，萌新求教这是为何

查看全文

相关阅读:
让计算成为人类的能力，让数据变成世界的财富。今天更多人成了计算和数据的探索者和追梦者，阿里云也是其中之一。
在巴山小站，我看到一个小男孩和小女孩共同拿着一部手机，在小站的一角蹭网，这是附近唯一能连上Wi-Fi的地方。那一幕对我内心的震撼，无法用言语形容，这就是互联网版的凿壁借光，这一缕光对这些还没有走出大山的孩子而言，是了解世界的窗户，也把他们的梦想和世界连在了一起。
安存电子951335电话语录语音平台正式上线，你对自己想要录音的电话，可以拨打951335+对方的电话号码，录音内容就会保存在阿里云提供的云存储上，只要有互联网的地方就可以收听、下载及举证应用。
阿里金融成立，从第一天开始，就使用阿里云的云计算平台作为运算淘宝和支付宝数据的计算后台。阿里小贷不需要抵押，纯信用贷款，目前已经能做到3分钟提交申请，1秒批准，0人工干预。数据成为新的信用。
杭州成为第一个搭建数据大脑的城市，上接来自城市各路的数据，下接执行系统。这个城市大脑要帮助打通数据的静脉和筋脉，让过去沉淀淤积在一起的数据互通起来，让城市的“眼”摄像头和“手”（交通指挥）的动作协调起来。
城市大脑的建设代表了杭州的城市管理理念，杭州要为中国和世界探索用云计算和大数据解决城市发展问题的方法。
云栖小镇不是“镇”，就像中关村不是“村”。小镇是一个符号，就像起建于50年前的硅谷的“谷”，和100年前爱迪生所在的门洛公园。
美国新泽西州，也有一个Menlo Park——门洛公园，尽管不太为人熟知，但爱迪生那里的一个发明却点亮了全世界。
2013年1月，我们和华通合作在杭州转塘云计算园区建立了第一个数据中心，随后这个园区被我们称为云栖小镇。我们和园区管委会达成了一个共同目标，就是让云栖小镇成为创业创新的第一基地。
客户教会了我们非常多的东西，甚至改变了我的世界观。是开发者、客户真正在教我们怎么做云计算。

原文地址：https://www.cnblogs.com/xinzhiyan/p/7977135.html