zoukankan html css js c++ java

使用Scrapy框架爬取腾讯新闻

昨晚没事写的爬取腾讯新闻代码，在此贴出，可以参考完善。

# -*- coding: utf-8 -*-
import json

from scrapy import Spider
from scrapy.http import Request
from scrapy.http import Response
from scrapy.http import FormRequest
from scrapy.selector import Selector
from bs4 import BeautifulSoup

from ..items import NewsItem

TencentNewsUrl = 'https://pacaio.match.qq.com/irs/rcd'

# 要闻 https://pacaio.match.qq.com/pc/topNews?callback=__jp0
# https://pacaio.match.qq.com/irs/rcd?cid=108&ext=&token=349ee24cdf9327a050ddad8c166bd3e3&page=1&expIds=&callback=__jp1
# https://new.qq.com/cmsn/20180726/20180726A0QOLA00
# https://new.qq.com/ omn/20180726/20180726A0QOLA.html

class TencentSpider(Spider):
    name = 'tencent'

    def start_requests(self):
        # yield Request(
        #     url='https://pacaio.match.qq.com/pc/topNews?callback=__jp0',
        #     callback=self.parse_contents
        # )

        yield FormRequest(
            url=TencentNewsUrl,
            formdata={
                "cid": "58",
                "token": "c232b098ee7611faeffc46409e836360",
                "ext": "milite",
                "page": "0",
                "expIds": "",
                "callback": "__jp0"
            },
            callback=self.parse_contents,
            meta={
                "page": "0",
                "field": ""
            }
        )

    def parse_contents(self, response: Response):
        try:
            data = json.load(response.text)
        except Exception:
            data = json.loads(response.text[(response.text.find('(') + 1):response.text.rfind(')')])

        # 处理分离网页
        try:
            data = data['data']
        except Exception:
            pass
        for url in data:
            omn = url['vurl']
            if omn.endswith('00') and '/cmsn/' in omn:
                omn = omn.replace('/cmsn/', '/omn/')
                omn = omn[:omn.rfind('00')] + '.html'
                print(omn)
            yield Request(
                url=omn,
                callback=self.parse_news
            )
            break

    def parse_news(self, response: Response):
        news = NewsItem()
        news['url'] = response.url
        soup = BeautifulSoup(response.text, "lxml")
        news['title'] = soup.find('div', class_='LEFT').h1.text
        news['content'] = ''
        article = soup.find_all('p', class_='one-p')
        for sentence in article:
            news['content'] += sentence.text
        return news

查看全文

相关阅读:
[Silverlight]App.Current Events中的Startup,UnhandledException以及Exit事件
 [Silverlight]使用DoubleAnimation为对象添加动画效果
 [翻译]ASP.NET MVC Tip #39 – 在ASP.NET MVC中使用分布式缓存
 [翻译]ASP.NET MVC CodePlex Preview 5 更新细节(未完成)
[Silverlight]打造具有放大缩小效果的图片导航
 [Silverlight]Silverlight2中打造SplashScreen 1
[Silverlight]如何创建超链接
 [Silverlight]TextBlock控件全攻略
 [转]ajax框架比较
 MonoRail学习之源码放送

原文地址：https://www.cnblogs.com/68xi/p/9381200.html