zoukankan      html  css  js  c++  java
  • 如何利用python爬取网易新闻

    前言

    本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

    作者: LSGOGroup

    PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

    http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

    学习了python基本语法后,对爬虫产生了很大的兴趣,废话不多说,今天来爬取网易新闻,实战出真知。

    打开网易新闻 可以发现新闻分为这样的几个板块:

    在这里插入图片描述

    这次选择国内板块来爬取文章。

    1. 准备

    • 环境:python3

    • 编译器:PyCharm

    • 安装 selenium 针对三大浏览器驱动 driver

    下载地址

    • chromedriver:https://code.google.com/p/chromedriver/downloads/list

    • Firefox 的驱动 geckodriver:https://github.com/mozilla/geckodriver/releases/

    • IE 的驱动 IEdrive:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

    了解网页

    网页绚丽多彩,美轮美奂,如同一幅水彩画。爬取数据首先需要知道所需要抓取的数据是怎样的呈现的,就像学作一幅画,开始前你要知道这幅画是用什么画出来的,铅笔还是水彩笔…可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式:

    • HTML

    • JSON

    HTML是用来描述网页的一种语言

    JSON是一种轻量级的数据交换格式

    爬取网页信息其实就是向网页提出请求,服务器就会将数据反馈给你

    2. 获得动态加载源码

    导入需要的用的模块和库:

    1 from bs4 import BeautifulSoup
    2 import time
    3 import def_text_save as dts
    4 import def_get_data as dgd
    5 from selenium import webdriver
    6 from selenium.webdriver.common.keys import Keys
    7 from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

    获取网页信息需要发送请求,requests 能帮我们很好的完成这件事,但是仔细观察发现网易新闻是动态加载,requests 返回的是即时信息,网页部分稍后加载出来的数据没有返回,这种情况 selenium 能够帮助我们得到更多的数据,我们将 selenium 理解为一个自动化测试工具就好,Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。

    我使用的浏览器为Firefox

    1 browser = webdriver.Firefox()#根据浏览器切换
    2 browser.maximize_window()#最大化窗口
    3 browser.get('http://news.163.com/domestic/')

    这样我们就能驱动浏览器自动登陆网易新闻页面

    在这里插入图片描述

    我们的目标自然是一次将国内板块爬取下来,观察网页,在网页不断向下刷时,新的新闻才会加载出来,到最下面甚至还有需要点击按钮才能刷新:

    在这里插入图片描述

    这时使用 selenium 就能展现其优势:自动化,模拟鼠标键盘操作:

    1 diver.execute_script("window.scrollBy(0,5000)")
    2 #使网页向下拉,括号内为每次下拉数值

    在网页中右键点击加载更多按钮,点击查看元素,可以看到

    在这里插入图片描述

    通过这个 class 就可以定位到按钮,碰到按钮时,click 事件就能帮助我们自动点击按钮完成网页刷新

     1 # 爬取板块动态加载部分源代码
     2  3 info1=[]
     4 info_links=[]    #存储文章内容链接
     5 try:
     6     while True :
     7         if  browser.page_source.find("load_more_btn") != -1 :
     8             browser.find_element_by_class_name("load_more_btn").click()
     9         browser.execute_script("window.scrollBy(0,5000)")
    10         time.sleep(1)
    11 except:
    12     url = browser.page_source#返回加载完全的网页源码
    13     browser.close()#关闭浏览器
    1. 获取有用信息

    简单来说,BeautifulSoup 是 python 的一个库,最主要的功能是从网页抓取数据,能减轻菜鸟的负担。 通过 BeautifulSoup 解析网页源码,在加上附带的函数,我们能轻松取出想要的信息,例如:获取文章标题,标签以及文本内容超链接 在这里插入图片描述

    同样在文章标题区域右键点击查看元素:

    在这里插入图片描述

    观察网页结构发现每一个div标签class=“news_title" 下都是文章的标题和超链接。soup.find_all()函数能帮我们找到我们想要的全部信息,这一级结构下的内容就能一次摘取出来。最后通过字典,把标签信息,挨个个取出来。

     1 info_total=[]
     2 def get_data(url):
     3     soup=BeautifulSoup(url,"html.parser")
     4     titles=soup.find_all('div','news_title')
     5     labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')
     6     for title, label in zip(titles,labels ):
     7             data = {
     8                 '文章标题': title.get_text().split(),
     9                 '文章标签':label.get_text().split() ,
    10                 'link':title.find("a").get('href')
    11             }
    12             info_total.append(data)
    13     return info_total

    4. 获取新闻内容

    自此,新闻链接已经被我们取出来存到列表里了,现在需要做的就是利用链接得到新闻主题内容。新闻主题内容页面为静态加载方式,requests 能轻松处理:

     1 def get_content(url):
     2     info_text = []
     3     info=[]
     4     adata=requests.get(url)
     5     soup=BeautifulSoup(adata.text,'html.parser')
     6     try  :
     7         articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')
     8     except :
     9         articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all(
    10             'p')
    11     for a in articles:
    12         a=a.get_text()
    13         a= ' '.join(a.split())
    14         info_text.append(a)
    15     return (info_text)

    使用 try except的原因在于,网易新闻文章在某个时间段前后,文本信息所处位置标签不一样,对不同的情况应作出不同的处理。

    最后遍历整个列表取出全部文本内容:

     1 for i in  info1 :
     2     info_links.append(i.get('link'))
     3 x=0   #控制访问文章目录
     4 info_content={}# 存储文章内容
     5 for i in info_links:
     6     try :
     7         info_content['文章内容']=dgd.get_content(i)
     8     except:
     9         continue
    10     s=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('','').replace('','').replace('/','').replace(',',' ')
    11     s= ''.join(s.split())
    12     file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+s
    13     print(s)
    14     dts.text_save(file,info_content['文章内容'],info1[x]['文章标签'])
    15     x = x + 1
    1. 存储数据到本地txt文件

    python 提供了处理文件的函数open(),第一个参数为文件路径,第二为文件处理模式,"w" 模式为只写(不存在文件则创建,存在则清空内容)

    1 def text_save(filename, data,lable):   #filename为写入CSV文件的路径
    2     file = open(filename,'w')
    3     file.write(str(lable).replace('[','').replace(']','')+'
    ')
    4     for i in range(len(data)):
    5         s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同,可以选择
    6         s = s.replace("'",'').replace(',','') +'
    '   #去除单引号,逗号,每行末尾追加换行符
    7         file.write(s)
    8     file.close()
    9     print("保存文件成功")

    一个简单的爬虫至此就编写成功:

    在这里插入图片描述 在这里插入图片描述

    到此为止,爬取网易新闻的方法就介绍完了,希望对大家有用!See You!

  • 相关阅读:
    .NET正则基础之——平衡组
    正则基础之——贪婪与非贪婪模式
    正则应用之——日期正则表达式
    文件指针/句柄(FILE*)、文件描述符(fd)以及 文件路径(filepath)的相互转换(完整版,收集,整理)
    linux c 发送邮件
    select, poll和epoll的区别(转)
    linux c 中文支持
    修改远程桌面连接端口(PortNumber)
    libhdfs编译,安装,配置,使用
    C语言字节对齐详解
  • 原文地址:https://www.cnblogs.com/Qqun821460695/p/11957737.html
Copyright © 2011-2022 走看看