zoukankan      html  css  js  c++  java
  • 理解爬虫原理

    1. 简单说明爬虫原理

    什么是爬虫

    • 爬虫:请求网站并提取数据的自动化程序
    • 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

    2. 理解爬虫开发过程

    1).简要说明浏览器工作原理;

     

          基本流程:

     

    • 发起请求:通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。
    • 获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。
    • 解析内容:得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。
    • 保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件

     

    2).使用 requests 库抓取网站数据;

    requests.get(url) 获取校园新闻首页html代码

     

    import requests
    from bs4 import BeautifulSoup
    
    url='http://news.gzcc.cn/html/2019/tongzhigonggao_0321/11036.html'
    response=requests.get(url) #获取网页html
    
    response.encoding='utf-8'
    print(response.text)
    

     

      

     

    3).了解网页

    写一个简单的html文件,包含多个标签,类,id

    4).使用 Beautiful Soup 解析网页;

    通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

    select(选择器)定位数据

    找出含有特定标签的html元素

    找出含有特定类名的html元素

    找出含有特定id名的html元素

     

    3.提取一篇校园新闻的标题、发布时间、发布单位

    url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

     

    import requests
    from bs4 import BeautifulSoup
    
    url='http://news.gzcc.cn/html/2019/tongzhigonggao_0321/11036.html'
    response=requests.get(url) #获取网页html
    
    response.encoding='utf-8'
    print(response.text)
    
    soup=BeautifulSoup(response.text,"lxml")  #用BS4构建标签对象,用lxml解析器解析获取内容
    
    print(soup.select('.show-title'))#输出新闻标题
    print(soup.select('.show-info'))#输出新闻发布时间作者单位
    

      

  • 相关阅读:
    PythonStudy——数据类型总结 Data type summary
    PythonStudy——可变与不可变 Variable and immutable
    PythonStudy——列表操作 List operatio
    PythonStudy——列表的常用操作 List of common operations
    PythonStudy——列表类型 List type
    PythonStudy——字符串扩展方法 String extension method
    PythonStudy——字符串重要方法 String important method
    AWT,Swing,RCP 开发
    JQuery插件机制
    最新知识网站
  • 原文地址:https://www.cnblogs.com/WYuHan/p/10599137.html
Copyright © 2011-2022 走看看