zoukankan      html  css  js  c++  java
  • Python 爬虫

    初识python爬虫

    什么是爬虫?

    • 爬取网络数据的虫子(Python程序)

    爬虫实质是什么呢?

    • 模拟浏览器的工作原理,向服务器请求相应的数据

    浏览器的工作原理

    • 浏览器在这个过程中还起到了翻译数据的作用哦

    爬虫的工作原理如下图:

      

    梳理代码流程:

    (1)引入Python工具包requests

    (2)使用工具包中的get方法,向服务器发起请求

    (3)打印输出请求回来的数据并解析(print语法)

    import requests;
    import json;
    ajaxGet = requests.get('http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186');
    list = json.loads(ajaxGet.text);
    print(list['data']['LocalNews']['localNews']['rows']['pic']);
    for itme in list['data']['LocalNews']['localNews']['rows']['pic']:
    print(itme['url']);

     (4)学会引入openpyxl工具包存储数据

      (a)创建一个Excel表格

      (b)创建一个sheet

      (c)在sheet里面保存数据

      (d)把表格保存在一个磁盘里

    import openpyxl;
    import requests;
    import json;
    wk = openpyxl.Workbook();
    sheet = wk.create_sheet();
    url = 'http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186'
    resp = requests.get(url);
    json_data = json.loads(resp.text);
    data = json_data['data']['LocalNews']['localNews']['rows']['pic'];
    for item in data: 
      imgUrl = item['imgUrl'];
      title = item['title'];
      sheet.append([ imgUrl, title ]);
      wk.save('data/李大山-2223222132131.xlsx')
  • 相关阅读:
    有限元学习
    软件推荐-c#绘图插件echart
    驾驶证到期换证
    实战fortran77基础语法2
    c语言spline
    软件推荐-有道超级计算器
    师弟推荐软件-/mathpix
    张奎师弟参与devexpress chartControl绘图--解决了devexpress的chartControl控件不能添加系列的问题
    Struts2之Json插件的使用
    Struts2之防止表单重复提交
  • 原文地址:https://www.cnblogs.com/dekui/p/14993842.html
Copyright © 2011-2022 走看看