zoukankan      html  css  js  c++  java
  • Python 爬虫

    初识python爬虫

    什么是爬虫?

    • 爬取网络数据的虫子(Python程序)

    爬虫实质是什么呢?

    • 模拟浏览器的工作原理,向服务器请求相应的数据

    浏览器的工作原理

    • 浏览器在这个过程中还起到了翻译数据的作用哦

    爬虫的工作原理如下图:

      

    梳理代码流程:

    (1)引入Python工具包requests

    (2)使用工具包中的get方法,向服务器发起请求

    (3)打印输出请求回来的数据并解析(print语法)

    import requests;
    import json;
    ajaxGet = requests.get('http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186');
    list = json.loads(ajaxGet.text);
    print(list['data']['LocalNews']['localNews']['rows']['pic']);
    for itme in list['data']['LocalNews']['localNews']['rows']['pic']:
    print(itme['url']);

     (4)学会引入openpyxl工具包存储数据

      (a)创建一个Excel表格

      (b)创建一个sheet

      (c)在sheet里面保存数据

      (d)把表格保存在一个磁盘里

    import openpyxl;
    import requests;
    import json;
    wk = openpyxl.Workbook();
    sheet = wk.create_sheet();
    url = 'http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186'
    resp = requests.get(url);
    json_data = json.loads(resp.text);
    data = json_data['data']['LocalNews']['localNews']['rows']['pic'];
    for item in data: 
      imgUrl = item['imgUrl'];
      title = item['title'];
      sheet.append([ imgUrl, title ]);
      wk.save('data/李大山-2223222132131.xlsx')
  • 相关阅读:
    数据仓库与数据挖掘的一些基本概念
    System.currentTimeMillis();
    html练习(3)
    HDU 1556 Color the ball【算法的优化】
    ubuntu12.04 安装配置jdk1.7
    java中的switch用String作为条件
    oracle中 connect by prior 递归算法
    C#复习题
    AngularJS:Http
    AngularJS:Service
  • 原文地址:https://www.cnblogs.com/dekui/p/14993842.html
Copyright © 2011-2022 走看看