zoukankan      html  css  js  c++  java
  • Python 爬虫

    初识python爬虫

    什么是爬虫?

    • 爬取网络数据的虫子(Python程序)

    爬虫实质是什么呢?

    • 模拟浏览器的工作原理,向服务器请求相应的数据

    浏览器的工作原理

    • 浏览器在这个过程中还起到了翻译数据的作用哦

    爬虫的工作原理如下图:

      

    梳理代码流程:

    (1)引入Python工具包requests

    (2)使用工具包中的get方法,向服务器发起请求

    (3)打印输出请求回来的数据并解析(print语法)

    import requests;
    import json;
    ajaxGet = requests.get('http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186');
    list = json.loads(ajaxGet.text);
    print(list['data']['LocalNews']['localNews']['rows']['pic']);
    for itme in list['data']['LocalNews']['localNews']['rows']['pic']:
    print(itme['url']);

     (4)学会引入openpyxl工具包存储数据

      (a)创建一个Excel表格

      (b)创建一个sheet

      (c)在sheet里面保存数据

      (d)把表格保存在一个磁盘里

    import openpyxl;
    import requests;
    import json;
    wk = openpyxl.Workbook();
    sheet = wk.create_sheet();
    url = 'http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186'
    resp = requests.get(url);
    json_data = json.loads(resp.text);
    data = json_data['data']['LocalNews']['localNews']['rows']['pic'];
    for item in data: 
      imgUrl = item['imgUrl'];
      title = item['title'];
      sheet.append([ imgUrl, title ]);
      wk.save('data/李大山-2223222132131.xlsx')
  • 相关阅读:
    Struts2与Ajax数据交互
    Struts2笔记--文件下载
    Struts2笔记--文件上传
    Struts2笔记--Action访问Servlet API
    Servlet笔记2-文件上传
    Listener监听器笔记1
    ios开发 "此证书的签发者无效"
    WinObjC 微软搞了一个这个Windows Bridge for iOS,吸引iOS开发者; 表示很期待
    unity与iOS、Android交互
    iOS 9检测QQ、微信是否安装
  • 原文地址:https://www.cnblogs.com/dekui/p/14993842.html
Copyright © 2011-2022 走看看