zoukankan      html  css  js  c++  java
  • python 爬虫笔记

    爬虫 大网站获取部分网页信息

    1、F12进入开发者模式 2、点击Network,再点击XHR 3、点击下图左上角两个红框中图标,一个暂停,一个清空 4、点击一个网址,查看Response,是否是需要的数据,如果是,查看Headers,General中的Request URL即为需要请求的网址。

    1、两个比较好的学习视频

    Python零基础:Scrapy爬虫--免费
     
    Python网络爬虫与信息提取  嵩天 北京理工大学
     
     
    beautiful soup 库是解析、遍历、维护‘标签数'的功能库
     
     
    HTTP, Hypertext Transfer Protocol,超文本传输协议
    HTTP是一个基于‘请求与响应’模式的、无状态的应用层协议,http协议采用URL作为定位网络资源的标识,URL格式如下:
    http://host[:port][path]
    host:合法的internet主机域名或ip地址
    port:端口号,缺省端口为80
    path:请求资源路径
    在浏览器中好像可以不用输入端口号,端口号是与ip地址一起使用的
    例如:www.baidu.com
    cmd 中 ping baidu.com  得到baidu.com ip 123.125.114.144
    可以再浏览器中输入  123.125.114.144  或者 123.125.114.144:80  得到都是百度主页,后面80就是默认端口号,输不输入都可
     
    TCP协议  面对面沟通、交流  比如QQ软件 A 与 B交流,A把信息发送到QQ服务器,QQ服务器把信息发送给B,反过来也一样。
    UDP协议  广播 (一个人说,其他人听)  比如上计算机课的时候,老师控制我们的电脑屏幕
     
    网络通信的工作原理
      
  • 相关阅读:
    TS的一些小东西
    关于Vue懒加载问题
    react子传父
    MYSQL存储过程以及结果集
    MYSQL视图 事务 游标 索引及其使用
    MYSQL数据库的修复方法MAC
    MYSQL用户授权以及SQL语句
    MySQL数据库基础知识
    JavaScript对象
    JavaScript控制语句
  • 原文地址:https://www.cnblogs.com/bawu/p/8383716.html
Copyright © 2011-2022 走看看