zoukankan      html  css  js  c++  java
  • 爬虫小问题

    爬虫爬取网站信息
    1 需要用到的库
    -requests
    -bs4
    2 流程
    1通过requests发送get请求,这里请求包括url和user-agent
    2通过beautifulsoup将response转换成lxml格式
    3通过soup.select查找需要的数据,是一个列表的形式,可以同归索引取值,之后通过get_text()方法来获取标签里的值
    3 出现的错误
    1 关于soup.select获取内容的一些方式

      标签名不加任何修饰,类名前加点,id名前加 #

    2 设置过期时间通过timeout来实现

      两种形式的错误read time out 和 time out  第一种是获取响应数据的时间,第二种是请求时间

      timeout=(10,20)请求响应时间是10s,等待response时间是20s
    3 如果出现ssl认证错误的话,参数加上verify=False
    远程连接服务器通过ssh来实现:
    ssh juteng@服务器ip,之后会要求输入密码
    scp命令实现本地文件与服务器文件之间相互传输
    1、从本地将文件传输到服务器
    scp【本地文件的路径】【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】
    2、从本地将文件夹传输到服务器
    scp -r【本地文件的路径】【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】
    3、将服务器上的文件传输到本地
    scp 【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】【本地文件的路径】
    4、将服务器上的文件夹传输到本地
    scp -r 【服务器用户名】@【服务器地址】:【服务器上存放文件的路径】【本地文件的路径】

  • 相关阅读:
    生成全局id的方式
    如何使得搜索的信息更准确?
    水平分区
    大表如何优化?
    MySQL_fetch_array和MySQL_fetch_object的区别是什么?
    BLOB和TEXT区别
    如何在Unix和MySQL时间戳之间进行转换?
    用ActionSupport实现验证
    服务器端验证--验证框架验证required.
    自定义类型转换器converter
  • 原文地址:https://www.cnblogs.com/juteng/p/9988056.html
Copyright © 2011-2022 走看看