爬虫小问题 - 走看看

zoukankan html css js c++ java

爬虫小问题

爬虫爬取网站信息
1 需要用到的库
-requests
-bs4
2 流程
1通过requests发送get请求，这里请求包括url和user-agent
2通过beautifulsoup将response转换成lxml格式
3通过soup.select查找需要的数据，是一个列表的形式，可以同归索引取值，之后通过get_text()方法来获取标签里的值
3 出现的错误
1 关于soup.select获取内容的一些方式

　　标签名不加任何修饰，类名前加点，id名前加 #

2 设置过期时间通过timeout来实现

　　两种形式的错误read time out 和 time out 第一种是获取响应数据的时间，第二种是请求时间

　　timeout=(10,20)请求响应时间是10s，等待response时间是20s
3 如果出现ssl认证错误的话，参数加上verify=False
远程连接服务器通过ssh来实现：
ssh juteng@服务器ip，之后会要求输入密码
scp命令实现本地文件与服务器文件之间相互传输
1、从本地将文件传输到服务器
scp【本地文件的路径】【服务器用户名】@【服务器地址】：【服务器上存放文件的路径】
2、从本地将文件夹传输到服务器
scp -r【本地文件的路径】【服务器用户名】@【服务器地址】：【服务器上存放文件的路径】
3、将服务器上的文件传输到本地
scp 【服务器用户名】@【服务器地址】：【服务器上存放文件的路径】【本地文件的路径】
4、将服务器上的文件夹传输到本地
scp -r 【服务器用户名】@【服务器地址】：【服务器上存放文件的路径】【本地文件的路径】

查看全文

相关阅读:
Martix工作室考核题 —— 打印一个菱形
 Martix工作室考核题 —— 打印一个菱形
 Martix工作室考核题 —— 打印九九乘法表
 Martix工作室考核题 —— 打印九九乘法表
 Martix工作室考核题 —— 打印九九乘法表
 Martix工作室考核题 —— 201938 第三题
 Martix工作室考核题 —— 201938 第三题
 Martix工作室考核题 —— 201938 第三题
 Martix工作室考核题 —— 201938 第一题
 fiddler模拟发送post请求

原文地址：https://www.cnblogs.com/juteng/p/9988056.html