Python爬虫 - 走看看

zoukankan html css js c++ java

Python爬虫

爬虫又称网络蜘蛛，是代码获取资料的一种方式。

常用库：requests，bs4，lxml，fake_useragent。

通常运行模式：

　　1、发起请求

　　　　通常可用requests发起各类的网络请求。

　　2、获取数据

　　　　通常可用requests的get函数获取大部分网页。

　　3、解析数据

　　　　解析方式：

　　　　　　正则表达式

　　　　　　beautifulsoup

　　　　　　xpath

　　　　　　css选择器

　　4、保存数据。

　　　　通常可保存为csv，txt或者存入数据库。

本人学习的网站：B站（问就是一个很好的学习网站），木下瞳爬虫（入门实战，强推！）。

从零入门：五天速成教程。

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _（手动分割线）

博客小白，个人记录，很多待补充，想到再慢慢修改，欢迎批评指正。

摘自：网络上很多的大神。侵删。。

转载请附原文链接以及作者，谢谢。

一个啥都想整小白白白。。。

一个啥都想整小白白白。。。

查看全文

相关阅读:
信息学奥赛一本通（C++）在线评测系统——基础（一）C++语言—— 1056：点和正方形的关系
 信息学奥赛一本通（C++）在线评测系统——基础（一）C++语言—— 1058：求一元二次方程
 信息学奥赛一本通（C++）在线评测系统——基础（一）C++语言—— 1058：求一元二次方程
 《工程数学——线性代数》—— 第1章——行列式 —— § 2 全排列和对换
 《工程数学——线性代数》—— 第1章——行列式 —— § 2 全排列和对换
 《工程数学——线性代数》—— 第1章——行列式 —— § 2 全排列和对换
 《工程数学——线性代数》—— 第1章——行列式 —— § 1 二阶与三阶行列式
 【Javascript】【jQuery】onload和onready的区别
 【Javascript】【jQuery】onload和onready的区别
 使用T4模板映射数据库表

原文地址：https://www.cnblogs.com/sky-sugar/p/14360000.html

Copyright © 2011-2022 走看看