1，爬虫概览 - 走看看

zoukankan html css js c++ java

1，爬虫概览
1,爬虫知识来源

Python爬虫参考文档

可以爬取的数据

网页文本：如HTML文档，Json格式化文本等
图片：获取到的是二进制文件，保存为图片格式
视频:同样是二进制文件
其他：只要请求到的，都可以获取

解析数据使用的方法
1. 直接处理
2. Json解析
3. 正则表达式处理
4. BeautifulSoup解析处理
5. PyQuery解析处理
6. XPath解析处理
抓取的页面数据和浏览器里看到的不一样的问题

网站中的数据都是通过js，ajax动态加载的，所以直接通过get请求获取的页面和浏览器显示的不同

如何解决js渲染的问题？
分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py

保存数据

文本：纯文本，Json,Xml等
关系型数据库：如mysql,oracle,sql server等结构化数据库
非关系型数据库：MongoDB,Redis等key-value形式存储
查看全文

相关阅读:
封装好的PHP分页类，简单好用--在开源看到的，取回来自己用
 php网站判断用户是否是手机访问的方法
 三种php连接access数据库方法
 php防止SQL注入详解及防范
 mysql sql语句大全
 java util 中set,List 和Map的使用
 web开发——写一个简单的表格导出操作
 JSP登录页面使用Enter键登录【转】
PL/SQL 将旧表的一些字段赋值给新的表中的字段的做法
 PL/SQL设置主键自增

原文地址：https://www.cnblogs.com/g2thend/p/12452154.html

Copyright © 2011-2022 走看看