python爬虫-初步认识 - 走看看

zoukankan html css js c++ java

python爬虫-初步认识
特此声明：
- 以下内容来源于博主：http://blog.csdn.net/pleasecallmewhy
http://cuiqingcai.com/
- 根据需要整理到自己的笔记中，用于学习。
网络爬虫（Web crawler）：也叫网络蜘蛛（Web spider）,网络爬虫的基本操作就是抓取网页。

浏览网页：在火狐浏览器中打开百度www.baidu.com ，就是将浏览器作为一个’客户端‘，

向服务器发送一次请求，把服务器的文件’抓取‘到本地，再进行解释和展现.

HTML：是一种标记语言，用标签标记内容并加以解析和区分。

浏览器功能：将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL（Uniform / Universal Resource Locator）：称为统一资源定位符（也叫网址）

URL格式：
- 协议
- 服务器（域名或IP地址），有时也包括端口号（以数字表示，可省略）
- 路径（即主机资源的具体地址）
- 查询（以？为起点）
第一部分协议和第二部分服务器用' :// '符合隔开，第二部分服务器和第三部分路径用' / '隔开

例如：http://zh.wikipedia.org:80/w/index.php

http：是协议

zh.wikipedia.org，是服务器

80，是服务器上的网络端口号

/w/index.php，是路径

爬虫最主要的处理对象就是URL
查看全文

相关阅读:
mysql高级排序&高级匹配查询示例
 为什么我说我会这会那，但真正到回答实际问题的时候却傻了眼了？
微软职位内部推荐-SW Engineer II for WinCE
微软职位内部推荐-Senior Program Manager
微软职位内部推荐-Software Engineer II-Web app
微软职位内部推荐-Senior Software Engineer -Web
微软职位内部推荐-Senior Software Engineer-News
微软职位内部推荐-Software Engineer II-News
微软职位内部推荐-SDE II
微软职位内部推荐-Software Engineer II-Data Mini

原文地址：https://www.cnblogs.com/wujiadong2014/p/4926313.html

Copyright © 2011-2022 走看看