python-day1 爬虫基础之HTTP基本原理

zoukankan html css js c++ java

python-day1 爬虫基础之HTTP基本原理

经过前几天的开发环境配置，今天终于正式开启学Python之路了，今天主要看了HTTP的基本原理，下边做一个总结：

1.首先要了解的就是URI和URL，URI的全拼是Uniform Resource Identifier,也就是统一资源标志符；URL的全拼是Uniform Resource Locator,也就是统一资源定位符；我对这两个名称的理解就是两者都基本可以称之为网页链接，也就是我们通常说的网址。除此之外，还有一个URN，其全拼是Uniform Resource Name,也就是统一资源名称；不过，URN现在我们用的比较少。

2.还需要了解一个概念，就是超文本——hypertext，我对超文本的总结就是一个词——网页源代码，我们看到的网页内容，其实就是由超文本解析而成的，这里还涉及到一个词，叫做HTML，这个词大家都应该见过，网页源代码就是HTML代码，在HTML代码里边会包含一系列的标签，比如说，像我们熟悉的img，它在HTML源代码里就代表图片，除此之外还有“p”代表指定显示段落。举个例子，我们打开一个网页，鼠标右击，选择“审查元素”，在Elements即可看到网页的源代码，如下图所示：

3.经常上网的朋友，肯定能注意到，网址的最前边有时候是http，有时候是https，在我看来两者的区别就是，https更安全一些，它是有CA机构颁发的安全签章的，所以安全系数比较高。

4.我们在输入网址进入网页的过程，其实是浏览器向服务器发送了一个请求，服务器在接收到请求指令后，会做出一系列的响应，并将其响应传回给浏览器，浏览器对响应进行解析处理后，将网页内容呈现在我们眼前。需要说的是，服务器所返回的响应中就包含网页的源代码。

以上就是今天所学，因为白天还有其他的事情要做，只有晚上才有时间学一会python，如有不对的地方，还希望能积极指正，万分感谢，一起学习，共同进步。

查看全文

相关阅读:
tf.nn.embedding_lookup函数的用法
 windows+python3.6下安装fasttext+fasttext在win上的使用+gensim（fasttext）
阅读关于DuReader：百度大规模的中文机器阅读理解数据集
 End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文小结
 《Applying Deep Learning to Answer Selection: A Study And an Open Task》文章理解小结
 Windows下基于python3使用word2vec训练中文维基百科语料(三)
Windows下基于python3使用word2vec训练中文维基百科语料(二)
Java并发编程：CountDownLatch、CyclicBarrier和 Semaphore
cpu满问题分析
 Zookeeper用来干什么？

原文地址：https://www.cnblogs.com/jiangtongxue/p/9374763.html