（爬虫）Python爬虫01（入门） - 走看看

zoukankan html css js c++ java

（爬虫）Python爬虫01（入门）
目录：

一、基本知识介绍

二、获取网页

一、基本知识介绍

1、主要依赖 urllib：即URL（网页地址）+lib（包）；详细解释请参考python文档（打开IDLE -- Help -- Python Docs -- 查询即可）；

2、URL的一般格式（ps： [] 内可省略）

协议 :// 域名 [ :端口 ] / 路径 /

其中的名词解释如下：

协议：如：http，https，ftp，file 等；

域名：存放资源的服务器域名系统或者IP地址（部分需要加端口号，如：8080），如：www.baidu.com（域名例子），localhost（本机IP地址）等；

路径：存放资源的具体地址，目录或者文件名等，如：index.html等。

二、获取网页
#引入依赖 import urllib.request #打开博客园登录地址(即获取该页面)，将返回的对象存入response中 response = urllib.request.urlopen("https://account.cnblogs.com/signin") #读出刚才返回的对象,将以二进制字符串形式存入html_d中 html_d = response.read() #将二进制字符串以 utf-8 解码(主要看页面是用什么编码的，但通常都是 utf-8 ) html = html_d.decode("utf-8") #将结果打印出来 print(html)

View Code
爬虫下一篇： (爬虫)python爬虫02(实战)

本博客参考：

零基础入门学习Python https://www.bilibili.com/video/av4050443?p=54
查看全文

相关阅读:
网络受限下，使用Nexus要解决的两个问题
 Nexus远程Maven仓库索引下载教程
 maven--私服的搭建（Nexus的使用）
maven命令/依赖/聚合
 mybatis常用jdbcType数据类型
 Lombok 安装、入门
 jquery append 动态添加的元素事件on 不起作用的解决方案
 Maximum Sum on Even Positions
哈密顿
 计算几何基础

原文地址：https://www.cnblogs.com/hwh000/p/12445199.html

Copyright © 2011-2022 走看看