python网络爬虫与信息提取学习笔记day1 - 走看看

zoukankan html css js c++ java

python网络爬虫与信息提取学习笔记day1
Day1：

安装python之后，为其配置requests第三方库，并爬取百度主页内容。

语句解释：

r.status_code检测请求的状态码，如果状态码为200，则说明访问成功，否则，则说明访问失败。

注意Response对象的五个属性：

爬取网页的通用代码框架：
# -*- coding: utf-8 -*- """ Spyder Editor This is a temporary script file. """ import requests def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "产生异常" if __name__=="__main__": url="http://www.baidu.com" print(getHTMLText(url))
　　

HTTP URL的理解

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

http协议对资源的操作对应requests库的六个操作

post:向URL POST一个字典，自动编码为form(表单);想URL POST一个字符串，自动编码为data
查看全文

相关阅读:
VUE参考---组件切换动画
 VUE参考---组件切换方式
 VUE参考---为什么组件中的data必须是一个方法且返回一个对象
 VUE参考---组件中的data和methods
VUE课程---26、组件
 VUE课程---25、发ajax请求
 VUE课程---24、插件
 Spring3.2.4集成quartz2.2.1定时任务(demo)
TODO
【转】Mac 程序员的十种武器

原文地址：https://www.cnblogs.com/yezhaodan/p/7419192.html

Copyright © 2011-2022 走看看