Python爬虫

python爬去百度主页代码

import requests
r=requests.get("https://www.baidu.com/")
print(r.status_code)
r.encoding = 'utf-8'
print(r.text)

Response对象属性

response库异常函数

爬虫通用代码框架：

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status() #如果状态不是200，触发HTTPError异常
        r.encoding='utf-8'
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))

Requests 七个主要方法

URL是http协议存取资源的internet路径，一个URL对应一个数据资源

http协议对资源的操作

网络爬虫尺寸

在爬去网页或者网站时用遵守robots协议

查看全文

相关阅读:
有几个点会导致插件包不出现
 JScrollPane恢复正常滚动量
 java jlabel 对齐_java将JLabel中的文本右对齐
 SVN的安装和使用手册
 idea生成类注释和方法注释的正确方法
 关于RCP中英文的一些总结
 精通Hibernate类与类关联关系：[一]建立多对一的单向关联关系
 Hibernate笔记=>继承关系的映射[转王继彬]
Unity(六)：使用场景Ⅲ：用于依赖注入（上）
NHibernate之旅(13)：初探立即加载机制[转 Blog 李永京]

原文地址：https://www.cnblogs.com/liberate20/p/10765571.html