python的requests模块爬取网页内容

注意：处理需要用户名密码认证的网站，需要auth字段。

# -*- coding:utf-8 -*-

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36",
}

newUrl ="https://www.freebuf.com/articles/system/187792.html"
#最简单的爬虫请求.也可以加上headers字段，防止部分网址的反爬虫机制
response = requests.get(newUrl)
#当爬取的界面需要用户名密码登录时候，构建的请求需要包含auth字段
#response = requests.get(newUrl,headers=headers,auth=('username','passsword'))
print(response.content.decode("utf-8"))#打印网页内容
#print(response.status_code)#浏览器返回的错误码，200表示成功

查看全文

相关阅读:
Linux虚拟机突然网络不能用了但是主机能ping㣈
 010商城项目：商品类目的选择——Dao,Service.Action层的分析
 009商城项目：商品类目的选择——1前端页面分析
 《深入理解Java内存模型》读书总结
 java多线程系类：JUC线程池：06之Callable和Future（转）
Spring中，关于IOC和AOP的那些事
 程序员面试，为什么不要大谈高并发？
Java 面试宝典！并发编程 71 道题及答案全送上！
面试必问的并发编程知识点，你知道多少？
程序员必知的七种并发编程模型

原文地址：https://www.cnblogs.com/taoyuanming/p/10768495.html