zoukankan      html  css  js  c++  java
  • python 爬虫

    一、requests 模块爬虫基础写法

    # 基础爬虫写法.py
    import requests
    
    def spider(url):
    # 定义一个函数,爬取网页源码
    
    	headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
    	# 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values
    	# user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器
    
    	ret = requests.get(url, headers=headers)
    	# 请求一个地址,返回响应
    	
    	html = ret.content
    	# 得到http响应内容的二进制形式
    	
    	# html = ret.content.decode('utf-8')
    	# 得到http响应内容的二进制形式,指定编码格式为utf-8
    	
    	return html
    	# 返回http响应内容
    
    
    
    if __name__ == '__main__':
    
    	url = "https://www.cnblogs.com/aaak/p/13968431.html"
    	# url 地址
    
    	html = spider(url).decode('utf-8')
    	# 调用 函数,并指定编码格式
    
    	print(html)
    
  • 相关阅读:
    微信支付
    设计模式
    微信,根据经纬度获取当前城市
    移动端下拉刷新
    angular-seed — AngularJS种子项目
    Send Email
    angularjs 控制器
    ajax 图片上传
    Jpeg-Baseline和Progressive JPEG的区别
    QT启动一个工程
  • 原文地址:https://www.cnblogs.com/aaak/p/14003578.html
Copyright © 2011-2022 走看看