zoukankan      html  css  js  c++  java
  • python 爬虫

    一、requests 模块爬虫基础写法

    # 基础爬虫写法.py
    import requests
    
    def spider(url):
    # 定义一个函数,爬取网页源码
    
    	headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
    	# 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values
    	# user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器
    
    	ret = requests.get(url, headers=headers)
    	# 请求一个地址,返回响应
    	
    	html = ret.content
    	# 得到http响应内容的二进制形式
    	
    	# html = ret.content.decode('utf-8')
    	# 得到http响应内容的二进制形式,指定编码格式为utf-8
    	
    	return html
    	# 返回http响应内容
    
    
    
    if __name__ == '__main__':
    
    	url = "https://www.cnblogs.com/aaak/p/13968431.html"
    	# url 地址
    
    	html = spider(url).decode('utf-8')
    	# 调用 函数,并指定编码格式
    
    	print(html)
    
  • 相关阅读:
    【项目】项目1
    Python脚本1
    Python基础24
    Python基础23(习惯)
    01-Spring(1)
    12-Shell(2)
    11-Shell(1)
    10-搭建EE环境
    09-常用指令(3)
    08-常用指令(2)
  • 原文地址:https://www.cnblogs.com/aaak/p/14003578.html
Copyright © 2011-2022 走看看