zoukankan      html  css  js  c++  java
  • python 爬虫

    一、requests 模块爬虫基础写法

    # 基础爬虫写法.py
    import requests
    
    def spider(url):
    # 定义一个函数,爬取网页源码
    
    	headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"}
    	# 定义个一个headers 里面放user-agnet,也可以放别的信息, 字典格式key-values
    	# user-agent 会告诉网站服务器,访问者是通过什么工具来请求的。 类似伪造身份,让对端把自己当成浏览器
    
    	ret = requests.get(url, headers=headers)
    	# 请求一个地址,返回响应
    	
    	html = ret.content
    	# 得到http响应内容的二进制形式
    	
    	# html = ret.content.decode('utf-8')
    	# 得到http响应内容的二进制形式,指定编码格式为utf-8
    	
    	return html
    	# 返回http响应内容
    
    
    
    if __name__ == '__main__':
    
    	url = "https://www.cnblogs.com/aaak/p/13968431.html"
    	# url 地址
    
    	html = spider(url).decode('utf-8')
    	# 调用 函数,并指定编码格式
    
    	print(html)
    
  • 相关阅读:
    groovy集合
    groovy函数、字符串、循环
    groovy运行程序和类型推断
    常见IT英语短语一
    常见IT英语单词
    认识Groovy
    maven入门
    springboot之内嵌tomcat修改端口号
    springboot手动配置数据源:
    img与父元素的间隙解决
  • 原文地址:https://www.cnblogs.com/aaak/p/14003578.html
Copyright © 2011-2022 走看看