zoukankan html css js c++ java

request + beautifulsoup + openpyxl + 使用

###

安装
pip install requests
pip install -i https://pypi.douban.com/simple beautifulsoup4

####

引入和使用
import requests
from bs4 import BeautifulSoup

# 第一步：打开百度
headers = {
    "User-Agent":
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
    'Chrome/78.0.3904.108 Safari/537.36'
}
re = requests.get("https://www.baidu.com",headers=headers)
html = re.content.decode("utf-8")
bs = BeautifulSoup(html,"html.parser")
print(bs)

#####

requests的一些用法
各种请求方式：
import requests
requests.get('http://httpbin.org/get')
requests.post('http://httpbin.org/post')
requests.put('http://httpbin.org/put')
requests.delete('http://httpbin.org/delete')
requests.head('http://httpbin.org/get')
requests.options('http://httpbin.org/get')

get之后的处理：
import requests
response = requests.get('http://www.baidu.com')
print(response.status_code)  # 打印状态码
print(response.url)          # 打印请求url
print(response.headers)      # 打印头信息
print(response.cookies)      # 打印cookie信息
print(response.text)  #以文本形式打印网页源码
print(response.content) #以字节流形式打印

#####

beautifulsoup的一些用法print(bs.prettify()) # 格式化html结构
print(bs.title) # 获取title标签的名称
print(bs.title.name) # 获取title的name
print(bs.title.string) # 获取head标签的所有内容
print(bs.head) 
print(bs.div)  # 获取第一个div标签中的所有内容
print(bs.div["id"]) # 获取第一个div标签的id的值
print(bs.a) 
print(bs.find_all("a")) # 获取所有的a标签
print(bs.find(id="u1")) # 获取id="u1"


for item in bs.find_all("a"): 
    print(item.get("href")) # 获取所有的a标签，并遍历打印a标签中的href的值
for item in bs.find_all("a"): 
    print(item.get_text())

#####

openpyxl的用法
pip install openpyxl
主要操作的就是读写，
操作表book，sheet，单元格cell

#####

有了这三个模块，加上python内置的邮件模块，就可以发邮件了，


如果可以部署到Linux，就可以每天发邮件了，

###

查看全文

相关阅读:
长连接与短连接
 服务器配置tomact service
数据库权限表设计
 VPS搭建离线下载服务器——后网盘时代
 Unix socket的准备(一)
LeetCode 650
C++11获取线程的返回值
 柔性数组成员——不定长的数据结构
 看懂类图——UML类图基础
 Java类初始化顺序

原文地址：https://www.cnblogs.com/andy0816/p/14769762.html