python bs4 BeautifulSoup

zoukankan html css js c++ java

python bs4 BeautifulSoup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装
- 命令：pip install beautifulsoup4
解析器
- 主要的解析器,以及它们的优缺点如下：
安装命令：
- pip install lxml
- pip install html5lib
requests
- requests的底层实现就是urllib, requests能够自动帮助我们解压(gzip压缩的等)网页内容
- 安装命令：pip install requests
- 推荐使用 response.content.deocde() 的方式获取响应的html页面
pandas
- 安装命令：pip install pandas
- 基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。
数据结构：
- Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和Series中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。
- Time- Series：以时间为索引的Series。
- DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
- Panel ：三维的数组，可以理解为DataFrame的容器。
使用

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag
- NavigableString
- BeautifulSoup
- Comment
Tag：Tag 对象与XML或HTML原生文档中的tag相同，tag中最重要的属性: name和attributes

从网页中获取指定标签、属性值，取值方式：
- 通过标签名获取：tag.name tag对应的type是<class 'bs4.element.Tag'>
- 通过属性获取：tag.attrs
- 获取标签属性：tag.get('属性名') 或 tag['属性名']
功能标签
- stripped_strings：输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容
- 标准输出页面：soup.prettify()
查找元素：
- find_all(class_="class") 返回的是多个标签
- find(class_="class") 返回一个标签
- select_one() 返回一个标签
- select() 返回的是多个标签
- soup = BeautifulSoup(backdata,'html.parser')　　#转换为BeautifulSoup形式属性
- soup.find_all('标签名'，attrs{'属性名':'属性值'} ) #返回的是列表
- limitk 控制 find_all 返回的数量
- recursive=Flase 返回tag的直接子元素
demo
import sys import io import requests from bs4 import BeautifulSoup as bs import pandas as pd import numpy as np from py_teldcore import sqlserver_db as db sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030') url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.html" def get_soap(): try: r = requests.get(url) soap = bs(r.text, "lxml") return soap except Exception as e: print(e) return "Request Error" def save2cvs(data, path): result_weather = pd.DataFrame(data, columns=['date', 'tq', 'temp', 'wind']) result_weather.to_csv(path, encoding='gbk') print('save weather sucess') def save2mssql(data): sql = "Insert into Weather(date, tq, temp, wind) values(%s, %s, %s, %s)" data_list = np.ndarray.tolist(data) # sqlvalues = list() # for data in data_list: # sqlvalues.append(tuple(data)) sqlvalues = [tuple(iq) for iq in data_list] try: db.exec_sqlmany(sql, sqlvalues) except Exception as e: print(e) def get_data(): soap = get_soap() print(soap) all_weather = soap.find("div", class_="wdetail").find("table").find_all("tr") data = list() for tr in all_weather[1:]: td_li = tr.find_all("td") for td in td_li: s = td.get_text() data.append("".join(s.split())) res = np.array(data).reshape(-1, 4) return res if __name__ == "__main__": data = get_data() save2mssql(data) print("save2 Sqlserver ok!")
　　

参考资料
查看全文

相关阅读:
java 微信公众服务平台下发模板消息
 java web实现忘记密码（找回密码）功能及代码
 DES加密后get获取url参数无法解密问题
 java实现url转码、解码
 java 实现 DES加密解密算法
 oracle sqlplus 导出csv文件
 oracle导出多CSV文件的靠谱的
 Oracle 释放过度使用的Undo表空间
 Archiving not possible: No primary destinations errors
Linux 之 shell 比较运算符

原文地址：https://www.cnblogs.com/tgzhu/p/11385068.html