Python学习——BeautifulSoup篇

zoukankan html css js c++ java

Python学习——BeautifulSoup篇

BeautifulSoup

  Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

在本节的笔记中，笔者将会分享两次示例，来帮助大家熟悉BeautifulSoup库的使用，好的，闲话不说，我们来看一下示例。

如何去定位元素

下面我们来爬取一个网页，然后提取里面一些简单的数据

     import requests

     from bs4 import BeautifulSoup as bs

url = "http://china.huanqiu.com/article/2016-07/9132061.html?from=bdwz"

response = bs(requests.get(url).content,'html.parser')

#获取页面内，h1标签的文章标题

print("这篇文章的标题是：",response.h1.string)

#使用find方法，寻找页面内name=source的content的内容

print ("这篇文章的类型是：",response.find(attrs= {'name':'source'})['content'])

#从find_all返回的列表中，查找content字段

     for content in response.find_all('meta',{'name':'source'}):

        print("这篇文章的类型是：",content['content'])

我们来解读一下上面这段代码：

1、导入requests库

2、导入BeautifulSoup库的bs4方法命名为bs

3、将目标地址赋予url

4、使用bs对爬取到的web页面的二进制数据进行html的解析

     （这里使用的是requests.get().content返回的是爬取到的页面的二进制数据，之前我也是用的requests.get().text，但是会有乱码，具体原因不是很清楚。不过有前辈讲是因为requests.get().text 是将爬取到的内容进行默认的转译，而win的系统总是会出莫名其妙的问题）

5、打印，爬取到的页面中的h1标签的页面标题（页面标签麻烦自行百度html页面标签）

6、使用find方法，搜索爬取到的内容里，name=source的内容，打印content对应的数据

7、从find_all返回的列表中，寻找name=source的content字段的数据并打印。

（之前我是有尝试过使用find_all这个方法的，但是没有成功，因为我忽略了find_all方法返回的实际上是一个列表）

查看全文

相关阅读:
vue简单分屏（1,4,9,16），全屏，还需要调整
 vue 中的Vuex实践
 常用工具类
 java Log日志规范
 spring中对象的注入方式
 不恰当的update语句使用主键和索引导致mysql死锁
 JPA规范及其它持久层框架
 webservice基本功能介绍
 Activiti工作流(二)之常用操作
 Activiti工作流(一)之基本操作介绍

原文地址：https://www.cnblogs.com/rookie-c/p/5754817.html