BeautifulSoup的基本使用 - 走看看

zoukankan html css js c++ java

BeautifulSoup的基本使用
一、将一段文档传入BeautifulSoup的构造方法，得到一个文档的对象：
from bs4 import BeautifulSoup Soup = BeautifulSoup(html_doc)
二、Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment：
- Tag：和HTML原生文档中的tag相同，有很多的方法和属性。可以通过tag['属性']或tag.属性获得对应的属性值。
- NavigableString:使用Soup.string获得标签内的字符串，该字符串的类型就是NavigableString(可遍历的字符串)
- BeautifulSoup:暂时不理解这是干嘛的。
- Comment:是一个特殊类型的NavigableString对象，针对HTML文档的注释部分使用特殊的格式进行输出
三、爬虫主要使用的是CSS选择器这个功能，获取文档中需要的信息部分：
1. 通过标签查找:
  
  Title = Soup.select("title") #通过tag标签逐层查找 Title = Soup.select("html body title") #通过某个tag标签下的直接子标签查找 Title = Soup.select("head > title")
2. 通过CSS类名进行查找:
  
  Sister = Soup.select(".sister")
3. 通过id进行查找：
  
  Link = Soup.select("#link")
4. 通过属性值来查找：
  
  Href = Soup.select('a[href="http://example.com/elise"]')
待人友善是修养，独往独来是性格。 --qq:2986957136
查看全文

相关阅读:
原生js实现基本选择器
 javascript数组
 web中关于隐藏与显示
 CSS3 box-shadow(阴影使用)
java中文件的I/O操作
 组件RecyclerView的应用(一)
Android客户端与Eclipse服务器端的Socket通信
 C语言关于利用sscanf实现字符串相加减
 TabLayout和ViewPager简单实现页卡的滑动
 DrawerLayout的openDrawer()和closeDrawer()方法

原文地址：https://www.cnblogs.com/jxc321/p/7306636.html

Copyright © 2011-2022 走看看