吴关于第三周BeautifulSoup个人作业中的易错点 - 走看看

zoukankan html css js c++ java

吴关于第三周BeautifulSoup个人作业中的易错点

在BeautifulSoup类库中可用html_parser进行解析

在html的文件中，要获得某标签的文本内容时，可用对象名.select

('*')[0].text 其中[0]表示索引 *表示标签名

例题：

<h1 id=''tittle''> Hello World </h1>\

<a href=''#'' class=''link'' > This is link1 </a>\

<a href=''# link2 '' class=''link''> This is link2 </a>\

找出id为tittle属性所在的节点文本soup.select(''#tittle'')[0].text

而找class为link的第一个节点的文本，则用soup.select(.link)[0].text

在爬取数据时，在多层class关系中，用#表示id,用.表示class,用空格表示下一层关系

pandas 类库中的DateFrame函数，可把列表转换成表格

在BeautifulSoup中将内容格式化可用prettify()

在继承关系（children/descendants/parent/parents）中，继承的返回结果为迭代器，需用enumerate来获取想要看到的内容

查看全文

相关阅读:
爸爸妈妈儿子女儿吃水果问题以及五个哲学家吃饭问题
 同步与互斥中的购票和退票问题的PV操作与实现
 创建react&ts&antd项目
 在POM配置Maven plugin提示错误“Plugin execution not covered by lifecycle configuration”的解决方案
 aws rds 储存空间占用异常排查存储空间占满
 Linux下clang、gcc、intel编译器最新版本安装笔记
 extern "C"与extern "C" { … }的差别
 gcc预处理指令之#pragma once
指向类的成员变量的指针
 Java程序中使用SQLite总结

原文地址：https://www.cnblogs.com/ZHONGmy/p/9704202.html

Copyright © 2011-2022 走看看