网络爬虫基础练习

zoukankan html css js c++ java

网络爬虫基础练习
0.可以新建一个用于练习的html文件，在浏览器中打开。

1.利用requests.get(url)获取网页页面的html文件

import requests

newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'

res = requests.get(newsurl) #返回response对象

res.encoding='utf-8'

2.利用BeautifulSoup的HTML解析器，生成结构树

from bs4 import BeautifulSoup

soup = BeautifulSoup(res.text,'html.parser')

3.找出特定标签的html元素

soup.p #标签名，返回第一个

soup.head

soup.p.name #字符串

soup.p. attrs #字典，标签的所有属性

soup.p. contents # 列表，所有子标签

soup.p.text #字符串

soup.p.string

soup.select(‘li')

4.取得含有特定CSS属性的元素

soup.select('#p1Node')

soup.select('.news-list-title')

5.练习：

取出h1标签的文本

import requests from bs4 import BeautifulSoup url = 'http://localhost:63342/draw/venv/329.html?_ijt=nf522vm6pmjoqqg6p6nfqp03rf' res = requests.get(url) res.encoding = 'utf-8' res.text soup = BeautifulSoup(res.text, 'html.parser') a = soup.select('h1')[0].text print(a)

取出a标签的链接

b=soup.a.attrs['href'] c=soup.li.a.attrs['href'] print(b) print(c)

取出所有li标签的所有内容

for d in soup.select('li'): print(d)

取出一条新闻的标题、链接、发布时间、来源

a0 =soup.select('.news-list-title')[0].text print(a0) a1 =soup.li.a.attrs['href'] print(a1) a2=soup.select('.news-list-info')[0].contents[0].text print(a2) a3 =soup.select('.news-list-info')[0].contents[1].text print(a3)
查看全文

相关阅读:
jMeter 里 CSV Data Set Config Sharing Mode 的含义详解
 如何使用 jMeter Parallel Controller
使用 Chrome 开发者工具 coverage 功能分析 web 应用的渲染阻止资源的执行分布情况
 使用 Chrome 开发者工具的 lighthouse 功能分析 web 应用的性能问题
 关于 SAP 电商云首页加载时触发的 OCC API 请求
 SAP UI5 确保控件 id 全局唯一的实现方法
 SAP 电商云 Accelerator 和 Spartacus UI 的工作机制差异
 介绍一个好用的能让网页变成黑色背景的护眼 Chrome 扩展应用
 Chrome 开发者工具 performance 标签页的用法
 Client Side Cache 和 Server Side Cache 的区别

原文地址：https://www.cnblogs.com/xujinpei/p/8678012.html