Python数据抓取（3） —抓取标题、时间及链接 - 走看看

zoukankan html css js c++ java

Python数据抓取（3） —抓取标题、时间及链接
本次分享，jacky将跟大家分享如何将第一财经文章中的标题、时间以及链接抓取出来

（一）观察元素抓取位置
- 网页的原始码很复杂，我们必须找到特殊的元素做抽取，怎么找到特殊的元素呢？使用开发者工具检视每篇文章的分隔发现都以dl-item做区隔，我们可以知道可以透过dl-item提取一个一个的列表，既然知道我们要存储的位置在 dl-item下，我们就可以把dl-item下的结构拓展出来，我们接下来就可以根据不同的标签取得不同的内容，我们把一个个的dl-item列出来
（二）爬虫撰写
```
import requests
from bs4 import BeautifulSoup
response = requests.get('http://www.yicai.com/data/')
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text,'html.parser')

for news in soup.select('.dl-item'):
    print(news.select('h3'))
```
- 去掉要抓取内容中的中括号［0］
```
for news in soup.select('.dl-item'):
    print(news.select('h3')[0])
```
- 取得里面的文字内容
```
for news in soup.select('.dl-item'):
    print(news.select('h3')[0].text)
```
- 抓取a 下的链接，发布来源及发布时间
```
for news in soup.select('.dl-item'):
    h3 = news.select('h3')[0].text
    a = news.select('a')[0]['href']
    h4 =news.select('h4')[0].text
    print(h4,h3,a)
```
查看全文

相关阅读:
XmlReader和XElement组合之读取大型xml文档
 requestAnimationFrame/cancelAnimationFrame——性能更好的js动画实现方式
 webview的简单介绍和手写一个H5套壳的webview
关于前后端写入Cookie时domain的一个问题
 vscode调试webpack的启动和打包部署过程，nodejs调试
 java 实现仿照微信抢红包算法，实测结果基本和微信吻合，附demo
Java中的BigDecimal类和int和Integer总结
 @RequestParam和@RequestBody和@PathVariable用法小结
 spring-boot+spring-cloud+maven-module 一个 maven多模块的微服务架构模版
 SpringBoot + SpringCloud的爬坑之旅

原文地址：https://www.cnblogs.com/shujufenxi/p/9054440.html

Copyright © 2011-2022 走看看