爬取汽车之家新闻

zoukankan html css js c++ java

爬取汽车之家新闻
爬取汽车之家新闻
- 伪造浏览器向某个地址发送Http请求，获取返回的字符串
  
  response = requests.get(url = '地址')
  
  response.content
  
  response.encoding = apparent_encoding
  
  response.text
- bs4，解析HTML格式的字符串
  
  soup = BeautifulSoup('<html>...</html>', "html.parser")
  
  soup.find(name='标签名')
  
  soup.find(name='标签名', id='il')
  
  soup.find(name='标签名', _class='il')
  
  soup.find(name='div', attrs={'id': 'auto-channel-lazyload-article', 'class': 'id'})
一、下载页面

首先抓取要爬的页面
import requests ret = requests.get(url="https://www.autohome.com.cn/news/")
此时print(ret)返回的是一个对象： <Response [200]>

然后再print(ret.content)输出如下：

上图看出返回的是整个网页文本，不过是以字节形式的文本。

这不是我们需要的，接着再改用print(ret.text)输出如下：

此时，出现了恶心的乱码！！！，我们再用encoding对ret进行编码：
ret.encoding = 'gbk'
这样可能不是很智能，那我们可以换一种方式：
ret.encoding = ret.apparent_encoding
在这里，print(ret.apparent_encoding)可以自动获取网页的编码格式。此时print(ret.text)已经能正常显示网页了：

二、解析：获取想要的指定内容

此时我们分析汽车之家新闻页面：

初步判断，新闻部分位于id为"auto-channel-lazyload-article"的div下面的li标签中，之所以选择id是因为class名称可能不是唯一的，不好用于过滤

此时，我们需要在py文件头部导入bs4模块，这个模块主要用来帮我们解析整个html页面，相当于正则表达式的功能
from bs4 import BeautifulSoup
用html解析器对网页进行解析
soup = BeautifulSoup(ret.text, 'html.parser')
我们用print(type(soup))输出soup的类型得到： <class 'bs4.BeautifulSoup'> ，可以看出soup由文本变成对象了。

提取出新闻所在的div：
div = soup.find(name='div',id='auto-channel-lazyload-article')
我们先print(div)查看下结果：

然后再对这个div对象进行二次解析，我们最终要拿到里面的li，用find_all找所有的li
li_list = div.find_all(name='li')
再次print(li_list)输出：

可以看出li_list已经是一个列表了。我们需要先找出里面的h3标签
for li in li_list: h3 = li.find(name='h3')
用print(h3)查看下h3标签

可以看出上图有一个为None的地方，我们返回网页查看源码

目测这里应该是一个广告位，这里我们可以采取if判断直接过滤掉
for li in li_list: h3 = li.find(name='h3') if not h3: continue print(h3)
在这里h3是一个对象，我们最终需要得到h3的文本
print(h3.text)
目前我们只是取得了每个li标签的新闻标题，再获取新闻正文和超链接
for li in li_list: h3 = li.find(name='h3') if not h3: continue print(h3.text) p = li.find(name='p') print(p.text) a = li.find('a') # 不写name默认取第一个a print(a.attrs) # attrs拿取所有属性
对输出进行优化：
print(h3.text, a.get('href')) print(p.text) print(' ')
我们顺便爬下图片吧
img = li.find('img') # print(img) src = img.get('src') # print(src) file_name = src.rsplit('__', maxsplit=1)[1] # print(file_name) ret_img = requests.get( url='https:' + src ) with open(file_name, 'wb') as f: f.write(ret_img.content) print(' ')
此时在自己当前路径下，已经下载了很多图片
查看全文

相关阅读:
搜索引擎的变化【转载】
转贴：Apache重负荷服务器应如何优化
 开源WebGIS系统构建工具集合
 linux命令大全
 英语新闻常用搜索引擎【转载】
转载王垠的《完全用GNU/Linux工作》！！！
国内外搜索引擎论坛【转载】
刚刚申请的WebGIS应用QQ群，最大用户80，欢迎加入啊！
转贴：用Apache反向代理设置对外的WWW和文件服务器
 sourceforge.net上的GeoServer的下载地址列表

原文地址：https://www.cnblogs.com/Black-rainbow/p/9214707.html

爬取汽车之家新闻

一、下载页面

二、解析：获取想要的指定内容