zoukankan      html  css  js  c++  java
  • 爬取汽车之家新闻

    爬取汽车之家新闻

    # 爬取汽车之家
    
    import requests
    
    # 向汽车之家发送get请求,获取到页面
    ret = requests.get('https://www.autohome.com.cn/news/1/#liststart')
    # print(ret.text)
    
    # bs4解析(可以不用re)
    from bs4 import BeautifulSoup
    # 实例化得到对象,传入要解析的文本和解析器
    # html.parser是一个内置解析器,速度稍微慢一些,但是不需要装第三方模块
    # lxml:速度快一些,但是需要安装 pip3 install lxml
    soup = BeautifulSoup(ret.text,'html.parser')
    # soup=BeautifulSaoup(open('a.html','r'))
    # find(找到的第一个)
    # find_all(找所有的)
    # 找页面所有的li标签
    li_list = soup.find_all(name='li')
    for li in li_list:
        # li是Tag对象
        # print(type(li))
        h3 = li.find(name='h3')
        if not h3:
            continue
        title = h3.text
        desc = li.find(name='p').text
        # 对象支持[]取值,说明重写了__getitem__魔法方法
        img = li.find(name='img')['src']
        url = li.find(name='a')['href']
        # 图片下载到本地
        ret_img = requests.get('https:'+ img)
        img_name = img.rsplit('/',1)[-1]
        with open(img_name,'wb')as f:
            for line in ret_img.iter_content():
                f.write(line)
        print('''
        新闻标题:%s
        新闻摘要:%s
        新闻链接:%s
        新闻图片:%s
        '''%(title,desc,url,img))
  • 相关阅读:
    openpyxl(python操作Excel)
    python爬虫之数据加密解密
    python爬虫之字体反爬
    识别缩略图加载
    Windows文件共享自动失效解决办法
    pygame
    获取文件路径、文件名、后缀名
    Oracle EBS INV 挑库发放物料搬运单
    Oracle EBS INV 删除保留
    Oracle EBS INV 创建货位
  • 原文地址:https://www.cnblogs.com/baohanblog/p/12662572.html
Copyright © 2011-2022 走看看