zoukankan      html  css  js  c++  java
  • 网络爬虫基本练习

    1.取出h1标签的文本

    import requests
    re=requests.get('http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html')
    re.encoding='utf-8'
    print(re)
    print(re.text)
    print(soup.h1.text)

    2.取出a标签的链接

    soup.a.attrs.get('href')

    3.取出所有li标签的所有内容

     for i in soup.select('li'):
        print(i.text)

    4.取出一条新闻的标题、链接、发布时间、来源

    print(soup.select('.news-list-title')[0].text)
    print(soup.select('li')[1].a.attrs['href'])
    print(soup.select('.news-list-info')[0].contents[0].text)
    print(soup.select('.news-list-info')[0].contents[1].text)
  • 相关阅读:
    Swift 构造与析构
    Swift 协议
    Swift 扩展
    Swift 多态
    Swift 继承
    Swift 封装
    Swift 方法
    Swift 属性
    Swift 对象
    Swift 类
  • 原文地址:https://www.cnblogs.com/TopHin/p/8671859.html
Copyright © 2011-2022 走看看