zoukankan      html  css  js  c++  java
  • 网络爬虫基础练习

    1.取出h1标签的文本

    import requests
    url = 'http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html'
    res = requests.get(url)
    res.encoding='utf-8'
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(res.text,'html.parser')
    soup.h1.text

    2.取出a标签的链接

    soup.a.attrs.get('href')

    3.取出所有li标签的所有内容

    soup=BeautifulSoup(res.text,'html')
    for i in soup.select('li'):
        print(i)

    4.取出一条新闻的标题、链接、发布时间、来源

    soup.select('.news-list-title')[0].text
    soup.select('li')[1].a.attrs['href']
    soup.select('.news-list-info')[0].contents[0].text
    soup.select('.news-list-info')[0].contents[1].text
  • 相关阅读:
    vue-cli的npm run build的常见问题
    es6 Symbol
    es6 对象的扩展
    es7 函数绑定
    es6 箭头函数
    学习weex遇见非常奇怪的问题
    微信
    java面试题
    PHP面试题
    Android
  • 原文地址:https://www.cnblogs.com/darkhate/p/8670756.html
Copyright © 2011-2022 走看看