zoukankan      html  css  js  c++  java
  • 网络爬虫基础练习

    0.可以新建一个用于练习的html文件,在浏览器中打开。

    1.利用requests.get(url)获取网页页面的html文件

    import requests

    newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/'

    res = requests.get(newsurl) #返回response对象

    res.encoding='utf-8'

    2.利用BeautifulSoup的HTML解析器,生成结构树

    from bs4 import BeautifulSoup

    soup = BeautifulSoup(res.text,'html.parser')

    3.找出特定标签的html元素

    soup.p #标签名,返回第一个

    soup.head

    soup.p.name #字符串

    soup.p. attrs #字典,标签的所有属性

    soup.p. contents # 列表,所有子标签

    soup.p.text #字符串

    soup.p.string

    soup.select(‘li')

    4.取得含有特定CSS属性的元素

    soup.select('#p1Node')

    soup.select('.news-list-title')

    5.练习:

    取出h1标签的文本
    取出a标签的链接
    取出所有li标签的所有内容
    取出第2个li标签的a标签的第3个div标签的属性

    取出一条新闻的标题、链接、发布时间、来源

    import requests
    from bs4 import BeautifulSoup
    res = requests.get('http://www.people.com.cn/')
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    
    # 取出h1标签的文本
    for h1 in soup.find_all('h1'):
        print(h1.text)
    # 取出a标签的链接
    for a in soup.find_all('a'):
        print(a.attrs.get('href'))
    # 取出所有li标签的所有内容
    for li in soup.find_all('li'):
        print(li.contents)
    # 取出第2个li标签的a标签的第3个div标签的属性
    print(soup.find_all('li')[1].a.find_all('div')[2].attrs)
    
    # 取出一条新闻的标题、链接、发布时间、来源
    print(soup.select('div .news-list-title')[0].text)
    print(soup.select('div .news-list-thumb')[0].parent.attrs.get('href'))
    print(soup.select('div .news-list-info > span')[0].text)
    print(soup.select('div .news-list-info > span')[1].text)
  • 相关阅读:
    606. Construct String from Binary Tree
    696. Count Binary Substrings
    POJ 3255 Roadblocks (次短路)
    POJ 2823 Sliding Window (单调队列)
    POJ 1704 Georgia and Bob (博弈)
    UVa 1663 Purifying Machine (二分匹配)
    UVa 10801 Lift Hopping (Dijkstra)
    POJ 3281 Dining (网络流之最大流)
    UVa 11100 The Trip, 2007 (题意+贪心)
    UVaLive 4254 Processor (二分+优先队列)
  • 原文地址:https://www.cnblogs.com/lk666/p/8717286.html
Copyright © 2011-2022 走看看