zoukankan      html  css  js  c++  java
  • 学习requests_html

    一、获取页面上的所有链接。

    from requests_html import HTMLSession
    
    session=HTMLSession()
    r=session.get('https://news.baidu.com/')
    #获取页面上的所有链接
    all_links=r.html.links
    print(all_links)
    #获取页面上的所有链接,以绝对路径的方式
    all_absolute_links=r.html.absolute_links
    print(all_absolute_links)

    二、获取页面上的所有标题及其链接

    from requests_html import HTMLSession
    
    session=HTMLSession()
    
    r=session.get('https://www.cnblogs.com/')
    
    news=r.html.find('#post_list > div:nth-child(n) > div.post_item_body > h3 > a')
    
    for new in news:
        print(new.text)
        print(new.absolute_links)

     三、通过css选择器选取一个Element对象

    >>> about = r.html.find('#about', first=True)

     四、获取一个Element对象内的文本内容

    >>> print(about.text)

     五、获取一个Element对象的所有属性attributes

    >>> about.attrs
    {'id': 'about', 'class': ('tier-1', 'element-1'), 'aria-haspopup': 'true'}

     六、渲染出一个Element对象的HTML内容

    >>> about.html
  • 相关阅读:
    Django中多表的增删改查操作及聚合查询、F、Q查询
    路由控制
    路由、视图、模板主要知识点回顾
    创建文件linux
    关于shell,环境变量放置在?
    snprintf和string操作函数
    C/C++的存储区域的划分
    001
    SAMBA服务器
    归并排序原理详解!
  • 原文地址:https://www.cnblogs.com/start20180703/p/10369950.html
Copyright © 2011-2022 走看看