zoukankan      html  css  js  c++  java
  • 抓取菜鸟教程中python内置函数的关键字和链接

    
    import requests 
    from lxml import etree
    import os
    '''
    1.抓取菜鸟教程中python内置函数的关键字和链接
    并保存在文件中
    2.抓取跳转路劲的页面中的描述性语言
    失败
    
    '''
    # 看来抓取页面和跳转的链接非常的简单
    url = "https://www.runoob.com/python/python-built-in-functions.html"
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
    
    response = requests.get(url = url,headers=headers)
    page_1 = response.text
    tree = etree.HTML(page_1)
    a_list = tree.xpath('//div[@id="content"]/table/tbody/tr/td/a/text()')
    a_herf = tree.xpath('//div[@id="content"]/table/tbody/tr/td/a/@href') # 取属性要加@
    print(a_list)
    print(a_herf)
    fp = open('python内置函数.txt','w',encoding='utf-8')
    a = 0
    # 抓取跳转链接之后的关键字 这里的xpath路径返回空列表
    for url_li in a_herf:
        
        url1 = "https://www.runoob.com/" + url_li
        fp.write(a_list[a]+'	'+url1+'
    ')
        a+=1
    fp.close()
        # page_2 = requests.get(url=url1,headers=headers)
        # tree1 = etree.HTML(page_1)
        # p_list = tree1.xpath('//div[@class="article-intro"]/p/text')
        # p_shuomin = tree1.xpath('//div[@id="content"]/blockquote/text') # 这个是说明描述
        # print(p_list)
        # print('*'*40)
        # print(p_shuomin)
    
    
    
    
    
    努力拼搏吧,不要害怕,不要去规划,不要迷茫。但你一定要在路上一直的走下去,尽管可能停滞不前,但也要走。
  • 相关阅读:
    luogu P2639 [USACO09OCT]Bessie的体重问题Bessie's We…
    1001. 害死人不偿命的(3n+1)猜想 (15)
    1003. 我要通过!(20)
    1002. 写出这个数 (20)
    《C语言程序设计(第四版)》阅读心得(一)
    1006. 换个格式输出整数 (15)
    背包问题之多重背包
    背包问题之完全背包
    背包问题之0-1背包
    动态规划例题
  • 原文地址:https://www.cnblogs.com/wkhzwmr/p/14977493.html
Copyright © 2011-2022 走看看