zoukankan      html  css  js  c++  java
  • 爬取视频解析网站的解析接口

     我的网站:www.liunian.online (流年在线vip视频解析)

    空间到期没钱续费已关闭  (。•́︿•̀。),等有钱吃饭了再买。当初建这个网站就是为了熟悉一下建站过程,用的解析接口都是从别人的网站拿的,源码也是从网上下载的233333333

    正文:

    想动手写一个爬取接口的爬虫,练练手。

    不写不知道,一写吓一跳,动手能力确实差,以后还是要多写多练!

    附上代码:

     1 import requests
     2 from bs4 import BeautifulSoup
     3 
     4 def get_htmltext(url):
     5     try:
     6         kv = {'user-agent':'mozilla/5.0'}
     7         r = requests.get(url,headers=kv,timeout=30)
     8         r.raise_for_status()
     9         r.encoding = r.apparent_encoding
    10         return r.text
    11     except:
    12         return ''
    13 
    14 def get_api(html,ulist):
    15     soup = BeautifulSoup(html,'html.parser')
    16     op = soup.find_all('option')
    17     for tag in op:
    18         ulist.append(tag.attrs['value'])
    19 
    20 def save_api(ulist,path):
    21     with open(path,'a') as f:
    22         f.write('
    '+'---------(此次爬取接口如下)------------------------')
    23         for api in ulist:
    24             f.write('
    '+ api + '
    ')
    25         f.close()
    26 
    27 def main():
    28     info = []
    29     save_path = 'D://videoapi.txt'
    30     url = 'http://' + input("输入要爬取的视频解析网站的网址:")
    31     html = get_htmltext(url)
    32     get_api(html,info)
    33     save_api(info,save_path)
    34 
    35 main()

    目瞪狗呆:原来会自动创建video.txt文件,原来。。。

    代码还有很多可以优化的地方,先这样吧,我要去上课啦  ε=ε=ε=┌( ´°ェ°)┘

    谨记:不积跬步无以至千里
  • 相关阅读:
    104. 二叉树的最大深度
    Shopping HDU
    Fibonacci again and again HDU
    Brave Game HDU
    Being a Good Boy in Spring Festival HDU
    88. 合并两个有序数组
    26. 删除排序数组中的重复项
    快速幂
    Rectangles(2018-2019 ACM-ICPC Pacific Northwest Regional Contest (Div. 1))扫描线+线段树
    Liars(2018-2019 ACM-ICPC Pacific Northwest Regional Contest (Div. 1))差分法
  • 原文地址:https://www.cnblogs.com/zhiyuanxiong/p/9083433.html
Copyright © 2011-2022 走看看