zoukankan      html  css  js  c++  java
  • Python爬虫帮你打包下载所有抖音好听的背景音乐,还不快收藏一起听歌【华为云技术分享】

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
    本文链接:https://blog.csdn.net/devcloud/article/details/99636859

    不知道什么时候开始,中国出现了南抖音、北快手的互文格局(东市买骏马,西市买鞍鞯…)。刚才提到了,之前比较喜欢刷抖音,对于我这种佛系程序猿,看网上这些整容妹子基本一个样。喜欢抖音主要是两个初衷,学做菜听音乐。朋友之前常说,人家抖音看妹子看的乐呵呵,你看人家做菜也能津津有味,一个人在那儿傻笑…民以食为天,我看到色香味俱全的菜,做的那么好吃的乐呵乐呵还不行么。

    抖音捧红了很多人,也让很多本不怎么让大家熟知的歌曲、BGM,经过翻唱、混剪与视频搭配,从而传播大街小巷。什么“若不是你,突然闯进我心里…”亦或者“也许未来遥远在光年之外,我愿守候未知里为你等待…”,成了大家闲时在嘴边哼唱的调调。那么,有没有想过将这些好听的剪辑批量下载下来呢?

    python链接抖音

    python下载抖音内容的帖子网上有一些,但都比较麻烦,需要通过adb连接安卓手机后,模拟操作。我这么懒,这种事儿玩不来…那么,该如何获取抖音内容呢?网上搜了下大概有两种方式,一个是浏览器插件快抖,另外一个是我今天要说的抖音网页版。其实这两者差别不是很大,都是先将抖音内容下载至服务器后,通过开发简单网站配置域名后,让大家访问。让我们来看看抖音网页版:

    哎哟吼,居然看到了昨天爬虫的“乔奶奶”…当然今天的重点不是视频,而是下载它全站所有的音乐!

    爬虫实现分析

    热歌榜内容

    大家先开看看这个抖音热歌榜歌曲,每页20首歌曲,一个55页。但细不细心大家都能发现,很多歌曲存在重复的问题。所以,等下爬虫的时候,我们需要先准备一个music_list,用来识别这首歌曲是否已经下载过了…

    网页解析

    网页比较简单,一个div中包裹了一个ul>li*20,我们是不是该这样获取:

    soup.find('div',{"class":"pull-left"}).find('ul').findAll('a')

    如果你说是,那么一定没有好好看我前天整理的文章通过哪吒豆瓣影评,带你分析python爬虫快速入门:https://www.jianshu.com/p/ae38f7607902,我在文章中专门提到了一个小技巧,通过使用attr的属性进行快速解析,那么最快速的获取方式是: soup.findAll('a', attrs={'onclick': True}) 我们只需要获取所有的a标签,切这些标签中包含onclick这个属性即可。

    巧用eval

    我们解析到的内容通过attr[‘onclick’],可以得到他的属性open1(‘夜’,’http://p9-dy.byteimg.com/obj/61a20007a98954b0831d‘,’’),如何能快速获取歌曲名字和url呢?这里我们需要用到一个eval的小技巧:

     1 index = "open1('夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d','')"
     2 index[5:]
     3 "('夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d','')"
     4 index_tuple = eval(index[5:])
     5 print(index_tuple, type(index_tuple))
     6 ('', 'http://p9-dy.byteimg.com/obj/61a20007a98954b0831d', '') <class 'tuple'>
     7 index_tuple[0]
     8 ''
     9 index_tuple[1]
    10 'http://p9-dy.byteimg.com/obj/61a20007a98954b0831d'

    ps:今天一个朋友说我写代码没注释,我这是现身说法的告诉你,如何能写出让别人压根看不懂的代码,就是不写注释啊,哈哈!
    其实,代码我都在文章中一点一点的讲解了,所以没有写,但秉承着害怕大佬们取关的心态,我还是把注释加上吧…

    代码实现

    总体来说实现比较简单,全部代码如下:

     1 # -*- coding: utf-8 -*-
     2 # @Author   : 王翔
     3 # @JianShu  : 清风Python
     4 # @Date     : 2019/7/31 23:25
     5 # @Software : PyCharm
     6 # @version  :Python 3.7.3
     7 # @File     : DouYinMusic.py
     8 
     9 import os
    10 import requests
    11 from bs4 import BeautifulSoup
    12 import threading
    13 import time
    14 
    15 
    16 class DouYinMusic:
    17     def __init__(self):
    18         self.music_list = []
    19         self.path = self.download_path()
    20 
    21     @staticmethod
    22     def download_path():
    23         """
    24         获取代码执行目录,并在目录下创建Music文件夹
    25         :return Music文件夹全路径
    26         """
    27         base_dir = os.path.dirname(os.path.abspath(__file__))
    28         _path = os.path.join(base_dir, "Music")
    29         if not os.path.exists(_path):
    30             os.mkdir(_path)
    31         return _path
    32 
    33     def get_request(self, url):
    34         """
    35         封装requests.get方法
    36         如果为网页请求,返回网页内容
    37         否则,解析音乐地址,并返回音乐二进制文件
    38         :param url: 请求url(分网页、音乐两类)
    39         :return: 网页内容 & 音乐二进制文件
    40         """
    41         r = requests.get(url, timeout=5)
    42         if url.endswith('html'):
    43             return r.text
    44         else:
    45             return r.content
    46 
    47     def analysis_html(self, html):
    48         """
    49         根据获取的网页内容,解析音乐名称、下载地址
    50         调用音乐下载方法
    51         :param html: 网页内容
    52         """
    53         soup = BeautifulSoup(html, 'lxml')
    54         # 根据关键字onclick查找每个下载地址
    55         for tag_a in soup.findAll('a', attrs={'onclick': True}):
    56             # 下载格式'("name","link","")',通过eval将str转化为tuple类型
    57             link_list = eval(tag_a['onclick'][5:])
    58             music_name, music_link = link_list[:2]
    59             # 因为存在部分重复音乐,故设置判断下载过的音乐跳过
    60             if music_name in self.music_list:
    61                 continue
    62             self.music_list.append(music_name)
    63             t = threading.Thread(target=self.download_music, args=(music_name, music_link))
    64             time.sleep(0.5)
    65             t.start()
    66 
    67     def download_music(self, music_name, music_link):
    68         """
    69         解析音乐文件,完成音乐下载
    70         :param music_name: 音乐名称
    71         :param music_link: 下载地址
    72         """
    73         _full_name = os.path.join(self.path, music_name)
    74         with open(_full_name + '.mp3', 'wb') as f:
    75             f.write(self.get_request(music_link))
    76         print("抖音音乐:{} 下载完成".format(music_name))
    77 
    78     def run(self):
    79         """
    80         主方法,用于批量生成url
    81         """
    82         for page in range(1,55):
    83             url = "http://douyin.bm8.com.cn/t_{}.html".format(page)
    84             html = self.get_request(url)
    85             self.analysis_html(html)
    86 
    87 
    88 if __name__ == '__main__':
    89     main = DouYinMusic()
    90     main.run()

    来让我们看看效果吧:

    网站是通过nginx负载均衡搭建的,有一些链接已经失效了。最终下载了不重复的592首抖音音乐。

    同样的,大家喜欢可以按照这种方法,尝试下载一下网站的抖音视频。

    The End

    OK,今天的内容就到这里,如果觉得内容对你有所帮助,欢迎点击文章右下角的“在看”。
    代码与下载好的音乐,如果大家喜欢,公众号回复抖音音乐即可获取百度云下载链接。
    期待你关注我的公众号清风Python,如果觉得不错,希望能动动手指转发给你身边的朋友们。

    作者:清风Python

    HDC.Cloud 华为开发者大会2020 即将于2020年2月11日-12日在深圳举办,是一线开发者学习实践鲲鹏通用计算、昇腾AI计算、数据库、区块链、云原生、5G等ICT开放能力的最佳舞台。

    欢迎报名参会

  • 相关阅读:
    C#实现京东登录密码加密POST
    查询SQL Server数据库所有表字段备注
    DataGridView数值列和日期列
    (转)Android 系统 root 破解原理分析
    Dynamics AX 中重点数据源方法
    .NET中Debug模式与Release模式
    DotNetBar的初步使用
    省市区联动小功能
    多余的Using Namespaces或引用会影响程序的执行效率么?
    MSIL指令集
  • 原文地址:https://www.cnblogs.com/huaweicloud/p/11868184.html
Copyright © 2011-2022 走看看