对你没有看错！不到 10 行代码完成抖音热门视频的爬取！【华为云技术分享】

zoukankan html css js c++ java

对你没有看错！不到 10 行代码完成抖音热门视频的爬取！【华为云技术分享】
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/devcloud/article/details/91447422

【摘要】最近研究了一下抖音的爬虫，目前实现了热门话题和热门音乐下面所有相关视频的爬取，并且我已经将该爬虫打包成了一个 Python 库并发布，名称就叫做 douyin，利用该库可以使用不到 10 行代码完成热门视频的下载、相关音乐的下载以及结构化信息的存储。本文就来详细介绍一下这个库的用法和一些核心逻辑实现。

PS：华为云618大促火热进行中，全场1折起，免费抽主机，消费满额送P30 Pro，点此抢购。

“阅读本文大概10分钟”

最近研究了一下抖音的爬虫，目前实现了热门话题和热门音乐下面所有相关视频的爬取，并且我已经将该爬虫打包成了一个 Python 库并发布，名称就叫做 douyin，利用该库可以使用不到 10 行代码完成热门视频的下载、相关音乐的下载以及结构化信息的存储。

本文就来详细介绍一下这个库的用法和一些核心逻辑实现。

实例演示

在开始介绍之前，我们就先看看这个库能达到怎样的爬取效果吧，这里我们想要爬取的部分是这这样的：

这里是抖音搜索界面热门话题和热门音乐部分，每一个话题或音乐都有着非常高的热度，而且每个热门话题或音乐下面都是相关的抖音视频。

下面我们要做的就是把所有热门话题和音乐下的相关视频都爬取到，并且将爬到的视频下载下来，同时还要把视频所配的音乐也单独下载下来，不仅如此，所有视频的相关信息如发布人、点赞数、评论数、发布时间、发布人、发布地点等等信息都需要爬取下来，并存储到 MongoDB 数据库。

听起来似乎挺繁琐的是吧？其实有了 douyin 这个库，我们不到 10 行代码就可以完成上面的任务了！其 GitHub 地址是：https://github.com/Python3WebSpider/DouYin。

首先第一步我们需要安装一下 douyin 库，命令如下：
pip3 install douyin
使用示例如下：
1 import douyin 2 from douyin.structures import Topic, Music 3 4 # 定义视频下载、音频下载、MongoDB 存储的处理器 5 video_file_handler = douyin.handlers.VideoFileHandler(folder='./videos') 6 music_file_handler = douyin.handlers.MusicFileHandler(folder='./musics') 7 mongo_handler = douyin.handlers.MongoHandler() 8 # 定义下载器，并将三个处理器当做参数传递 9 downloader = douyin.downloaders.VideoDownloader([mongo_handler, video_file_handler, music_file_handler]) 10 # 循环爬取抖音热榜信息并下载存储 11 for result in douyin.hot.trend(): 12 for item in result.data: 13 # 爬取热门话题和热门音乐下面的所有视频，每个话题或音乐最多爬取 100 个相关视频。 14 downloader.download(item.videos(max=100))
好，这样就完成了，运行这段代码，即可以完成热门话题、热门音乐下面所有视频和音乐的爬取，并将相关信息存储到 MongoDB 数据库。

另外值得注意的是，在运行这段代码之前首先需要安装好 MongoDB 数据库并成功开启服务，这样才能确保代码可以正常连接数据库并把数据成功存储。

我们看下运行效果：

运行截图如下：

在这里我们可以看到视频被成功存储到了 MongoDB 数据库，并且执行了下载，将视频存储到了本地（音频的的存储没有显示）。

最后我们看下爬取结果是怎样的，下面是爬取到的音频、视频和视频相关信息：

可以看到视频配的音乐被存储成了 mp3 格式的文件，抖音视频存储成了 mp4 文件，另外视频相关信息如视频描述、作者、音乐、点赞数、评论数等等的信息都已经存储到了 MongoDB 数据库，另外里面还包括了爬取时间、视频链接、分辨率等等额外的信息。

对！就是这么简单，通过这几行代码，我们就得到了如上的三部分结果，而这只需要安装 douyin 这个库即可实现。

代码解读

下面我们来剖析一下这个库的关键技术部分的实现，代码的地址是在：https://github.com/Python3WebSpider/DouYin，在此之前大家可以先将代码下载下来大体浏览一下。

本库依赖的其他库有：

aiohttp：利用它可以完成异步数据下载，加快下载速度。

dateparser：利用它可以完成任意格式日期的转化。

motor：利用它可以完成异步 MongoDB 存储，加快存储速度。

requests：利用它可以完成最基本的 HTTP 请求模拟。

tqdm：利用它可以进行进度条的展示。

下面我就几个部分的关键实现对库的实现进行代码说明。

数据结构定义

如果要做一个库的话，一个很重要的点就是对一些关键的信息进行结构化的定义，使用面向对象的思维对某些对象进行封装，抖音的爬取也不例外。

在抖音中，其实有很多种对象，比如视频、音乐、话题、用户、评论等等，它们之间通过某种关系联系在一起，例如视频中使用了某个配乐，那么视频和音乐就存在使用关系；比如用户发布了视频，那么用户和视频就存在发布关系，我们可以使用面向对象的思维对每个对象进行封装，比如视频的话，就可以定义成如下结构：
1 class Video(Base): 2 def __init__(self, **kwargs): 3 """ 4 init video object 5 :param kwargs: 6 """ 7 super().__init__() 8 self.id = kwargs.get('id') 9 self.desc = kwargs.get('desc') 10 self.author = kwargs.get('author') 11 self.music = kwargs.get('music') 12 self.like_count = kwargs.get('like_count') 13 self.comment_count = kwargs.get('comment_count') 14 self.share_count = kwargs.get('share_count') 15 self.hot_count = kwargs.get('hot_count') 16 ... 17 self.address = kwargs.get('address') 18 19 def __repr__(self): 20 """ 21 video to str 22 :return: str 23 """ 24 return '<Video: <%s, %s>>' % (self.id, self.desc[:10].strip() if self.desc else None)
这里将一些关键的属性定义成 Video 类的一部分，包括 id 索引、desc 描述、author 发布人、music 配乐等等，其中 author 和 music 并不是简单的字符串的形式，它也是单独定义的数据结构，比如 author 就是 User 类型的对象，而 User 的定义又是如下结构：
1 class User(Base): 2 3 def __init__(self, **kwargs): 4 """ 5 init user object 6 :param kwargs: 7 """ 8 super().__init__() 9 self.id = kwargs.get('id') 10 self.gender = kwargs.get('gender') 11 self.name = kwargs.get('name') 12 self.create_time = kwargs.get('create_time') 13 self.birthday = kwargs.get('birthday') 14 ... 15 16 def __repr__(self): 17 """ 18 user to str 19 :return: 20 """ 21 return '<User: <%s, %s>>' % (self.alias, self.name) 22 所以说，通过属性之间的关联，我们就可以将不同的对象关联起来，这样显得逻辑架构清晰，而且我们也不用一个个单独维护字典来存储了，其实这就和 Scrapy 里面的 Item 的定义是类似的。 23 请求和重试 24 实现爬取的过程就不必多说了，这里面其实用到的就是最简单的抓包技巧，使用 Charles 直接进行抓包即可。抓包之后便可以观察到对应的接口请求，然后进行模拟即可。 25 所以问题就来了，难道我要一个接口写一个请求方法吗？另外还要配置 Headers、超时时间等等的内容，那岂不是太费劲了，所以，我们可以将请求的方法进行单独的封装，这里我定义了一个 fetch 方法： 26 def _fetch(url, **kwargs): 27 """ 28 fetch api response 29 :param url: fetch url 30 :param kwargs: other requests params 31 :return: json of response 32 """ 33 response = requests.get(url, **kwargs) 34 if response.status_code != 200: 35 raise requests.ConnectireplaceString('Expected status code 200, but got {}'.format(response.status_code)) 36 return response.json()这个方法留了一个必要参数，即 url，另外其他的配置我留成了 kwargs，也就是可以任意传递，传递之后，它会依次传递给 requests 的请求方法，然后这里还做了异常处理，如果成功请求，即可返回正常的请求结果。
定义了这个方法，在其他的调用方法里面我们只需要单独调用这个 fetch 方法即可，而不需要再去关心异常处理，返回类型了。

好，那么定义好了请求之后，如果出现了请求失败怎么办呢？按照常规的方法，我们可能就会在外面套一层方法，然后记录调用 fetch 方法请求失败的次数，然后重新调用 fetch 方法进行重试，但这里可以告诉大家一个更好用的库，叫做 retrying，使用它我们可以通过定义一个装饰器来完成重试的操作。

比如我可以使用 retry 装饰器这么装饰 fetch 方法：
1 from retrying import retry 2 @retry(stop_max_attempt_number=retry_max_number, wait_random_min=retry_min_random_wait, 3 wait_random_max=retry_max_random_wait, retry_on_exception=need_retry) 4 def _fetch(url, **kwargs): 5 pass 6 这里使用了装饰器的四个参数： 7 stop_max_attempt_number：最大重试次数，如果重试次数达到该次数则放弃重试。 8 wait_random_min：下次重试之前随机等待时间的最小值。 9 wait_random_max：下次重试之前随机等待时间的最大值。 10 retry_on_exception：判断出现了怎样的异常才重试。 11 这里 retry_on_exception 参数指定了一个方法，叫做 need_retry，方法定义如下： 12 def need_retry(exception): 13 """ 14 need to retry 15 :param exception: 16 :return: 17 """ 18 result = isinstance(exception, (requests.ConnectireplaceString, requests.ReadTimeout)) 19 if result: 20 print('Exception', type(exception), 'occurred, retrying...') 21 return result
这里判断了如果是 requests 的 ConnectireplaceString 和 ReadTimeout 异常的话，就会抛出异常进行重试，否则不予重试。

所以，这样我们就实现了请求的封装和自动重试，是不是非常 Pythonic？

下载处理器的设计

为了下载视频，我们需要设计一个下载处理器来下载已经爬取到的视频链接，所以下载处理器的输入就是一批批的视频链接，下载器接收到这些链接，会将其进行下载处理，并将视频存储到对应的位置，另外也可以完成一些信息存储操作。

在设计时，下载处理器的要求有两个，一个是保证高速的下载，另一个就是可扩展性要强，下面我们分别来针对这两个特点进行设计：

高速下载，为了实现高速的下载，要么可以使用多线程或多进程，要么可以用异步下载，很明显，后者是更有优势的。

扩展性强，下载处理器要能下载音频、视频，另外还可以支持数据库等存储，所以为了解耦合，我们可以将视频下载、音频下载、数据库存储的功能独立出来，下载处理器只负责视频链接的主要逻辑处理和分配即可。

为了实现高速下载，这里我们可以使用 aiohttp 库来完成，另外异步下载我们也不能一下子下载太多，不然网络波动太大，所以我们可以设置 batch 式下载，可以避免同时大量的请求和网络拥塞，主要的下载函数如下：
1 def download(self, inputs): 2 """ 3 download video or video lists 4 :param data: 5 :return: 6 """ 7 if isinstance(inputs, types.GeneratorType): 8 temps = [] 9 for result in inputs: 10 print('Processing', result, '...') 11 temps.append(result) 12 if len(temps) == self.batch: 13 self.process_items(temps) 14 temps = [] 15 else: 16 inputs = inputs if isinstance(inputs, list) else [inputs] 17 self.process_items(inputs) 18 这个 download 方法设计了多种数据接收类型，可以接收一个生成器，也可以接收单个或列表形式的视频对象数据，接着调用了 process_items 方法进行了异步下载，其方法实现如下： 19 def process_items(self, objs): 20 """ 21 process items 22 :param objs: objs 23 :return: 24 """ 25 # define progress bar 26 with tqdm(total=len(objs)) as self.bar: 27 # init event loop 28 loop = asyncio.get_event_loop() 29 # get num of batches 30 total_step = int(math.ceil(len(objs) / self.batch)) 31 # for every batch 32 for step in range(total_step): 33 start, end = step * self.batch, (step + 1) * self.batch 34 print('Processing %d-%d of files' % (start + 1, end)) 35 # get batch of objs 36 objs_batch = objs[start: end] 37 # define tasks and run loop 38 tasks = [asyncio.ensure_future(self.process_item(obj)) for obj in objs_batch] 39 for task in tasks: 40 task.add_done_callback(self.update_progress) 41 loop.run_until_complete(asyncio.wait(tasks)) 42 这里使用了 asyncio 实现了异步处理，并通过对视频链接进行分批处理保证了流量的稳定性，另外还使用了 tqdm 实现了进度条的显示。 43 我们可以看到，真正的处理下载的方法是 process_item，这里面会调用视频下载、音频下载、数据库存储的一些组件来完成处理，由于我们使用了 asyncio 进行了异步处理，所以 process_item 也需要是一个支持异步处理的方法，定义如下： 44 async def process_item(self, obj): 45 """ 46 process item 47 :param obj: single obj 48 :return: 49 """ 50 if isinstance(obj, Video): 51 print('Processing', obj, '...') 52 for handler in self.handlers: 53 if isinstance(handler, Handler): 54 await handler.process(obj)
这里我们可以看到，真正的处理逻辑都在一个个 handler 里面，我们将每个单独的功能进行了抽离，定义成了一个个 Handler，这样可以实现良好的解耦合，如果我们要增加和关闭某些功能，只需要配置不同的 Handler 即可，而不需要去改动代码，这也是设计模式的一个解耦思想，类似工厂模式。

Handler 的设计

刚才我们讲了，Handler 就负责一个个具体功能的实现，比如视频下载、音频下载、数据存储等等，所以我们可以将它们定义成不同的 Handler，而视频下载、音频下载又都是文件下载，所以又可以利用继承的思想设计一个文件下载的 Handler，定义如下：
1 from os.path import join, exists 2 from os import makedirs 3 from douyin.handlers import Handler 4 from douyin.utils.type import mime_to_ext 5 import aiohttp 6 7 8 class FileHandler(Handler): 9 10 def __init__(self, folder): 11 """ 12 init save folder 13 :param folder: 14 """ 15 super().__init__() 16 self.folder = folder 17 if not exists(self.folder): 18 makedirs(self.folder) 19 20 async def _process(self, obj, **kwargs): 21 """ 22 download to file 23 :param url: resource url 24 :param name: save name 25 :param kwargs: 26 :return: 27 """ 28 print('Downloading', obj, '...') 29 kwargs.update({'ssl': False}) 30 kwargs.update({'timeout': 10}) 31 async with aiohttp.ClientSession() as session: 32 async with session.get(obj.play_url, **kwargs) as response: 33 if response.status == 200: 34 extension = mime_to_ext(response.headers.get('Content-Type')) 35 full_path = join(self.folder, '%s.%s' % (obj.id, extension)) 36 with open(full_path, 'wb') as f: 37 f.write(await response.content.read()) 38 print('Downloaded file to', full_path) 39 else: 40 print('Cannot download %s, response status %s' % (obj.id, response.status)) 41 42 async def process(self, obj, **kwargs): 43 """ 44 process obj 45 :param obj: 46 :param kwargs: 47 :return: 48 """ 49 return await self._process(obj, **kwargs)
这里我们还是使用了 aiohttp，因为在下载处理器中需要 Handler 支持异步操作，这里下载的时候就是直接请求了文件链接，然后判断了文件的类型，并完成了文件保存。

视频下载的 Handler 只需要继承当前的 FileHandler 即可：
1 from douyin.handlers import FileHandler 2 from douyin.structures import Video 3 4 class VideoFileHandler(FileHandler): 5 6 async def process(self, obj, **kwargs): 7 """ 8 process video obj 9 :param obj: 10 :param kwargs: 11 :return: 12 """ 13 if isinstance(obj, Video): 14 return await self._process(obj, **kwargs)
这里其实就是加了类别判断，确保数据类型的一致性，当然音频下载也是一样的。

异步 MongoDB 存储

上面介绍了视频和音频处理的 Handler，另外还有一个存储的 Handler 没有介绍，那就是 MongoDB 存储，平常我们可能习惯使用 PyMongo 来完成存储，但这里我们为了加速，需要支持异步操作，所以这里有一个可以实现异步 MongoDB 存储的库，叫做 Motor，其实使用的方法差不太多，MongoDB 的连接对象不再是 PyMongo 的 MongoClient 了，而是 Motor 的 AsyncIOMotorClient，其他的配置基本类似。

在存储时使用的是 update_one 方法并开启了 upsert 参数，这样可以做到存在即更新，不存在即插入的功能，保证数据的不重复性。

整个 MongoDB 存储的 Handler 定义如下：
1 from douyin.handlers import Handler 2 from motor.motor_asyncio import AsyncIOMotorClient 3 from douyin.structures import * 4 5 6 class MongoHandler(Handler): 7 8 def __init__(self, conn_uri=None, db='douyin'): 9 """ 10 init save folder 11 :param folder: 12 """ 13 super().__init__() 14 if not conn_uri: 15 conn_uri = 'localhost' 16 self.client = AsyncIOMotorClient(conn_uri) 17 self.db = self.client[db] 18 19 async def process(self, obj, **kwargs): 20 """ 21 download to file 22 :param url: resource url 23 :param name: save name 24 :param kwargs: 25 :return: 26 """ 27 collection_name = 'default' 28 if isinstance(obj, Video): 29 collection_name = 'videos' 30 elif isinstance(obj, Music): 31 collection_name = 'musics' 32 collection = self.db[collection_name] 33 # save to mongodb 34 print('Saving', obj, 'to mongodb...') 35 if await collection.update_one({'id': obj.id}, {'$set': obj.json()}, upsert=True): 36 print('Saved', obj, 'to mongodb successfully') 37 else: 38 print('Error occurred while saving', obj)
可以看到我们在类中定义了 AsyncIOMotorClient 对象，并暴露了 conn_uri 连接字符串和 db 数据库名称，可以在声明 MongoHandler 类的时候指定 MongoDB 的链接地址和数据库名。

同样的 process 方法，这里使用 await 修饰了 update_one 方法，完成了异步 MongoDB 存储。

好，以上便是 douyin 库的所有的关键部分介绍，这部分内容可以帮助大家理解这个库的核心部分实现，另外可能对设计模式、面向对象思维以及一些实用库的使用有一定的帮助。

总结

本文介绍了一个可以用来爬取抖音热门视频的 Python 库，并介绍了该库的基本用法和核心部分实现，希望对大家有所帮助。

本抖音库的 GitHub 地址是：https://github.com/Python3WebSpider/DouYin，如果你对你有帮助，还请赐予一个 Star！非常感谢！

最后，私货时间：

华为云618大促火热进行中，全场1折起，免费抽主机，消费满额送P30 Pro，点此抢购。

来源：华为云社区作者：崔庆才丨静觅

HDC.Cloud 华为开发者大会2020 即将于2020年2月11日-12日在深圳举办，是一线开发者学习实践鲲鹏通用计算、昇腾AI计算、数据库、区块链、云原生、5G等ICT开放能力的最佳舞台。

欢迎报名参会
查看全文

相关阅读:
hibernate笔记--实体类映射文件"*.hbm.xml"详解
 struts2学习笔记--使用struts2插件实现ajax处理(返回json数据)
struts2学习笔记--使用servletAPI实现ajax的一个小Demo
Struts2学习笔记--使用Response下载文件和Struts2的StreamResult文件下载
 struts2学习笔记--上传单个和批量文件示例
 struts2学习笔记--拦截器(Interceptor)和登录权限验证Demo
struts2学习笔记--使用Validator校验数据
 struts2学习笔记--OGNL表达式1
easyui dialog 扩展load
easyui filter 过滤时间段

原文地址：https://www.cnblogs.com/huaweicloud/p/11855294.html

对你没有看错！不到 10 行代码完成抖音热门视频的爬取！【华为云技术分享】

实例演示

代码解读

数据结构定义

下载处理器的设计

Handler 的设计

异步 MongoDB 存储

总结