寒假一（爬虫） - 走看看

zoukankan html css js c++ java

寒假一（爬虫）

在爱网上自己学习爬虫，并进行了一个实践。网站取自于https://www.bilibili.com/video/av75562300?from=search&seid=11774811603250332545

针对于https://vmgirls.com网站，对其一个子网站进行了爬去

采用requests方法，从网站前台获取网站的布局以及信息

由于网站有自我保护，获取到的网站信息为：

由于header的缘故，我选择使用网站本身的header

其代码为：

为了防止爬取网站图片的时候网站奔溃掉，选择了使用time包

将时间调整为一秒钟爬取一次

调用re的findall方法利用正则表达式，将图片全部保存下来

最后成功将图片保存在一个文件夹下

自我抑郁又自我救赎

查看全文

相关阅读:
word2vec层次化softmax理解
 python动态加载模块，并获取模块中的类与方法(类似反射)
用Python装饰器给函数自动加上try except
3D打印第二弹：狗牌
 【高等代数】06
【高等代数】05
沙箱-guacamole
关于写博客的一点思考
 二阶段目标检测总结
 Waymo object detect 2D解决方案论文拓展

原文地址：https://www.cnblogs.com/zjm15511858030/p/12236392.html

Copyright © 2011-2022 走看看