zoukankan      html  css  js  c++  java
  • C# 学习之路--百度网盘爬虫设计与实现(一)

    百度网盘爬虫

    现在市面上出现了很多网盘搜索引擎,写这系列博文及爬虫程序的初衷:

    • 更方面的查找资源

    • 学习C#

    • 学习爬虫的设计与实现

    • 记录学习历程

    • 自我监督

      能力有限,如有不妥之处,还请各位看官点评。同在学习的网友~与君共勉。

    工具/库选择
    • mysql5.6 (习惯使然,sqlserver比较庞大,个人使用起来不是很习惯,后期可能改为sqlserver)

    • HttpWebRequestHttpWebResponseJSON.NET

    • vs2015, .NET4.5

      PS:介绍以上是权当做个备忘录/提示。

    百度网盘搜索流程
    此爬虫原理是通过爬取用户的分享/专辑保存链接来达到资源搜索的目的,而用户与用户之间通过订阅/关注来联系,慢慢形成一个庞大的爬虫网络。
    
    1. 首先设定爬取用户(初始化爬虫队列)。

    2. 遍历用户分享/专辑,更改队列状态。

    3. 将用户订阅/关注用户加入队列。

    4. 重复以上步骤。

      PS:看似简单的流程,想要精工还需细磨。

    获取百度网盘推荐用户
    当没有订阅任何用户时,网盘的分享动态界面会出现一些用户噢。这是系统推荐的用户,虽然改动不一定会很大,但是可以作为爬虫的初始用户来处理(这种推荐用户听说关注的人都不少噢)
    

    接口返回信息:

    errorno: 状态码
    request_id:请求ID
    hotuser_list:用户列表
    
    

    用户列表结构:

    type:类型(通常返回-1,不明用途)
    hot_uname:用户昵称
    avatar_url:头像缩略图地址
    intro:描述
    follow_count:订阅人数
    fans_count:粉丝人数
    user_type:用户类型?(不明意义)
    is_vip:是否为VIP
    pubshare_count:分享数
    hot_uk:不知道啥玩意
    album_count:分享专辑数
    
    END
    暂时就写到这儿了,要去写代码了~ 写完再会
  • 相关阅读:
    扩展kmp
    计算几何板子
    组合数板子
    SecureML: A System for Scalable Privacy-Preserving Machine Learning 论文笔记
    mac任务管理器快捷键
    后缀数组
    poj 1144 Network【图的割点】模板
    CSU 1162【Balls in the Boxes】
    CSU 1111【三家人】数学题
    P1330 封锁阳光大学【二分染色】
  • 原文地址:https://www.cnblogs.com/By-ruoyu/p/6993424.html
Copyright © 2011-2022 走看看