zoukankan      html  css  js  c++  java
  • python学习路线

    爬虫

    1.基础知识:网站基本原理,html,python,多进程/多线程/协程等(必学)

    2.HTML基础、网络请求模块:requests(必学),urllib(可以了解)

    3.需要了解一些常见的反爬策略以及对应的解决方案:常见的有IP频率限制,User-Agent、Referer、Origen验证,Cookie限制,动态加载及验证码等,

    对应的处理手段有IP代理池,伪造Header,Cookie保存与处理(基础进阶)

    4.网页分析提取:Beautifulsoup&Xpath(二选一),正则表达式(必学)

    5.动态执行JS,js加密以及Selenium,OCR识别或者打码平台(选学)

    6.数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

    7.网络抓包分析(选学)

    8.爬虫框架:Scrapy(选学),pyspider(选学)

    9.分布式爬虫(选学)

    数据分析与处理

    1.基础知识:python(函数、模块、面向对象),正则表达式,JSON(必学)

    2.上述爬虫相关:

    ·基础知识:网站基本原理,html,python,多进程/多线程/协程等(必学)

    ·HTML基础、网络请求模块:requests(必学),urllib(可以了解)

    ·需要了解一些常见的反爬策略以及对应的解决方案:常见的有IP频率限制,User-Agent、Referer、Origen验证,Cookie限制,动态加载及验证码等,

    对应的处理手段有IP代理池,伪造Header,Cookie保存与处理(基础进阶)

    ·网页分析提取:Beautifulsoup&Xpath(二选一),正则表达式(必学)

    ·动态执行JS,js加密以及Selenium,OCR识别或者打码平台(选学)

    ·数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

    3.数据分析相关库:Pandas,Numpy,Scipy,结巴分析等(必学)

    4.图表绘图与可视化:Matplotlip,词云(必学)

     大数据(数据挖掘、机器学习)

    1.基础知识:python(基础+进阶)(必学)

    2.金融学、统计学、计量经济学、投资学(必学)

    3.数据存储(文件读写、数据库、Excel/CSV模块等)(必学)

    4.数据分析相关库:Pandas,Numpy,Scipy,结巴分词(必学)

    5.图表绘图与可视化:Matplotlip等(必学)

    6.机器学习相关模型知识:朴素贝叶斯、决策树、Logistic回归、线性回归、KNN算法、SVM、

    Boosting、聚类、推荐系统、pLSA、LDA、GDBT、Regularization、异常检测、EM算法、Apriori、

    FP Growth等(必学)

    7.机器学习相关库:sklearn(必学)、keras、statsmodels、tensorflow(选学)

  • 相关阅读:
    BZOJ3752 : Hack
    XIV Open Cup named after E.V. Pankratiev. GP of SPb
    XIII Open Cup named after E.V. Pankratiev. GP of Ukraine
    BZOJ2087 : [Poi2010]Sheep
    BZOJ2080 : [Poi2010]Railway
    BZOJ2082 : [Poi2010]Divine divisor
    Moscow Pre-Finals Workshop 2016. National Taiwan U Selection
    XIII Open Cup named after E.V. Pankratiev. GP of Asia and South Caucasus
    XIII Open Cup named after E.V. Pankratiev. GP of Azov Sea
    XIII Open Cup named after E.V. Pankratiev. GP of SPb
  • 原文地址:https://www.cnblogs.com/hankleo/p/10295656.html
Copyright © 2011-2022 走看看