zoukankan      html  css  js  c++  java
  • 第一次写python爬虫

    花了4天终于把写完了把国内的几个漏洞平台爬完了,第一次写py,之前一直都在说学习,然后这周任务是把国内的漏洞信息爬取一下。花了1天学PY,剩下的1天一个。期间学习到了很多。总结如下:

    ====================================================================

    =====================================================================================================

    期间用了几个不错的类库:

    urllib2 re chardet sys bs4 BeautifulSoup requests json 

    比如获取某个标签beautifulsoup,find/findAll/find_all

    获取标签的内容XXX.contents[i]

    还有AJAX的爬虫:requests.post()期间用了这个方法和别的来爬的时候需要POST,但是一直是GET,纠结了一个晚上,最后问了腾讯某小伙伴解决了问题

    只要是data=xxx 都会使用urlencode编码,所以一直是GET

    返回的是JSON,如果用字符串处理的话相当麻烦,问了长亭的朋友,推荐用了Json的类库(爬AJAX的时候最好设置个头)

    result=requests.post(url,json=payload,headers=headers)
    #print result.text
    content=json.loads(result.text)
    text=content['result']

    =========================
    apps=json.dumps(j)
    app_json=json.loads(apps)
    time=app_json['date']

    用起来会方便了很多很多,如果需要搞PY爬虫的时候可以尝试下。因为也是刚学,代码只是实现了功能,代码的架构,没有加线程,速度也不是很好,后期可能会去优化。

    如果你遇到什么问题,欢迎一起学习,可以发到我的邮箱:sevck#jdsec.com :)

    ###############

    最后说一下,建议别在WINDOWS下写PY,建议LINUX

  • 相关阅读:
    修改大表结构注意事项
    短信猫 Mysql ODBC问题
    各互联网公司UDE分享
    MySQL 取分类后的前n条
    批处理当前日期
    Fixed Event Scheduler No data zero rows fetched, selected, or processed
    数据库设计注意事项
    本月,下一月, 上一月 的 1号, 最后一号
    自动化测试编程语言的选择
    QTP描述编程中使用正则表达式
  • 原文地址:https://www.cnblogs.com/sevck/p/5134250.html
Copyright © 2011-2022 走看看