zoukankan      html  css  js  c++  java
  • 初识爬虫(番外篇-python)

    最近因为一些特殊原因,了解了一下python,并且做了一个简易爬虫,目标是知乎。

    注*:博主并没有深入学习python,只是了解了一下基本用法,如变量类型、循环、判断,然后使用了一下python的工具,博主对这些工具也不太了解,博主的代码仅限于实现功能,如有关于python的问题,请不要问博主。博主的python版本是2.7。

    代码:

    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    import codecs
    import requests
    import csv
    import sys
    import json
    import time, datetime
    
    #更改str基础编码为utf-8 reload(sys) sys.setdefaultencoding(
    'utf-8') def getdata(cookie,page,search,search_hash_id): url = 'https://www.zhihu.com/api/v4/search_v3?t=general&q=' + str( search) + '&correction=1&offset=' + str( page) + '&limit=20&lc_idx=23&show_all_topics=0&search_hash_id=' + str( search_hash_id) + '&vertical_info=0%2C1%2C0%2C0%2C0%2C0%2C0%2C0%2C0%2C1' #原链接 # url = 'https://www.zhihu.com/api/v4/search_v3?t=general&q=996&correction=1&offset=60&limit=20&lc_idx=63&show_all_topics=0&search_hash_id=12310cc00bec8e490920f7b13a16fb58&vertical_info=0%2C1%2C0%2C0%2C0%2C0%2C0%2C0%2C0%2C1' headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36", "cookie": cookie, "Host": "www.zhihu.com", "Referer": "https://www.zhihu.com/", } res = requests.get(url, headers=headers) #json转字典 result = json.loads(res.text) #主要数据 data = result['data'] return data def savedata(cookie,page,search,filename,search_hash_id): index = 1 data = [] #循环拼接分页数据 while index <= page: data += getdata(cookie, index*20, search,search_hash_id) index = index + 1 with open(filename, 'wb') as f: f.write(codecs.BOM_UTF8) writer = csv.writer(f) #表头 fields = ('标题', '描述', '点赞', '评论', '创建时间') encoding = 'utf-8-sig' writer.writerow(fields) for key in data: #忽略错误 try: title = str(key['highlight']['title']) description = str(key['highlight']['description']) voteup = str(key['object']['voteup_count']) comment = str(key['object']['comment_count']) time_str = float(key['object']['created_time']) #时间戳转时间 timeArray = time.localtime(time_str) create_time = time.strftime("%Y-%m-%d %H:%M:%S", timeArray) # print('标题:'+title) # print('描述:'+description) # print('点赞:'+voteup) # print('评论:'+comment) # print('创建时间:'+create_time) row = [] row.append(title) row.append(description) row.append(voteup) row.append(comment) row.append(create_time+' ') writer.writerow(row) except: print("发生异常") if __name__ == '__main__': #cookie 重要参数 cookie与search_hash_id会发生改变,即时到知乎网页请求获取最新参数 cookie = '写入你的cookie' page = 10 #获取多少页数据 知乎默认一页20条数据 search = '996' #搜索内容 filename = '996.csv' #保存的文件名 保存到本文件同目录下 search_hash_id = 'bcdfc2c7b22a17917dd6d6aa6752b3a4' #知乎搜索id 重要参数 savedata(cookie,page,search,filename,search_hash_id)

    工具:

    PyCharm、Anaconda2

    具体安装方法:https://www.cnblogs.com/yuxuefeng/articles/9235431.html 这篇博客讲的很清楚,其中要注意python要用到很多工具,自己安装很费事,而Anaconda带有很多工具,不需要自己再安装,但是一定要将解释器选择为Anaconda中的python,不然是无法利用到Anaconda的。

    效果:

     注意:

    本博客的代码只能爬到这种数据:

     不能爬到这种数据:

     因为数据格式不同,也不能说不能爬到,采集是可以采集到的,但是导出的时候都被当做异常数据处理到了。这已经满足博主想要的效果了,如有需要可以自行修改。

    最后,如果你只是想要数据,并不想写代码,推荐:http://houyi.shenjian.io/?bd&utm=search 这个工具,博主简单用了一下,功能还行,而且是免费的。

  • 相关阅读:
    AngularJS指令的详解
    Linux(Ubuntu)下如何安装JDK
    Hibernate的三种状态
    JS是按值传递还是按引用传递
    git分支管理
    Hibernate注解映射联合主键的三种主要方式
    Linux下解决用户不能执行sudo的方法
    【GStreamer开发】GStreamer基础教程03——动态pipeline
    【GStreamer开发】GStreamer基础教程02——GStreamer概念
    【GStreamer开发】GStreamer基础教程02——GStreamer概念
  • 原文地址:https://www.cnblogs.com/yuanshen/p/12161441.html
Copyright © 2011-2022 走看看