zoukankan      html  css  js  c++  java
  • 7.9一个略懂皮毛学爬虫爬我不是药神影评

    #!/usr/bin/env python
    #!--*--coding:utf-8 --*--
    #!@Time    :2018/7/8 19:50
    #!@Author   TrueNewBee
    #爬取我不是药神猫眼电影影评
    #2018-7-8 19:29:54
    #一个不是很成功的   大致意思是还是学的不通  因为思路就是和爬电影思路一样
    #但是  bs4  BeautifulSop库都没学明白!别觉得学个爬虫自以为是!小儿科东西!
    #好好学有用的基础
    
    import requests
    from bs4 import BeautifulSoup
    import json
    
    #1.获取页面
    #2.获取影评
    
    def  main():
        """获取页面源码"""
        url = "http://maoyan.com/films/1200486"
        headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
        'Host': 'maoyan.com'
        }
        request = requests.get(url,headers=headers).text
           #创建对象  解析网页
        r = BeautifulSoup(request,"html.parser")
        result = r.find_all("div",{'class':'comment-content'})
        """"把提取的数据写入文件"""
        with open("我不是药神部分影评价.txt", "a", encoding="utf-8") as f:
            print(type(json.dumps(result)))
            f.write(json.dumps(result, ensure_ascii=False) + '
    ')  # 使用json模块实现字典的序列化
    
    if __name__ == '__main__':
        main()
  • 相关阅读:
    io工具类
    并发高级知识
    HashMap相关源码阅读
    ArrayList和LinkedList部分源码分析性能差异
    我自己的JdbcTemplate
    mysql5.7.20靠谱安装步骤
    NG 转发配置
    SQLite总结
    算是不常用的东西,java中的ResultSet转List
    不常用的技能-【手动编译java类】
  • 原文地址:https://www.cnblogs.com/zhen1996/p/9281097.html
Copyright © 2011-2022 走看看