zoukankan      html  css  js  c++  java
  • 爬虫大作业

    1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

    2.用python 编写爬虫程序,从网络上爬取相关主题的数据。

    3.对爬了的数据进行文本分析,生成词云。

    4.对文本分析结果进行解释说明。

    5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

    6.最后提交爬取的全部数据、爬虫及数据分析源代码

    from bs4 import BeautifulSoup as bs
    from urllib.request import urlopen
    from urllib.request import Request
    import urllib.request as ur
    from urllib import parse
    import requests
    import os
    import re
    import jieba
    
    
    
    def getHtml(url):
        header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"}
        html = requests.get(url,headers=header).content.decode('utf-8')
        return html
    
    def getUrls(pagehtml):
        soup = bs(pagehtml, 'html.parser')
        d = soup.select('.excerpt header h2 a')  # 网址
        urls=[]
        #将页面的文章的网址保存下来
        for j in d:
            a = j.get('href')
            urls.append(a)
        print(urls)
        return urls,
    
    def getDatailinfo(url):
        try:
            html = getHtml(url)
            soup = bs(html, "html.parser")
            # 遍历首页文本标签
            e = soup.select('.excerpt .abstract')  # 摘要
            f = soup.select('.auth-span')  # 评论等
            zhaiyao = []
            for i in e:#首页文章摘要
                text = i.get_text().strip()
                if text not in zhaiyao:
                    zhaiyao.append(text)
                print(text)
                #将文章下方的作者,点击量,喜欢量等数据保存下来
            for i in f:
                c = i.get_text().strip()
                a = c.split()
                for j in zhaiyao:
                    print(j)
                    f = open('D:\python\a.txt','a',encoding='utf-8')
                    f.write(j)
                    f.close()
        except:
            pass
    
    if __name__=="__main__":
        firsturl = "https://www.iteblog.com/archives/category/spark/"
        num = 1
        pageurls = []
        for p in range(24):
            pageurl = firsturl + 'page/' + str(num) + '/'
            num += 1
            pageurls.append(pageurl)
            print(pageurls)
        for furl in pageurls:
            getDatailinfo(furl)
        for purl in pageurls:
            print('----------------------------------')
            pagehtml = getHtml(purl)
            urls = getUrls(pagehtml)
            for urls in purl:
                getAllinfo(urls)
    

      

    生成词云

    info = open('D:\python\a.txt','r',encoding='utf-8').read().split()
        text = ''
        text += ' '.join(jieba.lcut(info))
        wc = WordCloud(font_path='C:WindowsFontsSTZHONGS.TTF',background_color='White',max_words=50)
        wc.generate_from_text(text)
        plt.imshow(wc)
        plt.imshow(wc.recolor(color_func=image_color))
        plt.axis("off")
        plt.show()
        wc.to_file('dream.png')
    

      

  • 相关阅读:
    ASP.NET Core 介绍和项目解读
    C#性能优化总结
    C# 线程知识--使用Task执行异步操作
    异步编程 In .NET(转载)
    .NET实现WebSocket服务端即时通信实例
    .net core 学习笔记一 Program与Startup
    .net core 自定义中间件
    c# 通过json.net中的JsonConverter进行自定义序列化与反序列化
    c# 通过HttpListener创建HTTP服务
    c# 反射实现模型深拷贝
  • 原文地址:https://www.cnblogs.com/guoyaowen/p/8919222.html
Copyright © 2011-2022 走看看