zoukankan      html  css  js  c++  java
  • 课堂测试 新闻分词统计2

    1.

    #各类文章数统计
    
    def class_text_num():
    
        sql="SELECT count(channelName) as num,channelName FROM new_class.newdata group by channelName;"
    
        res=query_mysql(sql)
    
        return res
     
    
    Echarts
    
    //获取格式设置
    
    var chartDom = document.getElementById('bar');
    
    var myChart = echarts.init(chartDom);
    
    var option;
    
    
    
    option = {
    
        tooltip: {
    
        trigger: 'axis',
    
            axisPointer: {
    
                type: 'shadow'
    
            }
    
        },
    
        grid: {
    
            left: '3%',
    
            right: '4%',
    
            bottom: '3%',
    
            containLabel: true
    
        },
    
        xAxis: [
    
        {
    
            type: 'category',
    
            data: ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun'],
    
            axisTick: {
    
                alignWithLabel: true
    
            }
    
        }
    
        ],
    
        yAxis: [
    
            {
    
                type: 'value'
    
            }
    
        ],
    
        series: [
    
            {
    
                name: 'Direct',
    
                type: 'bar',
    
                barWidth: '60%',
    
                data: [10, 52, 200, 334, 390, 330, 220]
    
            }
    
        ]
    
    };
    
    
    
    myChart.setOption(option);
    
    window.onresize = myChart.resize;
    
    $.ajax({
    
         type: "GET",
    
         url: "/bar",
    
         dataType: "json",
    
         success: function(data){
    
             option.xAxis[0].data=data.name
    
             option.series[0].data=data.values
    
             myChart .setOption(option)
    
         }
    
    });
     

    三。四

    全部文章统计与各类文章统计原理一样。

    使用jieba进行进行词频统计
    先将文章都提取出来转换为txt格式

    
    
    体育 a
    综合体育最新 b
    军事c
    娱乐d
    体育焦点e
    房产f
    教育g
    汽车h
    游戏i
    科技j
    财经k

    然后读取文件进行分词统计

    article = open('data/'+str+'.txt', 'r',encoding='utf-8').read()
    dele = {'','','','','“','”','','',' ','','','','你们','自己','我们','他们'}
    words = list(jieba.cut(article))
    articleDict = {}
    articleSet = set(words)-dele
    for w in articleSet:
        if len(w)>1:
            articleDict[w] = words.count(w)

    articlelist = sorted(articleDict.items(),key = lambda x:x[1], reverse = True)
    return articlelist

    将结果存入数据库

     

    从数据库查询到前端展示

    通过下拉框选择全部或各个分类的词频统计情况

     

  • 相关阅读:
    Sokect简单入门(1)TCP协议一
    Tomcat内存溢出 解决方法
    服务器配置 ssl 证书,Nginx配置
    优秀的博客文章记录
    SpringBoot实现优雅的关机
    关于 redis 的 数据类型 和 内存模型
    微信, qq 支付宝 等相关开发 资源 记录
    设计模式 之 单列设计模式
    Swagger
    MQ服务器奔溃解决过程
  • 原文地址:https://www.cnblogs.com/fengchuiguobanxia/p/15605463.html
Copyright © 2011-2022 走看看