zoukankan      html  css  js  c++  java
  • 第二阶段:冲刺8(实现分词)

    老师说要按照头条的来,能够推用户喜欢的东西,得用到机器学习。都快期末了,着急复习呢,机器学习是不可能了。因为之前做个一个分词的项目,所以考虑通过把文本分词,然后提炼出经常出现的,来概括这个文章的意思。

    效果图如下:

    from jieba.analyse import *
    from lxml import etree
    from pymysql import connect
    import requests
    import jieba
    
        # 保存数据
    def getData():
        # 打开数据库连接(ip/数据库用户名/登录密码/数据库名)
        con = connect("localhost", "root", "root", "news")
        # 使用 cursor() 方法创建一个游标对象 cursor
        cursors = con.cursor()
        # 使用 execute()  方法执行 SQL 查询 返回的是你影响的行数
        row = cursors.execute("select * from newslist ")
        # 使用 fetchone() 方法获取数据.
        result = cursors.fetchall()
        keyWord = []
        for news in result:
            str = ''
            for keyword, weight in extract_tags(news[6].strip(), topK=5, withWeight=True):
                if(keyword.isdigit() != True):
                    str += keyword+" "
            keyWord.append(str)
        con.commit()
        # 关闭数据库连接(别忘了)
        print(keyWord)
        con.close()
        #
        #     guanjian += keyword+" "
    if __name__ == '__main__':
        getData()
    
  • 相关阅读:
    LeetCode Notes_#20 Valid Parentheses
    LeetCode Notes_#14 Longest Common Prefix
    牛客21天刷题_day#3
    牛客21天刷题_day#2
    牛客21天刷题_day#1
    WebGL编程指南
    《Redis 设计与实现》
    《女士品茶》
    《Java应用架构设计:模块化模式与OSGi》
    《编译与反编译技术实战》
  • 原文地址:https://www.cnblogs.com/yangxiao-/p/13045362.html
Copyright © 2011-2022 走看看