zoukankan      html  css  js  c++  java
  • 简易全文搜索引擎设计

      最近利用空闲时间实现了一个简易的全文搜索引擎,主要是把学的东西练一下手,目前支持简单的单词搜索和基于用户点击实学习。其他部分还在继续开发(本文主要用以记录设计思路,完整代码等主要的做出来提交。)

    1. 基本流程

    2. 主要模块

    2.1  内容获取

      定时运行爬取程序

    2.2 分词

      调用结巴分词开源包(https://github.com/fxsjy/jieba)

    2.3 基本数据组织结构

      2.3.1 单词与URL存取 

        URL: id, url 
        Word: id, word
        urlConnetword: urlID, wordID
    

       2.3.2 DNN网络结构 

        Input_to_Hidden:  inputid, hiddenid
        Hidden_to_Output: hiddenid, outpudid
        举例:
        Input    ->      Hidden     -> output
    
        Word1
            -> Word1_to_word2_id -> URL(包含了Word1与Word2的URL)
        Word2 
    

    3. 个性推荐(后续补充)

  • 相关阅读:
    cmd常用命令大全
    网卡物理地址
    想看密码的请心平气和听我说
    作为一个程序员仪表
    960,950栅格化方法
    为什么要拿宽960做栅格化呢
    960栅格化优势
    虎牌 查询 自选号
    视频
    在线学习视频地址
  • 原文地址:https://www.cnblogs.com/space-place/p/7768283.html
Copyright © 2011-2022 走看看