zoukankan      html  css  js  c++  java
  • 搜索引擎方案,仅脑构思

    多媒体作业,自己定义一个多媒体搜索引擎,并写出方案,留下来,做个纪念

    爬虫

    (1)   通过网络爬虫大量地下载网页(可以考虑使用诸如Apache Nutch等开源网络爬虫)

    (2)   通过正则表达式等方式对网页内容进行去噪,过滤垃圾内容,如根据常见的视频格式.avi .rmvb .flv等设计正则表达式,获取视频链接

    (3)   根据视频链接下载视频(可以通过多线程等加快下载速度)、

    镜头和关键帧的提取

    1.对网上下载的海量视频进行粗略分类,通过模板匹配和颜色直方图方法进行渐变镜头的分析,通过双重比较法(二阈值法进行)进行渐变镜头提取。

    2.选取镜头的中间帧作为关键帧

    关键镜头的提取分析

    从网上下载相关学科的知识点图谱。比如机器学习中的各种知识点-svm,高斯核函数等等作为关键场景提取的特征。

    (1)     文本上、字母上:视频本身标题有相关文本标注,可以作为初略确定,大部分网络公开课会有相关字母,对字幕区域进行文字识别。将字幕信息变为文本信息,文本信息中出现svm、高斯核函数类似知识点,该镜头极有可能为关键镜头

    (2)     语音上,提取公开课语音,进行降噪处理,利用现有的语音识工具,将语音信息转为文本信息,找是否有相关词汇。

    (3)     视频上,公开课程一般是课堂和截屏等形式,截屏和黑板板书时也会出现相关关键词,用图片识别的技术找到关键区域,然后进行图片文字识别

    搜索引擎索引

    词袋模型和倒排索引

     

    更新

    权重,大网站多去,小网站少去

    去重

    视频本省标注,其中文本进行去重

    检索模型、视频排序推荐

    (1)布尔模型,查询关键词求集合运算

    (2)排序推荐、权重推荐。比如搜svm

    1)在网络爬去过程中,如网易公开课中视频,可以获得视频的点击量,还有如豆瓣知乎推荐打分。学习人数多,豆瓣打分高,权重高。

    2)对视频片段进行分析,词汇出现次数多,说明讲解详细,得分高,

    3)对多媒体质量进行评估,质量高的得分高

    4)老师人气,相关领域大牛,如机器学习,李菲菲 吴恩达的得分高

            给各项得分按重要程度给不同权重

    个性化推荐

    推广

    盈利

  • 相关阅读:
    聚合查询2.0
    分词器2.0
    搜索和查询2.0
    Mapping2.0
    索引的CRUD2.0
    微信小程序:一则iOS下用video播放mp4文件问题排查
    flutter——android报错Manifest merger failed : Attribute application@allowBackup value=(false)
    HTML-meta
    HTML-实体
    html-vscode-liveServer
  • 原文地址:https://www.cnblogs.com/smartwhite/p/8343255.html
Copyright © 2011-2022 走看看