项目 | 内容 |
---|---|
这个作业属于哪个课程 | 2020春季计算机学院软件工程(罗杰 任健) |
这个作业的要求在哪里 | 团队项目选择 |
我们在这个课程的目标是 | 学习敏捷开发之道 |
这个作业在哪个具体方面帮助我们实现目标 | 确定项目的NABCD |
项目介绍
- 项目名称:文本中实体和关系在线标注系统
- 项目简介:
- 实现一个互联网上面向特定领域的专业知识文本中知识的提取系统,对给定的专业书籍文本,对文本中的专有名词术语(实体)和不同术语指代对象之间关系进行标注,构建专业领域的知识图谱,同时也可以作为机器学习的训练数据来使用。
- 支持多用户协同标注,能够记录每个标注数据的来源并同步更新;支持对标注的文本对应的实体进行链接,通过图形化的界面对标注结果进行展现,并支持双向的定位。
NABCD
-
Need
对于学生来说,在阅读一些专业书籍时常常会遇到这样的问题:总是记不住一些术语的概念,在碰到这些术语时总要翻回前面的章节查看;或者嫌麻烦,直接掏出手机百度相关术语。这时候我们需要一张知识图谱来帮助我们理解这些概念,但对于初学者,构建知识图谱是不是显得有点困难?
在期末复习时,我们通常会这样做:复习一遍课本内容并手写一份思维导图来巩固记忆。但是手写思维导图也有很大的局限性:很难修改,为了设计出一份清晰美观的知识图谱往往会花费我们很大的精力。
老师在授课时也会遇到这样的问题:想在PPT上展示相关的知识结构,但相关的专业知识体系很大,在思维导图中一项一项画起来实在很麻烦。
总结起来:知识图谱太难做了!
所以,我们需要一款应用可以帮助我们轻松地生成知识图谱。
-
Approach
- 使用Python的Django框架实现应用的主体
- 使用JavaScript的Echart图表库完成标注结果的图形展示
- 在处理标注结果时可能用到实体链接、指代消歧技术。
-
Benefit
项目在功能上能为用户提供的便利:
- 支持直接在文本中点击查看术语的释义,提供流畅的阅读体验。
- 可以在文本中直接标记术语,并有图形化界面展示标注的结果。一键生成你的知识图谱,省心省力。
- 支持多用户协同标注,当面对大规模文本时,可以有效提高工作效率。
相较于手写知识图谱和office思维导图的优势:
-
只需要将文本导入应用,使用方便。
-
生成的知识图谱可以自行拖动,设计出你想要的模样。
-
Competitors
-
Chinese-Annotator(Git地址)
在该项目的介绍中,这个项目采用NLP实现一个主动学习的智能标注算法,能够实现文本的自动标注。这个项目在2017年就已经立项,现在仍然没有一个完整的结果。
-
IEPY(Git地址)
IEPY是也是一个主动学习的信息抽取和关系抽取工具。整个工程比较完整,有用户管理系统。前端略重,对用户不是非常友好。
-
BRAT(Git地址)
brat is a web-based tool for text annotation; that is, for adding notes to existing text documents.
brat特别设计用于结构化 的注释,其中注释不是自由格式的文本,而是具有可以由计算机自动处理和解释的固定格式。
目前已有的文本标注工具大多是基于NLP的主动学习工具,这些工具在功能上都更加偏向为机器学习服务的文本标注。我们也没有发现目的为建立知识图谱的文本标注工具,在这一点上,我们的项目有很大的优势。
-
-
Delivery
- 通过各大高校的官方公众号推荐,向学生展示一款全新的知识图谱构建应用。
- 在CSDN、CNblog等技术论坛宣传。
用户量估计
-
在哪里发布软件,估计发布后一周的用户量(精确到百)。
由于在线多用户操作的特性,我们打算制作成一个网站,线上发布。
由于目标用户主要是大学生,考虑到项目发布时间基本与考期吻合,考期中学生可能并没有太多精力取尝试新软件。所以首周用户量估计为200人,后续会不断上升。
电梯演讲
各位领导/投资人/合作伙伴: 我们的文本中实体和关系在线标注系统是为了解决学生和专业认识阅读专业书籍时的痛苦, 他们需要一款软件轻松地帮他们构建知识图谱, 但是现有的方案并没有很好地解决这些需求,我们有独特的文本图形化标注办法, 它能给用户带来流畅的阅读体验、简单快捷的知识图谱构建功能, 远远超过竞争对手IEPY等文本标注软件, 让潜在的用户成为我们的用户。 同时,我们可以通过高校平台将该产品直接推广给学生用户,能很快地让这些目标用户知道我们的产品,并进一步传播。