什么是Trie树?
Trie树,又叫字典树、前缀树(Prefix Tree)、基数树(radix tree)、单词查找树 或 键树,是一种多叉树结构。它是一种搜索树,具有有序的树结构,用来存储数据集或关联阵列,其中键通常是字符串。与二叉树不同,它节点上并没有存key,但是它定义了与key相关联的位置。所有后序的节点都有相同的前缀字符串,而且树根对应着空串。
如上图的Trie树,每个节点的keys显示出来,下面还有与之对应的整形数字。这样每个完整的单词都会有一个不同的数字与之对应。一个Trie可以被看做是一个树形的确定性有限自动机(deterministic finite automaton)
Trie树的基本性质:
- 根节点不包含字符,除根节点外的每一个子节点都包含一个字符。
- 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串。
- 每个节点的所有子节点包含的字符互不相同。
通常在实现的时候,会在节点结构中设置一个标志,用来标记该结点处是否构成一个单词(关键字)。
Trie树的优缺点
Trie树的核心思想是空间换时间,利用字符串的公共前缀来减少无谓的字符串比较以达到提高查询效率的目的。
优点:
-
插入和查询的效率很高,都为O(m),其中 m 是待插入/查询的字符串的长度。
关于查询,会有人说 hash 表时间复杂度是O(1)不是更快?但是,哈希搜索的效率通常取决于 hash 函数的好坏,若一个坏的 hash 函数导致很多的冲突,效率并不一定比Trie树高。
-
Trie树中不同的关键字不会产生冲突。
-
Trie树只有在允许一个关键字关联多个值的情况下才有类似hash碰撞发生。
-
Trie树不用求 hash 值,对短字符串有更快的速度。通常,求hash值也是需要遍历字符串的。
-
Trie树可以对关键字按字典序排序。
缺点:
-
当 hash 函数很好时,Trie树的查找效率会低于哈希搜索。
-
空间消耗比较大。
时间复杂度分析:
对于insert, 如果被插入的String长度是 k, 每对一个字符进行查询,我们最多在child linkedlist里面查询26次(最多26个字母),所以,复杂度为O(26*k) = O(k). 对于 search, 复杂度是一样的。
三、Trie树的应用
1、字符串检索
检索/查询功能是Trie树最原始的功能。思路就是从根节点开始一个一个字符进行比较:
- 如果沿路比较,发现不同的字符,则表示该字符串在集合中不存在。
- 如果所有的字符全部比较完并且全部相同,还需判断最后一个节点的标志位(标记该节点是否代表一个关键字)。
struct trie_node
{
bool isKey; // 标记该节点是否代表一个关键字
trie_node *children[26]; // 各个子节点
};
2、词频统计
Trie树常被搜索引擎系统用于文本词频统计 。
struct trie_node
{
int count; // 记录该节点代表的单词的个数
trie_node *children[26]; // 各个子节点
};
思路:为了实现词频统计,我们修改了节点结构,用一个整型变量count
来计数。对每一个关键字执行插入操作,若已存在,计数加1,若不存在,插入后count
置1。
注意:第一、第二种应用也都可以用 hash table 来做。
3、字符串排序
Trie树可以对大量字符串按字典序进行排序,思路也很简单:遍历一次所有关键字,将它们全部插入trie树,树的每个结点的所有儿子很显然地按照字母表排序,然后先序遍历输出Trie树中所有关键字即可。
4、前缀匹配
例如:找出一个字符串集合中所有以ab
开头的字符串。我们只需要用所有字符串构造一个trie树,然后输出以a->b->
开头的路径上的关键字即可。
trie树前缀匹配常用于搜索提示。如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。
5、作为其他数据结构和算法的辅助结构
如后缀树,AC自动机等。
应用实例:http://www.cnblogs.com/yeqluofwupheng/p/6793195.html
参考:http://www.cnblogs.com/songlee/p/5738073.html
https://en.wikipedia.org/wiki/Trie