Processing a Trillion Cells per Mouse Click - 走看看

zoukankan html css js c++ java

Processing a Trillion Cells per Mouse Click

Google的论文，

Google已经有一些大数据系统，都是基于Full Scan

这里PowerDrill，核心利用了skipping技术，可以提升10到100倍的查询性能

这篇论文的题目让人有点摸不着头脑，这里给出了解释，

整体的思路，

就是先skip，然后再full scan

那么就是，他这里的skip技术，如何不同，

他设计了一种基于字典的索引结构，索引结构是基于每个column的

比如对于，search_string，有三个部分，

Global Dictionary，global-id和search string的对应关系；全局字典便于查找，真正的string只需要存一遍

Chunk Dictionary，global-id和chunk-id的对应关系；global-id可能会比较大，chunk-id局部比较小，和节省空间

Elements，每个element替换成对应的chunk-id

比如，对于下面的SQL，

我们发现，la redoute和voyages sncf对应的global id为，9，11

首先扫描所有的，chunk dictionary，发现9没有，11仅在chunk2中出现，

那么自然chunk 0，1就被skipping掉了

论文后续主要是实验和如何优化这个结构，有兴趣的看原文

查看全文

相关阅读:
Associative Embedding: Detection and Grouping loss
Stacked Hourglass Networks 以及 PyTorch 实现
 论文笔记Stacked Hourglass Networks
LiveQing私有云端直播点播流媒体服务-功能一张图
 监控实时直播的四分屏的前端展示
 LiveQing视频流媒体开放平台利用 webpack 打包压缩后端代码
 安防监控直播中无插件web直播方案中实现快照抓取的功能
 RTSP-Onvif摄像机web直播遇到的时间戳问题导致的卡顿解决方案
 H5实现视频监控网络直播时前端自动适配
 H5实现无插件视频监控按需直播

原文地址：https://www.cnblogs.com/fxjwind/p/12778688.html

Copyright © 2011-2022 走看看