Compressed indexing is a powerful technique that enables efficient querying over data stored in compressed form, significantly reducing memory usage and often accelerating computation. While extensive progress has been made for one-dimensional strings, many real-world datasets (such as images, maps, and adjacency matrices) are inherently two-dimensional and highly compressible. Unfortunately, naively applying 1D techniques to 2D data leads to suboptimal results, as fundamental structural repetition is lost during linearization. This motivates the development of native 2D compressed indexing schemes that preserve both compression and query efficiency. We present three main contributions that advance the theory of compressed indexing for 2D strings: (1) We design the first data structure that supports optimal-time random access to a 2D string compressed by a 2D grammar. Specifically, for a 2D string $T\in\Sigma^{r\times c}$ compressed by a 2D grammar $G$ and any constant $\epsilon>0$, we achieve $O(\log n/\log \log n)$ query time and $O(|G|\log^{2+\epsilon}n)$ space, where $n=\max(r,c)$. (2) We prove conditional lower bounds for pattern matching over 2D-grammar compressed strings. Assuming the Orthogonal Vectors Conjecture, no algorithm can solve this problem in time $O(|G|^{2-\epsilon}\cdot |P|^{O(1)})$ for any $\epsilon>0$, demonstrating a separation from the 1D case, where optimal solutions exist. (3) We show that several fundamental 2D queries, such as the 2D longest common extension, rectangle sum, and equality, cannot be supported efficiently under hardness assumptions for rank and symbol occurrence queries on 1D grammar-compressed strings. This is the first evidence connecting the complexity of 2D compressed indexing to long-standing open problems in the 1D setting.


翻译:压缩索引是一种强大的技术,能够在压缩存储的数据上实现高效查询,显著降低内存使用并通常加速计算。尽管在一维字符串方面已取得广泛进展,但许多现实世界数据集(如图像、地图和邻接矩阵)本质上是二维且高度可压缩的。不幸的是,将一维技术直接应用于二维数据会导致次优结果,因为线性化过程中会丢失基本的结构重复性。这推动了原生二维压缩索引方案的发展,以同时保持压缩和查询效率。我们提出了推动二维字符串压缩索引理论发展的三个主要贡献:(1)我们设计了首个支持对二维语法压缩的二维字符串进行最优时间随机访问的数据结构。具体而言,对于由二维语法$G$压缩的二维字符串$T\in\Sigma^{r\times c}$和任意常数$\epsilon>0$,我们实现了$O(\log n/\log \log n)$查询时间和$O(|G|\log^{2+\epsilon}n)$空间复杂度,其中$n=\max(r,c)$。(2)我们证明了二维语法压缩字符串模式匹配的条件性下界。假设正交向量猜想成立,对于任意$\epsilon>0$,不存在算法能在$O(|G|^{2-\epsilon}\cdot |P|^{O(1)})$时间内解决该问题,这展示了与存在最优解的一维情况的分离。(3)我们证明了几种基本二维查询(如二维最长公共扩展、矩形求和和相等性查询)在一维语法压缩字符串的秩查询和符号出现查询的硬度假设下无法被高效支持。这是首次将二维压缩索引的复杂性与一维设置中长期未决的开放问题联系起来。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员