Graphs are a powerful tool for analyzing large data sets, but many real-world phenomena involve interactions that go beyond the simple pairwise relationships captured by a graph. In this paper we introduce and study a simple combinatorial model to capture higher order dependencies from an algorithms and computational complexity perspective. Specifically, we introduce the String Set Reconstruction problem, which asks when a set of strings can be reconstructed from seeing only the k-way projections of strings in the set. This problem is distinguished from genetic reconstruction problems in that we allow projections from any k indices and we maintain knowledge of those indices, but not which k-mer came from which string. We give several results on the complexity of this problem, including hardness results, inapproximability, and parametrized complexity. Our main result is the introduction of a new algorithm for this problem using a modified version of overlap graphs from genetic reconstruction algorithms. A key difference we must overcome is that in our setting the k-mers need not be contiguous, unlike the setting of genetic reconstruction. We exhibit our algorithm's efficiency in a variety of experiments, and give high-level explanations for how its complexity is observed to scale with various parameters. We back up these explanation with analytic approximations. We also consider the related problems of: whether a single string can be reconstructed from the k-way projections of a given set of strings, and finding the largest k at which we get no information about the original data set from its k-way projections (i.e., the largest $k$ for which it is "k-wise independent").


翻译:图是分析大规模数据集的强大工具,但许多现实世界现象涉及超越图所捕获的简单成对关系的交互作用。本文从算法与计算复杂性视角出发,引入并研究一种用于捕捉高阶依赖关系的简单组合模型。具体而言,我们提出了字符串集合重构问题,该问题探究在仅观测集合中字符串的k维投影时,何时能够重构原始字符串集合。此问题区别于遗传重构问题之处在于:我们允许从任意k个索引位置进行投影,且保留这些索引的信息,但无需知晓各k-mer片段具体来源于哪个字符串。我们针对该问题的复杂性给出了多项结果,包括硬度证明、不可近似性分析及参数化复杂性研究。我们的核心贡献是提出一种基于遗传重构算法中重叠图改进版本的新算法。必须克服的关键差异在于:与遗传重构场景不同,本设定中的k-mer片段无需连续。我们通过多组实验展示了该算法的高效性,并对其复杂度随不同参数变化的观测规律给出了高层解释,同时辅以解析近似进行验证。此外,我们还探讨了相关延伸问题:如何从给定字符串集合的k维投影中重构单个字符串,以及寻找无法从k维投影获取原始数据集信息的最大k值(即满足“k阶独立性”的最大$k$)。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
专知会员服务
19+阅读 · 2021年8月15日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
【AAAI2023】MHCCL:多变量时间序列的掩蔽层次聚类对比学习
专知会员服务
19+阅读 · 2021年8月15日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员