项目名称: 多维数据布鲁姆过滤器的理论与技术

项目编号: No.61472194

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 自动化技术、计算机技术

项目作者: 钱江波

作者单位: 宁波大学

项目金额: 80万元

中文摘要: 数据过滤技术能够从静态或动态的海量数据中快速提纯出有价值的数据做进一步处理,它是当前数据爆炸时代非常有效的工具。尽管单维数据过滤器已经研究和应用多年,但针对多维数据过滤器的研究还不多,且主要集中在低维数据的集合判断问题。基于数据管理技术的前瞻性考虑,项目以多维数据为处理对象,探索高性能数据过滤器的理论和实现技术,为大数据处理领域提供先进、实用的解决方案。研究内容包括:(1)提出低维数据布鲁姆过滤器关联删除概念和方法,该方法也能用于半连接、窗口更新等其它操作;(2)针对高维数据的不同过滤粒度,提出多粒度距离敏感布鲁姆过滤器方案;(3)结合硬件和并行计算的高效性,设计实现可用于数据处理前端流水线加速的硬过滤器;(4)设计实现后端数据处理服务器的基于MapReduce的批处理和流水线加速方法。该项研究具有原创性,对提高数据处理速度,拓展数据管理技术的理论和方法有重要的理论和现实意义。

中文关键词: 多维数据;布鲁姆过滤器;并行计算;硬件加速;距离敏感哈希函数

英文摘要: With data filtering technology, valuable data can be fast purified from static or dynamic big data for further processing. This technology is a very effective tool in the current era of data explosion. Although the data filters for single dimension data have been researched and used for many years, the research on filters for multi-dimensional data is being seldom studied, even the minor contribution is mainly from the judgment of belonging to a low-dimensional data set. Focusing on processing multi-dimensional data, we propose some new theories and implementation techniques for high-performance data filters. The study includes: (1) We propose Bloom filter based associative deletion theory and algorithms for low-dimensional data. This theory can also provide direct calculation method for many other operations, such as semi-join, update of sliding-window, etc. (2) We propose theories and algorithms of multi-granularity locality-sensitive Bloom filter for high-dimensional data. (3) We propose a new hardware coprocessor using pipeline acceleration for filtering in front-ends of data processing. (4) We propose batch processing and pipeline processing methods in the MapReduce framework for filtering acceleration in a back-end data processing server. The study is a project of originality and will contribute significance theories and techniquies for data processing.

英文关键词: multi-dimensional data;Bloom filter;parallel computing;hardware acceleration;locality-sensitive hashing

成为VIP会员查看完整内容
0

相关内容

【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
基于深度学习的图异常检测技术综述
专知会员服务
79+阅读 · 2021年7月28日
专知会员服务
25+阅读 · 2021年3月7日
专知会员服务
27+阅读 · 2021年2月17日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
189+阅读 · 2020年3月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
已删除
将门创投
12+阅读 · 2017年10月13日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
0+阅读 · 2022年4月14日
Arxiv
14+阅读 · 2018年5月15日
小贴士
相关VIP内容
【2021新书】面向对象的Python编程,418页pdf
专知会员服务
70+阅读 · 2021年12月15日
基于深度学习的图异常检测技术综述
专知会员服务
79+阅读 · 2021年7月28日
专知会员服务
25+阅读 · 2021年3月7日
专知会员服务
27+阅读 · 2021年2月17日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【经典书】Python数据数据分析第二版,541页pdf
专知会员服务
189+阅读 · 2020年3月12日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
相关资讯
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
已删除
将门创投
12+阅读 · 2017年10月13日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员