数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。

VIP内容

城市环境下的移动数据分析与行为建模研究

在全球城镇化进程方兴未艾、我国转向高质量的新型城镇化发展的背景下,深 入理解城市环境下的移动行为模式是提升城市在规划、管理、交通等方面综合能力 的重要研究课题。近年来,通过智能终端、移动互联网和社交媒体等多种渠道采集 的移动数据日益丰富,为研究城市移动数据分析与行为建模问题提供了契机。该研 究课题存在以下挑战:首先,移动数据体量大、质量低,现有数据挖掘算法难以直 接适应;其次,城市环境下的移动行为模式复杂多样,且与城市结构紧密关联,现 有移动模型难以刻画;最后,移动数据极易泄漏用户隐私,目前仍然缺乏有效的隐 私保护方案。针对以上挑战,本文对多尺度复杂移动行为建模、结合城市结构的移 动行为建模和保护移动数据隐私安全三个关键问题展开研究,为系统认知城市环 境下的移动行为模式提供了理论模型与关键技术。论文的主要创新点与贡献如下:

第一,在个体移动行为建模方面,本文重点研究了意图感知的移动行为模式识 别问题。首先,通过大规模真实数据分析证明了已有工作基于社交媒体签到数据推 断用户移动意图的方法存在显著误差,43%的签到数据与真实移动行为不符。其次, 提出了一种基于无标注移动数据的意图感知的移动模式识别算法,在用户职业推 断和访问地点类型推断上较基线算法取得了 112.5%~126.4%的性能提升。

第二,在群体移动行为建模方面,本文通过建模用户连接移动网络的行为模式, 建立了基于移动网络连接数据的高质量群体移动行为估计算法,其较基线算法降 低了 22.5%的误差。在此基础上,本文进一步研究了城市结构感知的群体移动模式 识别问题,并提出了一种基于频谱分解的规律性和随机性群体移动行为分解算法。

第三,在移动行为驱动的城市演化方面,研究了移动行为与城市演化的内在关 联,提出了基于个体移动行为模式的城市演化模型,其在微观层面建模了个体移动 的关键行为规律,并在宏观层面准确预测了城市演化中形态、面积、人口的分布规 律,为关联微观层面的移动行为和宏观层面的城市演化搭建了重要的理论桥梁。

最后,在移动数据隐私保护方面,揭示了移动数据中个体移动行为的高唯一性 和强规律性分别会对匿名个体移动数据和聚合群体移动数据带来严重的去匿名攻 击和轨迹恢复攻击的隐私风险。基于分析所得的个体移动行为中导致隐私风险的 关键因素,提出了通过时空泛化和添加噪音来隐藏移动行为规律的隐私安全保护 算法,实现了高效、可靠的移动数据隐私保护。

成为VIP会员查看完整内容
0
11

最新论文

Static code warning tools often generate warnings that programmers ignore. Such tools can be made more useful via data mining algorithms that select the "actionable" warnings; i.e. the warnings that are usually not ignored. In this paper, we look for actionable warnings within a sample of 5,675 actionable warnings seen in 31,058 static code warnings from FindBugs. We find that data mining algorithms can find actionable warnings with remarkable ease. Specifically, a range of data mining methods (deep learners, random forests, decision tree learners, and support vector machines) all achieved very good results (recalls and AUC (TRN, TPR) measures usually over 95% and false alarms usually under 5%). Given that all these learners succeeded so easily, it is appropriate to ask if there is something about this task that is inherently easy. We report that while our data sets have up to 58 raw features, those features can be approximated by less than two underlying dimensions. For such intrinsically simple data, many different kinds of learners can generate useful models with similar performance. Based on the above, we conclude that learning to recognize actionable static code warnings is easy, using a wide range of learning algorithms, since the underlying data is intrinsically simple. If we had to pick one particular learner for this task, we would suggest linear SVMs (since, at least in our sample, that learner ran relatively quickly and achieved the best median performance) and we would not recommend deep learning (since this data is intrinsically very simple).

0
0
下载
预览
Top