A search engine maintains local copies of different web pages to provide quick search results. This local cache is kept up-to-date by a web crawler that frequently visits these different pages to track changes in them. Ideally, the local copy should be updated as soon as a page changes on the web. However, finite bandwidth availability and server restrictions limit how frequently different pages can be crawled. This brings forth the following optimization problem: maximize the freshness of the local cache subject to the crawling frequencies being within prescribed bounds. While tractable algorithms do exist to solve this problem, these either assume the knowledge of exact page change rates or use inefficient methods such as MLE for estimating the same. We address this issue here. We provide three novel schemes for online estimation of page change rates, all of which have extremely low running times per iteration. The first is based on the law of large numbers and the second on stochastic approximation. The third is an extension of the second and includes a heavy-ball momentum term. All these schemes only need partial information about the page change process, i.e., they only need to know if the page has changed or not since the last crawled instance. Our main theoretical results concern asymptotic convergence and convergence rates of these three schemes. In fact, our work is the first to show convergence of the original stochastic heavy-ball method when neither the gradient nor the noise variance is uniformly bounded. We also provide some numerical experiments (based on real and synthetic data) to demonstrate the superiority of our proposed estimators over existing ones such as MLE. We emphasize that our algorithms are also readily applicable to the synchronization of databases and network inventory management.


翻译:搜索引擎维护不同网页的本地副本, 以提供快速搜索结果 。 这个本地缓存由经常访问这些不同页面的网络爬行器不断更新 。 理想的情况是, 本地副本在网络页面变化后立即更新 。 但是, 有限带宽可用性和服务器限制限制会限制不同页面的浏览频率 。 由此产生了以下优化问题 : 最大限度地增加本地缓存的新鲜性, 以适应在指定范围内的爬移频率。 虽然存在可移植的算法来解决这个问题, 但所有这些算法要么假定准确页面变化率的知识, 要么使用低效率的方法, 如 MLE 来估算相同页面的变化 。 我们在这里讨论这个问题。 我们提供三种新的计划, 用于对页面变化率进行在线估算, 且每个版本都有极低的运行时间。 第一项计划以大数字法为基础, 第二个是随机缩略图。 第三个是第二个扩展, 包含一个重球动的库存术语。 所有这些计划只需要关于页面变化过程的部分信息, 也就是说, 他们只需要知道网页是否已经更改了, 或者不是真正趋同级的合并, 。 我们的主要方法显示我们最初的缩缩缩缩化方法是如何显示这些结果。

0
下载
关闭预览

相关内容

专知会员服务
38+阅读 · 2020年9月6日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
时间序列算法ARIMA介绍
凡人机器学习
5+阅读 · 2017年6月2日
多高的AUC才算高?
ResysChina
7+阅读 · 2016年12月7日
Arxiv
0+阅读 · 2022年1月9日
Arxiv
0+阅读 · 2022年1月5日
Metrics for Explainable AI: Challenges and Prospects
Arxiv
4+阅读 · 2018年12月11日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关VIP内容
相关资讯
量化金融强化学习论文集合
专知
13+阅读 · 2019年12月18日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
人工智能 | 国际会议信息10条
Call4Papers
5+阅读 · 2018年12月18日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
时间序列算法ARIMA介绍
凡人机器学习
5+阅读 · 2017年6月2日
多高的AUC才算高?
ResysChina
7+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员