In a recent joint work, the author has developed a modification of Newton's method, named New Q-Newton's method, which can avoid saddle points and has quadratic rate of convergence. While good theoretical convergence guarantee has not been established for this method, experiments on small scale problems show that the method works very competitively against other well known modifications of Newton's method such as Adaptive Cubic Regularization and BFGS, as well as first order methods such as Unbounded Two-way Backtracking Gradient Descent. In this paper, we resolve the convergence guarantee issue by proposing a modification of New Q-Newton's method, named New Q-Newton's method Backtracking, which incorporates a more sophisticated use of hyperparameters and a Backtracking line search. This new method has very good theoretical guarantees, which for a {\bf Morse function} yields the following (which is unknown for New Q-Newton's method): {\bf Theorem.} Let $f:\mathbb{R}^m\rightarrow \mathbb{R}$ be a Morse function, that is all its critical points have invertible Hessian. Then for a sequence $\{x_n\}$ constructed by New Q-Newton's method Backtracking from a random initial point $x_0$, we have the following two alternatives: i) $\lim _{n\rightarrow\infty}||x_n||=\infty$, or ii) $\{x_n\}$ converges to a point $x_{\infty}$ which is a {\bf local minimum} of $f$, and the rate of convergence is {\bf quadratic}. Moreover, if $f$ has compact sublevels, then only case ii) happens. As far as we know, for Morse functions, this is the best theoretical guarantee for iterative optimization algorithms so far in the literature. We have tested in experiments on small scale, with some further simplified versions of New Q-Newton's method Backtracking, and found that the new method significantly improve New Q-Newton's method.


翻译:在最近的联合工作中, 作者开发了牛顿方法的修改, 名为 New Q- Newton 的方法, 它可以避免马鞍点, 并具有二次趋同率。 虽然尚未为这种方法建立良好的理论趋同保证, 小规模问题的实验表明, 这种方法与其他众所周知的牛顿方法的修改, 如适应性立体和 BFGS 的修改相比, 以及首级方法, 例如无限制双向后跟踪梯度。 在本文中, 我们通过提议修改新Q- 牛顿方法, 避免马鞍点, 并具有二次趋同率。 新的方法, 与新Q- 立方 常规相比, 更接近于 美元 。

0
下载
关闭预览

相关内容

在数学中,鞍点或极大极小点是函数图形表面上的一点,其正交方向上的斜率(导数)都为零,但它不是函数的局部极值。鞍点是在某一轴向(峰值之间)有一个相对最小的临界点,在交叉轴上有一个相对最大的临界点。
【干货书】机器学习算法视角,249页pdf
专知会员服务
139+阅读 · 2021年10月18日
专知会员服务
76+阅读 · 2021年7月31日
【经典书】计算理论导论,482页pdf
专知会员服务
78+阅读 · 2021年4月10日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年9月22日
VIP会员
相关VIP内容
【干货书】机器学习算法视角,249页pdf
专知会员服务
139+阅读 · 2021年10月18日
专知会员服务
76+阅读 · 2021年7月31日
【经典书】计算理论导论,482页pdf
专知会员服务
78+阅读 · 2021年4月10日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
BranchOut: Regularization for Online Ensemble Tracking with CNN
统计学习与视觉计算组
9+阅读 · 2017年10月7日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员