Tyler's M-estimator is a well known procedure for robust and heavy-tailed covariance estimation. Tyler himself suggested an iterative fixed-point algorithm for computing his estimator however, it requires super-linear (in the size of the data) runtime per iteration, which maybe prohibitive in large scale. In this work we propose, to the best of our knowledge, the first Frank-Wolfe-based algorithms for computing Tyler's estimator. One variant uses standard Frank-Wolfe steps, the second also considers \textit{away-steps} (AFW), and the third is a \textit{geodesic} version of AFW (GAFW). AFW provably requires, up to a log factor, only linear time per iteration, while GAFW runs in linear time (up to a log factor) in a large $n$ (number of data-points) regime. All three variants are shown to provably converge to the optimal solution with sublinear rate, under standard assumptions, despite the fact that the underlying optimization problem is not convex nor smooth. Under an additional fairly mild assumption, that holds with probability 1 when the (normalized) data-points are i.i.d. samples from a continuous distribution supported on the entire unit sphere, AFW and GAFW are proved to converge with linear rates. Importantly, all three variants are parameter-free and use adaptive step-sizes.
翻译:泰勒 的 M 估计 。 泰勒 的 M 估计 是一个众所周知的可靠和 重尾调估计 程序 。 泰勒 自己建议了一个迭代固定点算法 来计算其估计值。 但是, 泰勒 自己建议了一个迭代固定点的迭代算法 。 它需要超线( 数据大小 ) 运行时间, 可能大规模令人望而却步 。 在这项工作中, 我们据我们所知, 以 Frank- Wolfe 为主计算 泰勒 估计值的第一个基于 Frank- Wolfe 的算法。 一个变式使用标准的 Frank- Wolfe 步骤, 第二个变式也考虑\ textit {geodesict} (AFW ), 第三个变换式算法是 AFW 的版本 。 AFW 可以说, 最多只需要一个日志时间, 而 GAFW 以直线性计算值计算法 。 所有三个变式的算法 显示, 在标准假设下, 和 直线性 直线性 度 度 度 的 的 度 度 度 度 度 的 比例 假设, 和 直线性 直线性 的 的 的 直线性 的 的, 直径 的 直线性 的 直线性 的 直线性 值 值 值 的 的 值, 直径 直径 的 值 直径 。