We initiate a comprehensive experimental study of objective-based hierarchical clustering methods on massive datasets consisting of deep embedding vectors from computer vision and NLP applications. This includes a large variety of image embedding (ImageNet, ImageNetV2, NaBirds), word embedding (Twitter, Wikipedia), and sentence embedding (SST-2) vectors from several popular recent models (e.g. ResNet, ResNext, Inception V3, SBERT). Our study includes datasets with up to $4.5$ million entries with embedding dimensions up to $2048$. In order to address the challenge of scaling up hierarchical clustering to such large datasets we propose a new practical hierarchical clustering algorithm B++&C. It gives a 5%/20% improvement on average for the popular Moseley-Wang (MW) / Cohen-Addad et al. (CKMM) objectives (normalized) compared to a wide range of classic methods and recent heuristics. We also introduce a theoretical algorithm B2SAT&C which achieves a $0.74$-approximation for the CKMM objective in polynomial time. This is the first substantial improvement over the trivial $2/3$-approximation achieved by a random binary tree. Prior to this work, the best poly-time approximation of $\approx 2/3 + 0.0004$ was due to Charikar et al. (SODA'19).


翻译:我们开始对大规模数据集的基于客观的等级分组方法进行全面实验研究,其中包括由计算机视觉和NLP应用的深嵌矢量组成的450万美元条目的数据集,其中包括大量各种图像嵌入(图像Net、图像NetV2、NaBirds)、字嵌入(Twitter、维基百科)和几个流行的近期模型(例如ResNet、ResNext、Invition V3、SBERT)中的句嵌入(SST-2)病媒嵌入(SST-2))。我们的研究包括了高达450万美元条目的数据集,这些条目嵌入的维度最高达2048美元。为了应对将等级组合扩大至这类大型数据集的挑战,我们提议采用新的实用的等级分组组合算法BQQQQ。 它使流行的Moseley-Wang(MWang)/Chone-Addad et al. (CKMMM) 等多功能目标(标准化)与广泛的经典方法和最近的超理论方法。我们还引入了理论性计算B2SAT & C,这比CMM40美元首次实现SBIM3的SOLOI-RBY目标。

0
下载
关闭预览

相关内容

层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。
专知会员服务
162+阅读 · 2020年1月16日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
1+阅读 · 2021年2月18日
Arxiv
0+阅读 · 2021年2月16日
Meta-Learning to Cluster
Arxiv
18+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2018年2月7日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
1+阅读 · 2021年2月18日
Arxiv
0+阅读 · 2021年2月16日
Meta-Learning to Cluster
Arxiv
18+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2018年2月7日
Top
微信扫码咨询专知VIP会员