Can prior network pruning strategies eliminate redundancy in multiple correlated pre-trained deep neural networks? It seems a positive answer if multiple networks are first combined and then pruned. However, we argue that an arbitrarily combined network may lead to sub-optimal pruning performance because their intra- and inter-redundancy may not be minimised at the same time while retaining the inference accuracy in each task. In this paper, we define and analyse the redundancy in multi-task networks from an information theoretic perspective, and identify challenges for existing pruning methods to function effectively for multi-task pruning. We propose Redundancy-Disentangled Networks (RDNets), which decouples intra- and inter-redundancy such that all redundancy can be suppressed via previous network pruning schemes. A pruned RDNet also ensures minimal computation in any subset of tasks, a desirable feature for selective task execution. Moreover, a heuristic is devised to construct an RDNet from multiple pre-trained networks. Experiments on CelebA show that the same pruning method on an RDNet achieves at least 1:8x lower memory usage and 1:4x lower computation cost than on a multi-task network constructed by the state-of-the-art network merging scheme.
翻译:先前的网络运行策略能否消除多个相关且经过培训的深神经网络的冗余? 如果多个网络首先合并,然后进行修剪, 似乎是一个积极的答案。 然而, 我们争论说, 一个任意合并的网络可能会导致亚最佳的运行性能, 因为他们的内冗余和间冗余不能同时被最小化, 同时保留每项任务的推论准确性。 在本文件中, 我们从信息理论角度定义和分析多任务网络的冗余, 并从信息理论角度来定义和分析多任务网络的冗余, 并找出现有运行方法在多重任务运行中有效运行的挑战。 我们提议重现- 断裂网( RDNets ), 它会分解内部和间断线性能, 这样所有的冗余性都无法通过以前的网络运行计划同时被抑制。 一个经过修剪裁的RDNet还可以确保任何一组任务的最小的计算, 这是选择性任务执行的一个理想特征。 此外, 我们设计了一个超自然论, 从多个经过培训的网络中构建 RDNet 。 在 CelebA 实验中显示, 在一个存储网络的低成本 4 网络中, 多式网络的运行方法在1 1: 1 的模型中, 最低的存储网络的网络中, 4 4 将至少的网络的网络的网络计算方法在1 4 中, 将实现一个存储 的网络的网络 的网络 的 的 的 的 的 的 4 4 。