- 核心技术
- 以原创技术体系为根基,SenseCore商汤AI大装置为核心基座,布局多领域、多方向前沿研究,
快速打通AI在各个垂直场景中的应用,向行业赋能。
商汤提出基于空间修剪的NAS算法
导读:在CVPR 2020上,商汤AutoML团队提出的首个基于参数后验分布特性来提高网络机构搜索性能的工作,该工作为解决网络机构搜索中快速代理的有效性问题提供了新的思路。同时该团队也公开了在ImageNet数据集上的两种不同尺寸的模型,作为模型结构搜索和设计的baseline。相比之前的工作,PC-NAS在结构搜索代理的有效性上有明显的提升。
动机
该文章提供了一个分析One-shot参数后验分布的方式,在得出搜索空间中存在的结构越多参数后验分布偏离得越多的结论后,提出了一个基于空间修剪的NAS算法。该工作的研究动机在于:
1. 当前网络结构搜索算法(NAS)已经可以应用应用。其大量的计算量需求成为了当前最大的问题。然而解决计算量问题的方法目前还不完美,使用共享参数的超网做代理成为了目前比较普遍的选择。但这类方法受限于代理和真实情况的偏差。
2. 根据观察和分析,共享参数在训练过程中得到的参数后验与单个模型独立训练的参数分布有一定的规律。接下来将详细介绍该工作的观察和分析。
根据贝叶斯模型选择(以及一定的假设),该工作对共享权重对结构排序带来的影响给出了两个观察:
共享权重的参数分布与不共享的retrain时刻的结构参数分布的关系可以用KL散度来衡量。
可供选择的模型数量上升时,该散度随着结结构数量增加而增加。
相关细节请参考论文
算法
为了在训练权重共享的同时,减小权重共享的网络结构数量,我们提出一种训练时的空间修剪方法。假设我们目前有一个如上图(a)所示的超网,每一层拥有一个mixop(mixop是n个候选op的合称)于是该超网中总共包含n^层数个不同的结构。为了进行搜索空间的修剪,我们提出了 部分结构池的概念(partial model pool)。假设网络结构有L层,部分结构池在整个搜索过程中将会有L个状态(Stage)。每从L-1状态到L状态,部分结构池中的子结构的层数将增长1。
如图(b),此时Stage=2,在部分结构池中有两个层数为2的结构,通过节点编号命名为(1,1)和(0,1)。为了进行至Stage=3,我们会评估2x3个部分结构的潜力,分别是(1,1, 0),(1,1,1),(1,1,2),以及(0,1,0),(0,1,1),(0,1,2)。如何评价部分网络的优劣或者说潜力呢?
为此我们定义 Potential 是在部分结构中为指定的mixop进行随机采样的结构的平均validation set acc。
搜索结果
更具上上述搜索过程我们分别在一大一小两个网络空间中进行搜索。小搜索空间中每层包含9种operator,大搜索空间包含每层19种operator。我们把大搜索空间的搜索结果命名为PC-NAS-L,小搜索空间的模型命名为PC-NAS-S。
上表可以看出,在同等的gpu lantency下,我们的PC-NAS可以超过或不低于所有baseline。
在检测任务中可以看验证模型的鲁棒性。
代理保序性
那么我们采用的搜索空间收缩算法是否有效的提高了代理的有效性呢?
我们将同一套代码,使用从头至尾采用one-shot方法训练和使用我们的算法训练的shareweights进行了比较。对于最后存在在最后一个stage中的部分结构模型所拓展的结构,还有我们随机在one-shot方法中采的相同数量的结构,这两个群体之间,真实acc和proxyacc之间的相关性。我们可以看到,在最后阶段,相关性比one-shot方法要有一定优势。
传送门
论文地址:http://xxx.itp.ac.cn/pdf/1910.02543v1
References
[1] Georege Adam and Jonathan Lorraine. Understanding neural architecture search techniques. arXiv preprint arXiv:1904.00438, 2019.
[2] Bowen Baker, Otkrist Gupta, Nikhil Naik, and Ramesh Raskar. Designing neural network architectures using reinforcement learning. International Conference on Learning Representations, 2017a.
[3] Gabriel Bender, Pieter-Jan Kindermans, Barret Zoph, Vijay Vasudevan, and Quoc V. Le. Understanding and simplifying one-shot architecture search. ICML, 2018.