首先,来自以下专栏的两篇论文
https://zhuanlan.zhihu.com/p/46839396
这段时间正好也在弄prune相关的事情,所以很好奇,昨天知道这两篇论文后就赶紧看了下。
事实上,第二篇的内容基本很类似第一篇,而且Refs里面的第一个就是第一篇论文,所以应该就是第一篇的一次快速的跟进。
主要还是第一篇的一些结论比较有意思。论文是偏重试验的,所以主要就是看对比图表,然而比较多,懒得贴。
基本结论就是:
当然,这都是运算资源有保证的情况下,毕竟从头开始训练是需要时间的。别人的预训练好的模型直接拿来裁剪一下就可以用,而且指标上的差异也没有显著到有影响的情况,还是裁剪省时间和运算资源一点。
以上是批判一番的两篇,下面是之前看的一篇:
当时读论文的时候就发现了一个比较有意思的现象,现在回头来看,似乎倒也是与这两篇有点呼应:

这是文中的一个截图,文中还有其他的图表,但是这个是比较明显的一个,而且和调优的量直接相关。
随机算法与选择算法的较小差异
对于随机的裁剪方法,只要后续跟进了足够的调优次数,也是可以接近使用算法挑选后的结果的。尤其是按照FLOPs评价的话,这个差距更小。似乎Min Weight的方法也没有画出来1000updates的曲线。
实际上,裁剪本身就是为了速度,可能更加关注的就是计算量这个标准。同样的计算量,随机竟然和算法挑选的十分接近。当然,更有意思的是,Min Weight的方法基本一直被随机算法压制……
对于随机算法在FLOPs指标上的表现,我的理解是:
考虑到CNN大部分的运算量是在前端高分辨率的部分,文中同时提了conv filter的重要性是随着深度增加降低的。所以,选择算法可能更加倾向于裁剪掉网络深层的权重,那么就对FLOPs的影响比较小,随机算法的话,应该没这个bias…所以FLOPs上更加明显。
调优的重要性
另外一个现象是,文中强调的:裁剪后的调优可以获得十分显著的提升,上面的图就已经可以说明了。下面的图则更加明显:

两者结合
结合随机裁剪的对比结果和调优的显著效果两点,确实会让人怀疑:网络权值的影响可能没有想象中大。这也是我之前读这篇产生的疑问,那么这个怀疑就与最新的这两篇论文有了呼应。
不过产生了一个可能的冲突就是:
所以如果有一个随机裁剪后的网络,从头训练的对比,可能会更好的说明这个结构搜索的有效性怎么样。
如果,不支持有效的话。那么我的猜测就是: