一般情况下,未标注数据肯定会远远大于标注数据。
攒的满满的一盘视频,是否能够利用起来优化网络显然就是一个值得考虑的东西。毕竟这些数据相比数据增强的方法,都是实实在在的真实数据,而且,也可以再用数据增强啊。
自己的一个民科脑洞就是:类似训练语言模型的方法,让网络训练N-gram的视频模型。
这个情况不要太常见,从零开始训练的网络,会针对优化目标投机取巧,这样的预测模型只需要像素相关性就可以完成的不错,所以我猜测网络会很快奔着只看像素去,抽象概念完全学不到。
从让网络掌握概念的角度来说,分类任务绝对是目前最高效的方法。所以目前来说,我的基本思路都是:先上分类数据预训练一个模型,数据越多越好。
2. 预测目标可能不能单纯是下一帧。
因为太强相关了,最后的结果就如上点一样,八成八学的都是底层信息。
可以考虑我们搞一个Skip-frame训练法,预测的是后续第N帧的图片,呵呵呵,或者multi-skip-frame训练法,然后可以多接几个输出,同时预测未来N, M…的图片。
3. 输出目标
显然,我们不需要原始分辨率的图片,又不是做segmentation,可以缩小输出的尺寸,这样还能加快训练速度。
多帧预测
可以同样的特征提取模型同时跑几帧图像,之后再concat到一起,塞到后续模型里面预测。
三明治预测
给网络前面帧和后面帧,让网络补出来中间帧。
遮挡预测
前面的都是帧间预测,也可以遮挡图片一部分给网络预测,算是帧内模型。这个我记得有好多已经完成的工作了。
后续准备试试这些脑洞吧,应该已经有很多别人的previous work了。