找回密码
 立即注册
LiveVideoStack 首页 资讯 查看内容
  • QQ空间
  • 回复
  • 收藏

深度学习让系统“看”懂短视频内容(下)

2017-12-27 17:46

接下来跟大家分享下现在深度哈希特征提取的研究成果,由于研究成果非常多,这里只举两个例子:监督学习和非监督学习。监督学习的思路是使用数据的一些标签数据去进行训练从而学习到哈希码,eBay在今年关于视觉检索中用到的哈希方法就是监督学习。而非监督学习是利用图像本身的一些相关信息进行学习,不利用任何的标签数据,比如我讲一个图像旋转一定角度,它并不会关心这个图像包含什么标签,只会计算旋转前后图形之间的loss是最小的,从而保证学到的特征能够更好的表示当前图像。


我们提出了一个视频的深度哈希方法,这部分算法技术的相关论文” Deep Hashing with Category Mask for Fast Video Retrieval”放到了arxiv上[https://arxiv.org/abs/1712.08315],欢迎大家下载论文了解具体技术细节。


2. 如何高效获取训练数据



针对如何高效获取训练数据,我们结合算法和人工,首先针对开源数据集训练一个模型,并对业务数据进行初期算法的识别、分类、检测,检测、分类的结果将再次进行人工审核,最终审核结果再返回更新模型。


3. 如何合理利用计算资源


主要从三个方面合理规划和利用计算资源:第一是从算法的角度优化,一方面是优化网络结构,这个同时也会降低训练时间;另一方面是优化推理逻辑,也就是不改变网络结构,在推理时进行层间的压缩。第二是分时处理,从业务角度来看,对推理和训练支持的力度是不同的,推理服务请求量可能很高,而且不同时段的请求量也是不一样的,比如白天一般大于晚上,这样我们在分配推理和训练服务时就需要合理错开高峰期。第三是转码预测,用户上传云端的视频在手机端播放时会占用一定的带宽,因此我们会对一些视频提前转码,但因为转码本身很消耗计算资源,为防止无效转码,使用算法预测视频被转码的概率。



上图是转码预测算法的网络结构,主要分为两部分:首先,对视频封面通过CNN网络提取图像特征;然后,将视频的原数据信息-如视频作者的好友数、粉丝数、历史视频的播放数等映射成向量,和提取的CNN特征结合输入到浅层神经网络进行训练。



上图是分别使用规则判断和使用神经网络算法进行转码预测效率的对比数据,横坐标是转码计算需要的资源,纵坐标是播放覆盖率。我们可以看到,传统简单标记规则在占用80%转码计算资源的情况下,播放覆盖量大概在75%;而使用神经网络算法,在同等播放覆盖率的前提下可以节省84%的转码计算资源,在使用同等的转码计算资源的情况下则可以增加27%的播放量。


思考与展望


对于深度学习在短视频内容分析中的应用我们认为还有很多地方需要优化。从产品层面来说需要优化功能定义,让深度学习可以更好的应用于产品从而提升用户体验;数据层面则是优化标注流程、提升标注的质量,加快模型的迭代更新速度;最后在应用现有技术满足业务的同时,我们也希望能够在算法和模型上做一定的积累和创新。以上是我的分享,谢谢大家。

来自: LiveVideoStack
文章点评
相关文章