找回密码
 立即注册
LiveVideoStack 首页 资讯 查看内容
  • QQ空间
  • 回复
  • 收藏

李大龙:音视频技术是互联网品质生活的连接器(2)

2018-6-11 09:00


LiveVideoStack:在下一代编解码器的市场,HEVC、AV1或其他产品中你更看好谁?


李大龙:现阶段在国内市场,以H.264/AVC和HEVC为主的MPEG阵营占据了绝对份额。如果扩大到全球范围,VP8/VP9的流量份额或许能形成一定挑战。这背后当然主要是Google在全球互联网领域的主导地位。


纯粹技术层面的比较,有关压缩效率、编码复杂度、解码复杂度等等,已经有太多的专业评测报告。抛开细节的数据,至少目前可以看到:MPEG阵营和Google开源阵营,并没有哪一方是绝对完胜的。所以,到底是吃麦当劳还是肯德基?买单反,是选佳能还是尼康呢?虽然技术参数上难分高下,但综合其它因素,我个人更看好MPEG阵营。


首先,视频Codec市场是很广义的。既存在于急吼吼的互联网行业,也分布在慢吞吞的传统行业。直接或者间接使用Codec产品的人,既有穿梭在科技园中的格子衫工友,也有扛着昂贵设备、扎马尾的直男艺术家。更换Codec、更换软硬件产品,对于前者是创新可以吹牛逼,对于后者是成本要破财。从技术生态链、产业完备性,包括技术品牌的延续性来看,MPEG阵营的地盘甚至可以形容为固若金汤。


其次,大家现在津津乐道于双雄争霸的局面,最直接的动机莫过于版权问题。大家心里的算盘应该比较类似:万一哪天MPEG伸出魔爪扼住我的喉咙,那么敌人的敌人就是我的朋友。道理如此,但存在一些变数:


  1. VP8/9、AV1自身是否足够“干净”?目前提出的视频编码标准都是基于变换编码和运动预测的混合框架模式,相同步骤下的算法工具设计理念比较类似。HEVC(包括其后代VVC)与AV1在技术方案上的交集可谓盘根错节,如果Google真格地执意颠覆MPEG的技术领地,可能会触发旷日持久的专利互诉大战。


  2. 也许有明修栈道、暗度陈仓的办法。大公司、巨头企业可以通过参与视频编码标准化的方式主动加入专利池,小公司则可以通过向大公司购买技术服务的方式来规避或者打擦边球。


  3. 今年年初MPEG创始人兼主席主动撰文,反思MPEG专利模式的危机。也许大家臆想中最大的敌人,从内部被攻破了呢?


最后我还想表达自己的另一点看法:技术发展的百家争鸣是行业大幸,但标准化的分歧对峙,我更倾向于认为是劳民伤财。虽然综合来看,我个人更看好HEVC及其续作VVC,但我也希望若干年后谈起VP8/9、AV1时大家不光想到的是Google亲儿子和免费午餐这样的字眼。我很期待AOM联盟能够在某些细分领域,例如:甚低时延的恒定码率应用、超大规模点云空间重建应用,在这些或小众或前卫的领域上能够突围而出、另立乾坤。作为技术人员,相比新的商业模式,我更期待有新的技术流派和产品应用给这个行业注入动力。


LiveVideoStack:能否聊聊AI在多媒体领域的应用的现状及未来机会?


李大龙:这一波AI热潮的兴起,最大的推手之一可归为Deep Learning在Computer Vision上的突破。作为近缘的技术领域,AI对多媒体领域的赋能可谓是全方面的。限于我个人的知识体系,无法呈现全盘透彻的梳理,只能基于我熟悉的业务场景做以下零散举例描述。


在内容编码侧,基于AI技术的感知编码方案已经大行其道,而且在降低带宽成本、提升图像质量方面的效果令人振奋。有关感知编码、Content Aware Encoding方面的技术内容,LiveVideoStack社区有长期深入的持续性报道,大家可以自行查阅。目前AI技术很多是Codec层以上,以辅助者角色来参与编码,并没有直接替换Codec框架内的算法工具。这既是出于码流标准兼容性的考虑,同时也带来一个有趣的问题:H.264/AVC借助AI辅助编码后,几乎就能完成大部分HEVC之于H.264/AVC的带宽节省目标,而我们知道HEVC的解码复杂度高、且目前HEVC解码设备并没有全面普及,所以这是否意味着HEVC的登基加冕日期还得放缓延后呢?


除参与编码过程外,AI应用于图像质量评测,尤其是无参考图像质量评测,我个人认为是非常值得关注的。多媒体数据压缩的根基很多时候就是利用人类视觉听觉上的“迟钝”或者掩蔽效应,而现行客观指标PSNR/SSIM更多是对信号差异的数学性建模,VMAF已经融合累计了主观评测的因素,那么未来是否有更加符合人眼特性的评价模型呢?而且可以预期的是,评价模型的深度变革或者历史性突破,必然会反哺引爆编码算法的跃进式发展,且让我们拭目以待。


在内容传输侧,无论像微信视频聊天、FaceTime类型的RTC应用,还是Netflix、腾讯视频这样的大规模流媒体点播应用,服务提供商都很重视用户体验的建设。传统QoS的思维,会着力于追踪丢包、时延、错误、缓冲等这样的客观技术指标,而转变为QoE的思维后,则需要全局考虑各项指标对用户体验的影响。QoE的困难之处就是难以严谨数学建模,而使用类似统计拟合的办法,需要投入可观的用户调研,周期长、实际效果有待验证。自适应流媒体架构,对前后台的部署要求不高,目前业内都在广泛使用以提升QoE。传统的BBA(Buffer Based Adaptation)和RBA(Rate Based Adaptation)算法对复杂变化场景的适应性不好,MIT团队基于强化学习的流媒体系统Pensieve(http://web.mit.edu/pensieve/)给大家提供了不错的参考思路,目前这个项目已经开源,大家也可去了解下。


最后,在客户端播放器层面,AI的应用更是花样繁多。比如在图像后处理算法环节,基于AI的实时视频超分辨率算法,相比传统的插值算法,能够有更好的细节表现,也被寄希望用小图像呈现高一档分辨率的主观体验、以变相节省带宽成本。AI技术的发展已经渗透到全产业链,芯片商推出NPU概念、Apple/Google在各自的系统Framework层提出ML解决方案、成熟的DL框架也在逐步推出适合移动平台的Lite版本。可以预见的是,未来AI算法会在移动端以轻量模型的方式被广泛实施,提供像SDR反向tone mapping、输入低分辨率向空间域提升、输入低帧率向时间域扩展等等超越传统算法的能力,把视听享受的“脑补”程度提到一个新高度。


LiveVideoStack:硬件编解码观察到哪些趋势吗?


李大龙:因为我自己没有硬件领域工作的经验,所以谈不上趋势解读的高度。还是以软件开发者的身份,从应用角度说点体会吧。


  1. 更高、更快的军备竞赛,没太大意思。考虑目前手机设备的屏幕尺寸和分辨率,以及国内实际用户带宽的分布情况,4K、8K分辨率、50/60 fps的应用场景非常少,所以硬件不断推高Codec能力意义不大。当然,持续减少Codec功耗还是不错的,但可惜这样的优化一般无法直接映射到用户体验层面。


  2. HDR/WGC,有点意思,我个人比较看好这类干货。Apple在HDR的支持上已经占得先机,但因为HDR的普及需要上游片源制作环节的响应,所以变相给广大Android厂商提供了追赶的时机。期待芯片厂商、手机设备厂商以及屏幕供应商等相关环节能够加快步伐,为广大用户带来惊艳的视觉效果。


  3. Android体系的开放性,对硬件编解码的应用带来很大的变数和不稳定因素。简言之,无论是API稳定性还是版本兼容性方面,iOS体系的VideoToolbox都完胜Android体系的MediaCodec。上述痛点已是业内共识,且天下苦秦久矣。


  4. 通过系统API访问到的硬件Codec能力,除开高运算效率和低功耗表现外,在实际压缩效率表现、目标码率与输出码率的差异、算法工具细节参数的控制等方面都明显不如软件方案。如果再考虑与AI这样辅助工具的融合,软件方案优势更大。期待硬件厂商能够调整思路,针对实际应用的痛点,作出适当妥协和改变。



LiveVideoStackCon 2018讲师招募





LiveVideoStackCon 2018是音视频技术领域的综合技术大会,今年是在10月19-20日在北京举行。大会共设立18个专题,预计邀请超过80位技术专家。如果你在某一领域独当一面,欢迎申请成为LiveVideoStackCon 2018的讲师,让你的经验帮到更多人,你可以通过speaker@livevideostack.com提交演讲信息。了解大会更多详情,请点击 http://beijing2018.livevideostack.com 访问LiveVideoStackCon 2018官网,即刻享受7折优惠。


来自: LiveVideoStack
文章点评
相关文章