找回密码
 立即注册
LiveVideoStack 首页 资讯 查看内容
  • QQ空间
  • 回复
  • 收藏

展望2018音视频技术:AV1,AI,区块链,WebRTC(三)

2018-1-3 17:54

  • 人脸与AI


直播时代人脸美颜和特效已经不再是稀奇的功能了,这得益于AI深度学习和神经网络的发展。值得一提的是,已经有通过对抗神经网络进行人脸替换的技术,这个技术是通过CycleGAN算法模型将视频中每个像素替换成目标像素,以此来达到偷梁换柱的目的。未来一个普通主播替换成明星脸的现象会越来越多。


总结与思考


实时音视频领域涉及的技术众多,有控制网络延迟的,有抗丢包的,有用于增强流畅度的,有用于减少成本的。这其中还有很多悬而未决的问题,例如跨国零延迟实时传输、大规模实时分发、超高清实时、实时VR/AR等。这个领域的技术还在不断发展,随着硬件和算法的不断升级,这些问题正在逐步被解决。在这里简单对未来这方面技术做个展望。


2017年的新一代iPhone上已经嵌入了H.265的硬编模块,接下来很多手机厂商都会植入H.265的硬编模块来提高手机的竞争力。这一局面将加快H.265在实时音视频的应用。除了H.265外,Google联合各个浏览器厂商正在加紧研发AV1新一代互联网视频编码器,预计在2018年放出alpha版测试,AV1在专利费和浏览器兼容上有很大的优势,这是个非常值得期待的事。


在实时音视频传输方面也正在与当下流行的AI和深度学习结合,基于机器学习的拥塞控制算法已经在实验阶段,基于大数据和神经网络的实时传输链路优化也在各大云厂商中开展,我个人看好利用AI和深度学习技术来进行网络调优、传输路径优化和时延控制,这块在未来几年会有相对应的突破。而与区块链的结合可能更多是基于成本上的考虑,例如迅雷的玩客币、赚钱宝等,这类技术方向会催生出新一代的CDN实时分发网络。


行业应用上,在线教育会继续在师生注意力、教育效果上对实时音视频上做深挖,很有可能会引入实时AR/VR来增强用户体验和认知感觉。实时音视频正在成为计算机视觉的下一个发展方向,会持续输出到IoT、毫秒级实时视频监控等行业领域。


关于作者


袁荣喜,学霸君资深架构师,16年的C程序员,好求甚解,善于构建高性能服务系统和系统性能调优,喜好解决系统的疑难杂症和debug技术。早年痴迷于P2P通信网络、TCP/IP通信协议栈和鉴权加密技术,曾基于P2P super node技术实现了视频实时传输系统。2015年加入学霸君,负责构建学霸君的智能路由实时音视频传输系统和网络,解决音视频通信的实时性的问题。 近几年专注于存储系统和并发编程,对paxos和raft分布式协议饶有兴趣。尤其喜欢数据库内核和存储引擎,坚持不懈对MySQL/innoDB和WiredTiger的实现和事务处理模型进行探究。热衷于开源,曾为开源社区提过些patch。业余时间喜欢写技术长文,喜欢读唐诗。


原作者: 袁荣喜 来自: LiveVideoStack
文章点评
相关文章