首页 > IT业界 > 正文

金山视频云+AI,认知5G时代的智能视觉

2019-12-25 09:57:19  来源:互联网

摘要:如果说在前几年,AI人工智能还被认为是黑科技的话,今天其实已经被大规模应用到公共云服务中了。
关键词: AI 5G
如果说在前几年,AI人工智能还被认为是黑科技的话,今天其实已经被大规模应用到公共云服务中了。每天当消费者打开手机看各种视频的时候,背后有可能就是AI技术在加速视频加载、提升画质以及降低观看成本。即使是在即将到来的5G高速移动互联网时代,仍需要AI技术在小小的智能手机和各种智能设备上,提升人们观看视频的体验。

实际上计算机视觉一直是人工智能领域的研究重点之一,而视频理解是当下最热门AI研究领域之一。2017年的最后一届ImageNet赛事,代表了静态图像识别时代的落幕,随后视频理解成为了新的计算机视觉研究挑战。特别是在线视频和短视频成为移动网民使用时间占比前三应用类型的前提下,视频理解不仅是学术研究挑战也具有极高的商业价值。

金山视频云自2016年推出,当年排名前200的直播App中有一半就成为了金山视频云的客户。早在2016年,金山视频云就把视频理解作为下一波移动视频爆发的技术推动力。2019年11月,金山AI Lab在MS COCO国际赛事的图像描述生成(Image Captioning)项目中获得冠军,取得深度学习处理多模态数据的重要进展。多模态数据处理和多模态理解视频是视频理解的前沿领域,是用AI认知视频的重要技术,而这些成果都已在金山视频云中应用。

2019年12月18日,金山视频云对外沟通了技术和业务进展,特别介绍了用AI帮助用户提升画质、降低成本的技术成果和产品,集智高清、KIE、KAV1、画质评测等金山视频云AI产品集中对外公开了技术细节,标志着基于人工智能优化的金山视频云已经为第二波5G移动视频爆发做好了准备。

集智高清:用AI感知视频

集智高清是金山视频云在2019年初推出的一款产品,集合多种视觉AI与编码技术,通过深度神经网络对视频画面内容进行感知,优化主观体验和智能调节编码参数,追求最佳的人眼视觉感受。作为金山视频云AI产品中的重要一员,集智高清主要解决了4G/5G时代移动视频爆发,运营商成本不断走高、视频质量参差不齐、三四线城市视频卡顿严重等痛点问题。

\

(金山云高级技术总监蔡媛)

蔡媛是金山云高级技术总监、集智高清AI视频云产品负责人,蔡媛介绍移动视频爆发下带来了运营商带宽成本支出越来越高的痛点,而视频客户经常会遇到运动模糊、拍摄过暗、对焦失真、拉伸模糊等视频质量问题,而三四线城市的视频卡顿成为突出。为此,集智高清主要在节省带宽的同时,极大提高画质。

简单理解,集智高清利用了AI技术、视频编解码技术和传统的图像技术对视频内容进行智能感知,利用感智编码在主观观感无损的前提下极大压缩视频整体码率,带宽节省成本可达30%-60%。什么是对视频的智能感知呢?就是用AI智能分析,进行视频分类、质量分类和感兴趣区域提取,在此基础上结合智能自动编码参数决策、感知编码和编解码技术,优化编码效果并利用AI增强和修复视频图像。

首先在内容分类方面,不同视频类型的差距较大,为了适配不同的场景,集智高清会先对视频进行分类,例如秀场模型、游戏模型或是动漫模型,然后根据不同分类采用不同模型进行优化处理。集智高清的视频内容分类准确率能够达到96%以上,在视频云分类的准确率方面属于行业领先水平;其次是质量分类,也就是根据图片的色彩饱和度、对比度、清晰度进行质量分类,包括噪声、模糊程度以及采集情况等进行打分;第三是感兴趣区域分割,也就是找到人眼对视频或图像中比较关注的人脸、文字、前景重点区域等进行区域分割,从而分配更多码率进行突出处理以及细节处理。

集智高清的工具集包括超分辨率、去噪、去模糊、增强等,例如对重点图像区域进行锐化后的细节更清晰、色彩增强后更能还原真实效果。而自适应编码相对于固定码率,整体可实现更优的压缩率效果。自适应编码可做到当前的视频级、场景级以及帧级、宏块级(视频编码中将画面分成个大小不同的块,根据不同位置采用不同的压缩策略)自适应编码策略,从而无需人工定制编码参数。

在利用AI技术进行视频优化的时候,需要评价人眼的主观视频感受,为了驱动算法向前演进,金山视频云图像团队开发了一套评测平台,也是业内第一家专门针对视频主观质量进行评价的工具平台。该平台能够建立评测,再分配给评测团队,以保证整体画质的效果和稳定性。该平台除了支持图像、视频的评测外,还可提供图像和视频信息展示以及缩放等功能,还可自定义评价指标以方便主观评测人员打分。此前,业界已经有了PSNR等广泛的评价指标,但随着AI在视频行业的落地,先前的评价指标已经跟不上行业发展,金山视频云也在不断探索新的评价指标体系,包括开发或研究更适合中国秀场、游戏等场景的指标。

蔡媛强调,利用深度学习进行视频恢复可以恢复得非常精细,比如对头发丝、眼睛等部位的噪声去除就非常细致和干净。此外,在利用对抗神经网络进行人脸修复时能够保证在语义不变的情况下恢复原始细节,甚至优于原始图像的情况。从2019年的2月开始,金山视频云集智高清产品已经逐步接入用户,主要落地客户包括游戏直播、小米有品、小米商城以及短视频、在线教育等行业客户,整体可达40%-56%的压缩率。

KAV1:下一代商用视频编码器

视频编码技术是集智高清的基础,也是所有视频云的基础。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264、H.265,其中2003年发布H.264与H.265间隔了十年,而2018年进一步发布了第四代标准AV1。视频编码即对原始视频文件进行压缩从而可以在计算机等设备上处理以及通过网络传输,例如一分钟原始1080P视频超过5GB,经过H.264编码后可压缩到15-30MB,每一代视频编码标准都把视频的压缩率提升30%-50%。

\

(金山云算法架构师樊鸿飞)

随着第四代AV1标准的商用,将催生更多高清应用。金山云技术专家樊鸿飞表示,5G时代是一个高清视频时代,现在主流的视频分辨率为1080P,5G将带来更多4K、8K分辨率的视频应用,此外视频帧率将从25FPS提升至60FPS或120FPS,位宽变成8bit、10bit、12bit。因此,5G时代不仅需要更高的压缩率,还要对10bit甚至更高位宽的视频提出工程化方案。

KAV1是金山视频云推出的AV1商业编码器。对比H.265,AV1编码器中加入超过70个新工具集,同时手机端和Web端的支持更加完备,这也加速了商业落地的进程,预计2020年AV1将开始出现商用落地。金山云的KAV1编码器汇聚预处理、码控、预测、变换、熵编码、后处理六大处理模块40余种原创算法,打造应用于各种场景下的专业商用编码器。KAV1提供从0.1FPS到30FPS九种速度档次,还提供完全没有延迟、低延迟、直播以及离线延迟等四种延迟而且延迟越高码率更低。

KAV1针对游戏、电影、市场、监控、教育、晚会等七大场景,以及六大评价指标进行定制调优,结合集智高清视频分类和质量分类,自动化决策编码调优参数,在每一个评价指标上都可以达到3%到15%的性能提升。此前一直困惑编码界的是评价指标PSNR(峰值信噪比),该评价指标与人眼视觉相差较大,金山视频云经历了一年左右的数据收集后,在积累的30万左右数据集上通过AI训练得到新的评价指标,未来将把自研指标作为可解释评价指标的预研,例如可以进行通过视频预处理判断质量的好坏。

目前,金山视频云同时支持H.264、H.265和AV1等标准,AV1目前可以达到80.57%的压缩率,预计明年可以达到85%。随着更好的编码器出现,可以推进5G时代的高清应用,比如目前VR直播的方案延时比较高,直接采用264编码则需要大带宽,而采用AV1就可以保证低延迟的同时降低卡顿,让VR直播变成可能。

云+AI:更高清、更高分辨率

樊鸿飞强调,金山很早就加入了中国自主定制的数字音视频编解码国家标准AVS以及国际标准组织AOM,金山视频云的所有视频编码都具备自主产权,仅2019年就递交了50篇专利。樊鸿飞介绍,国际标准H.265在2013年就发布了,但直到2017年才开始落地,其主要是生态问题,而AV1具备更完善的生态,例如H.265不支持Web播放器解码,而目前AV1已经支持在Chrome、Firefox中播放,相信有望在2020年开始商业化落地。

\

金山云在视频编码行业深耕超过了五年,可以极大地降低视频的传输成本,而且因为视频的码率降低将提升QoS质量和用户体验,低码率还可以保证低失帧度,从而让用户可以享受到4K画质。金山视频云在万路直播方面的SLA不低于99.95%,同时提供集智高清、KAV1和云转码SDK等产品。针对传统编码器做云转码存在的问题,金山视频云利用AI+编码技术为所有的转码场景提供更高的压缩率,特别是低清视频转码提升很明显,所以最大增益的场景还是低清的UGC短视频,这也是目前使用集智高清服务数量最多的用户场景。

利用AI+编码技术提升低清视频效果方面,例如对于教育场景来说,金山视频云的编码器就能对视频质量有很大提升,包括对教育视频的播放进行预测,如PPT切换时会分配给PPT图像更多码率,而在不播放PPT时就把码率分配给教师的脸部以提升清晰度。这样一来就能减少教育视频的卡顿,同时提升学生观看视频时的主观体验。利用不断提升的产品能力,金山视频云保障各类视频应用包括实时监控、会议通讯、重大活动、赛事活动等流畅运行。

除了集智高清和KAV1外,金山视频云还在2018年发布了画质增强KIE(Kingsoft Image &AI Enhancement)产品,将其应用于移动终端或图片传输中,可为用户带来超清的图像视觉体验或节省图片传输带宽成本,KIE已集成在了小米手机MUI中。目前KIE已经实现利用GAN对抗神经网络算法来生成以假乱真的细节,此外KIE还通过在超分辨率模型中融合时域信息达到了去运动模糊、HDR等效果,为广大视频用户生成更真实的4K/8K视频。

在实际落地的应用案例中,AI系列产品得到用户广泛认可。2019年6月,为小米有品提供集智高清延伸的图像压缩服务,在不改变JPG格式的情况下能够节省50%以上图像传输带宽;11月,为小米商城提供点播集智高清+H.265云转码服务,在画质明显增强的情况下带宽节省56.3%;11月,为某知名短视频客户提供点播集智高清+H.265云转码服务,在修复UGC画质的基础上码率节省达到40%;12月,帮助某在线教育客户集成直播PC端编码器推流服务,在主观画质不变情况下带宽节省达到41%。

目前,金山视频云已经服务了视频行业 TOP20 全部客户、80% 以上的知名直播及短视频APP。而金山视频云还走在不断探索下一代视频技术的前沿上,通过不断提升的技术能力和技术储备,迎接高清高分辨率的5G视频时代。正如金山云CEO王育林在2016年的判断:继移动手机取代专业设备的视频3.0之后,视频4.0一定是视频内容理解,不再是视频技术本身。而从AI在金山视频云的落地情况来看,金山视频云正在发挥AI的极致能力,为观众带来更高清、更高分辨率、更流畅、成本更低的智能视觉体验。

 

第三十届CIO班招生
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生
法国布雷斯特商学院DBA班招生
责编:wuqiuying