第两百六十七章 概念(2 / 2)
谷軤 视频不再仅仅是娱乐工具,而是变身为生产力工具。
各个领域和各个垂直行业,都希望借助音视频技术的赋能,改变现有的企业经营模式,提升效率,降低成本。
尤其是vr/ar技术,经过多年的发展,已经在文旅、教育、工业、医疗等领域有了成功的应用案例。
越来越多的企业希望拥抱它们,但是,又对其背后的技术门槛和资源投入望而却步。
我们现在每天都在讨论数字化转型,其实,音视频对垂直行业的赋能,就是企业数字化转型的一个极佳的入口。
究竟如何应对上面提到的音视频发展需求和挑战?国内互联网巨头企鹅,已经给出了自己的回答。
自qq时代以来,企鹅在音视频通信领域已经有二十一年的技术积累。
为了更好地进行音视频黑科技的探索、研发及应用落地,企鹅也是专门成立了多媒体实验室。
多媒体实验室通过企鹅云,输出通??解决??案及产品。
2021年,企鹅全新推出“腾讯云音视频”品牌,就是依托于企鹅多媒体实验室的研究成果,为客户提供更高质量、更低成本的音视频通信服务,共创“全真互联”。
首先,是智能媒体的内容生产。
先看智能视频。做过视频的人都知道,视频内容创作的大部分工作量,都集中在视频内容剪辑和渲染上,既费时又费力。
相比于传统的人工剪辑,企鹅云音视频可以提供视频的智能裁剪、智能绿幕替换,还可以实现智能拆条、集锦和封面。
说白了,就是系统基于算法和学习,自动对视频素材进行“深加工”。
以智能裁剪为例。一个横屏制作的视频,如果用户手机竖屏观看,图像要么会变小,要么会被固定裁剪,影响观看体验。有了智能裁剪,系统会自动识别图像中的关键区域,进行最合理的裁剪,让用户看到关键内容。
智能拆条,则是智能识别和分析视频原始素材中人物的动作、事件和表情,自动定位精彩片段,将其提取出来,完成剪辑、配乐等工作,变成精彩视频集锦。
再看智能音乐,这是对音频信号的智能识别、编创。
具体识别对象,可以是歌曲中的鼓点、节奏点或音乐高潮。针对音乐的强度、情绪、风格、情感等维度,对音乐进行理解和打标签。在编创时,支持将音乐中人声、伴奏、吉他、钢琴等音轨分离,
智能音乐有一个非常有趣的能力,它可以自动对歌词进行续写,将一首流行歌改编成rap,中文语境下支持押韵。
基于音频和视频的融合,应用更为广阔,可以实现视频配乐、音乐mv和自动vlog。现在短视频特别流行,通过音视频融合,可以帮助普通创作者针对视频提供推荐音乐、自动生成配乐,或者针对音乐找到符合情绪和律动的视频,大幅降低作品的生产难度。
除了内容创作以外,智能媒体还可以用于视频修复和视频增强。
企鹅多媒体实验室通过深度学习敦煌壁画病害数据,形成自动识别并添加图示的一整套算法,打造出高效的ai壁画病害识别工具。
同时企鹅讯多媒体实验室也开启了对老旧影像资料进行修复的工作,解决老电影抖动、划痕、不清晰等问题,使之可以适配更高清的显示设备。
如果采取人工修复的方式,每人每天只能修复4、 5分钟影片。而基于腾讯云音视频的智能修复方案,修复一部影片只需要几个小时。
再来看看沉浸媒体(也就是vr)的关键技术和解决方案。
vr是元宇宙和全真互联的核心技术,也是音视频最具挑战的领域。
企鹅云音视频,基于企鹅多媒体实验室研发的vr全景技术,可以实现vr360超高清点播和vr360高清实时通信两大核心能力,提供端到端一站式全景导览方案,包括vr园区街景导航、vr360全景景区慢直播、vr数字沙盘、vr360全景会议会展直播,等等。
提升编解码压缩能力,是应用vr的关键。
vr视频因为含有三维的时间和空间信息,所以冗余高,数据体积大,对带宽的要求高。如果不进行适当压缩处理,很难存储、传输和计算,占用的资源会很多。
当前有一种压缩方式,是处理后去除25%的冗余点,但渲染cube边界明显,无传输方面的处理。腾讯多媒体实验室的方案,比这种更接近原片,播放时无明显边界。而且腾讯的方案增加了传输的处理,对可视区域进行切块、渲染播放,能够节省50%的带宽。
在“一部手机游云南·vr全景点播”项目中,基于腾讯云的云渲染paas解决方案,将南头古城以1:1的比例,超精细化还原到了云端,任何人都可以通过小程序畅游古城。
在同等网络条件下,传统4k无切块方案带宽需求大于 9 mbps,而采用了腾讯的8k切块方案后,带宽需求小于 8 mbps。
全景导览方案的四大核心技术,分别是全景拼接、点云空间重建、图像增强、点云数据压缩。
全景拼接,可以通过算法将单张照片拼接为全景照片,算法效果极佳,有效减少了画面变形、畸变。
图像增强,则是通过图像降噪、ai色彩增强技术,增强画面色彩和细节,提升人眼的主观效果。
点云空间重建,是以一个实用性很强的技术。
它可以通过全景图景深估计,重建空间点云模型,展示空间结构。因为算法经过优化,数据可以压缩至原来的六分之一,同时保持主观视觉一致,非常适配移动端展示。
基于点云重建的物体数字化技术,通过非接触式的数据采集,能够重建物体的数字模型,形成数字档案。这一技术,非常适合文物的数据采集、存档和展示,降低文物损坏风险。在零售行业,这些技术也可用于商品信息的采集、归档。
还是前面提到的敦煌研究院合作项目,沉浸式vr远程会诊,基于多媒体实验室的高性能编解码直播引擎,用4k超清画质的360度沉浸式画面,无死角展示洞窟内的景象和文物的细节。
企鹅云音视频解决方案涵盖了智能采集、数据处理和渲染展示等多个环节,具备全景漫游、热点交互、多模式切换、沉浸式展示等多种实用功能。对用户来说,使用过程非常简单。
正如前面所说,音视频技术的研发,是对解决方案提供商综合能力的考验,离不开长期的资源投入和能力沉淀。
说白了,先进的数据压缩算法,强悍的算力硬件,对5g、ai等技术的掌握和运用,是一个优秀音视频解决方案企业的必备条件。
。
↑返回顶部↑