为什么VR视频的清晰度不高？

时间：2023-05-30 20:07:00 mtp系列传感器传感器ppd ppd传感器

VR内容的清晰度一直受到广泛关注，也是提高用户沉浸感体验的重要因素。然而，经验VR许多视频用户抱怨：我们看到的是4K甚至是8K但实际观感不如手机1080P的画质。我买了个假VR设备？还是看了个假4k内容？

为什么VR视频的清晰度不够高？也许有几点需要我们澄清。

4k画质不等于4K观感

用户熟悉传统视频的播放，即使用手机，ipad，这些媒体看视频。在我们面前是一个相对较小的屏幕，用户只能盯着屏幕视频观看已经发展多年，在此期间，用户体验的提升主要取决于视频分辨率的提高。从传统的DVD到现在的4K/8K，视频的清晰度已经提高了N倍以上。

图来自网络

提高分辨率有没有尽头，提高分辨率就是提高用户的观看体验？

事实上，屏幕分辨率和实际观看感觉之间还有一个重要指标——PPD（Pixels Per Degree），也就是说，人们从每个角度看到的像素点是衡量视频观看清晰度的核心标准。

以视网膜屏幕手机为例，假设用户距离手机屏幕30cm，手机屏幕在用户视野中的程度约为10度。根据苹果对视网膜屏幕的定义，屏幕宽度约为 600 一个像素，也就是说，相当于每个视角的分配 60 个像素，即 60PPD，这意味着视网膜的视觉效果。

从这个意义上说，4K屏幕分辨率不一定代表超高清观看体验。关键在于人眼能获得多少像素。用户在正常距离观看传统屏幕时，基本上可以看到整个屏幕，因此整个屏幕的分辨率与用户的观看体验相对一致。

但在VR视频这种立体观看场景中，用户拿着放大镜看屏幕，用户只看屏幕的一小块，它对视频分辨率的要求自然会呈指数级上升。

VR眼镜的PPD

图片来自网络

然后，来到第二个问题，用户在距离40CM的2K在2米外的分辨率手机屏幕前，或8米外K电视前的观看体验能达到多少？PPD呢？下图显示了一个粗略的数据。

来自表格数据《VR制定关键技术和自由视角视频标准PPT，北京大学深圳研究生院主讲人王荣刚

可见，看4K电视时，用户的PPD已达80 已超过视网膜显示效果的上限。有研究人员做过相关实验，让不知情的用户分别观看4K和8K电视，然后独立区分电视的清晰度，结果几乎是正确和错误的判断。

但是回到VR上图中的设备VR毫无例外，设备PPD直线下降，远低于60PPD视网膜标准。为什么在VR同样的像素在设备中会如此模糊？

图片自来网络

通常的VR视频，是一个球面模型，用户相当于站在球心向外看，由于人眼视角有限，用户只能同时看到360度球面的一小部分。只有当用户转动视角时，才能看到球面的其他图像。

我们称之为用户看到的区域“视口”（Viewport），即上图中的黄色区域。

这这个时候，我们更容易理解为什么VR不清晰了：如果整个球面是一个4K用户观看的分辨率视频大概只是一个1K x 1K小区域左右分辨率，PPD数值大大降低，画质模糊是必然的。

如何提升VR视频的清晰度

那我们该如何提高呢？VR视频的清晰度呢？如何提高用户体验？

第一种方法是提高视频的分辨率，理论上，只要整个屏幕的清晰度达到一定的高度，VR观感也会相应提升。

但仅仅提高分辨率，4K不清晰就8K，8K不清晰就16K，可以吗？

事实是，这一级别的清晰度、编码、传输和解码的复杂性成倍增加。目前可以对一幅8K全图实时解码的手机设备非常有限，更不用说8了K上述清晰度。

因此，现有硬件设备的性能很快就会达到瓶颈，无法满足如此高清的流媒体播放，不能大规模生产，送到用户面前。

现在市场上VR设备的一般解决方案是：既然用户只能在那里VR如果你在中间看到一个小区域，你只能解码这个小区域的图像，让用户观看。然后更新相应的区域。

由于目前的编码技术基本上是针对矩形图像块编码的，我们可以制作原始图像4x分割，独立编码每个小块。如果原图是8K的(7680x4320)，每个分割后的小块刚好是1080P是的。这样，似乎我们只需要判断用户目前的视野在哪里，覆盖几个小块，然后解码这些小块，渲染到窗口。

这确实可以解决一些问题，减轻一些解码的负担，但这种划分并不理想。从上图中仔细观察，我们可以得到答案：如果用户的视图位于图中，我们需要同时解码9个小块（即解码全图的9/16），但事实上，用户的主要视图是9个中心的1个，边缘的8个小块虽然解码，但只渲染一个小角。解码资源仍然被浪费了很多。

如果细分图片，解码器的数量将增加，一般来说，手机或VR在一体机上，硬件解码器的数量是有限的，不能创建太多，一次开太多硬解码器是不可行的。

针对这个问题，经过一系列的实践，爱奇艺技术团队提出了自己的解决方案，并选择了它Tile为了实现分块编码法VR下的8K技术。

简单地说，是一帧图像，可分为几个矩形子块，每个块的编码参数保持一致，但单独编码。解码的时候只需要把MxN每个块组成一个矩形，每个块的帧数据连接到头部和尾部，并一起输送到解码器。解码图像是一个MxN在渲染过程中，将相应区域渲染到窗口上。这样可以减少解码器的数量。

爱奇艺世界大会现场图

如上图所示，8K视频做了8x8分割，用户视口是黄色区域部分，此时可见12个小块，假设我们把每4个小块组合在一起，形成一个2x2矩形，一起输送到解码器。这个场景只需要三个解码器就可以覆盖。

目前，用户视口内区域的解码显示问题已得到完善的解决。但视口外的大面积仍然是黑暗的。当他迅速将视角转移到其他地方时，用户不能转动视角。

视野外新图像的编码是基于GOP（group of pictures 图片集）对于单位，新图像也需要从GOP起点开始解码，解码帧序列需要时间。因此，当视图快速旋转时，用户会看到没有解码。

爱奇艺世界大会现场图

解决这个问题的方法是然后编码一个相对低清的视频流，比如1080P或者2K，一路视频流和8K图像上的像上完全相同，但分辨率和码率较低。解码时，始终打开1080解码器解码P或2K码流，解码后立即贴在整个渲染球面上，为了防止黑场的出现，首先向用户视频作为一个底部呈现给用户。

爱奇艺世界大会现场图

当用户旋转视角时，若干新的8K Tile解码后，球面的相应位置将被覆盖，以便用户可以看到更清晰的视频。在上图中，假设用户的视野向右移动，原来的红色Tile会移出视口，绿色Tile会移入视口，绿色Tile会在一个GOP内更新。

爱奇艺世界大会现场图

Tile组合非常灵活，只要组成MxN矩形可以，2x2, 2x3, 4x二、均可自由组合。

整个解码渲染架构如上图所示，数据接收后，首先，根据用户此时的姿势命中Tile的计算，在当前视口中获得Tile编号列表。然后将Tile进行组合，2x2或2x3等方式。接下来，把每个组合好Tile给出相应的解码线程，多线程并行开始解码。解码器输出的帧pts同步之后，最后输送给渲染器。渲染器进行反畸变渲染或直接渲染。

图片来自网络

用户目前的态度是由Sensor(传感器)实时给出，从球面坐标到平面直角坐标系的转换，可以获得当前用户视野跨越的经纬度范围，然后得到目前覆盖球面的东西Tile。

这种方法VR流媒体播放设备更加清晰流畅，同时降低了硬件设备的门槛，使其更加清晰流畅VR下的8k观感成为现实。

VR行业标准与未来

LiveVideoStack 2019大会上，Visbit公司CTO周昌印PPT中展示的VR行业标准

事实上，VR设备的使用体验，除清晰度外，还受到很多因素的影响，上图是一个较概括的VR沉浸感指标，下面挑选其中的几项，做展开说明。

1.MTP时延

MTP（Motion-To-Photon）是输入动作(头部转动)与屏幕更新显示(从刷新的屏幕发出的光线)之前的时间。

图片来自网络

这项指标是非常重要的，好的体验要求MTP时延不能大于20ms，如果时延过大，用户转动视角，而画面没有及时更着变化，体验的感觉是非常眩晕的。

2.镜头畸变引起的图像误差

图片来自网络

径向畸变，光线远离透镜中心的地方更弯曲，以上图为例又分为枕形畸变和桶形畸变。通常畸变率要控制在1%左右。

图片来自网络

切向畸变，透镜与相机传感器平面不平行，多是安装偏差导致。图像会像“躺着”一样。

3.单眼，双眼视觉效果对比

图片来自网络

人类是双目视觉动物，在现实中双眼看到的目标是有一定视差的，反应在大脑中就是景物更有立体感，景深明显。

其他的例如分辨率，帧率，色阶更为用户熟知，和普通视频的相应概念也类似，就不再重复说明。

以上是VR播放的一些技术指标，每种指标都直接影响着用户的观感体验。

最后，我们还想聊聊对于VR未来的进展和探索，我们认为主要有以下几个方面：

1.降低编码的码率

图片来自《VR与自由视角视频关键技术与标准制定》PPT，主讲人，王荣刚，北京大学深圳研究生院

视频编码也是随着清晰度的提高不断地更新换代的，根据国家广电总局《5G 高新视频—VR 视频技术白皮书(2020) 》标准，在8KVR清晰度上，尚可使用H.265和AVS2等编码标准。但在今后8K以上的分辨率里，还需要有H.266/AVS3等更先进的标准给予支持。AVS3的预期码率能比AVS2减少一半。

图片来自网络

降低码率还可以通过改变投影方式来实现。传统的ERP(Equirectangular Projection)投影方式，南北极区域被极大的拉伸了，造成很多的像素冗余，给编码带来了额外的码率。

上面的立方体投影和四棱锥投影则是对ERP的改进，可以有效地减少需要编码的像素个数。

2.减少传输负载

图片来自网络

如果360度球面数据全部通过网络传输，显然需要较高的带宽支持。根据用户在VR眼镜中的实际使用数据来看，他们在看视频时很少有180度转向这种行为。所以可以考虑只加载半个球面数据，当用户视角稍转时，更新半球面即可。

同时也可以考虑基于深度学习或AI等预测算法，预测图像中的热点区域和用户未来的行动轨迹，提前加载热点区域的数据，或运动轨迹上的后续数据。

3.优化解码模块

爱奇艺世界大会现场

解码模块可以支持CPU+GPU混合调度，比如CPU仅负责解码清晰度相对较低的兜底背景码流。而GPU负责解码众多的高清Tile。

8x8的划分方式也可以稍做改进，例如南北极区域图像简单，球面模型上的原始像素较少，所以可以把这些区域的Tile划分的大一些，解码时用一个解码器即可覆盖更多的原始图像范围。

4.从3DoF到6DoF

图片来自网络

DoF（degree of freedom）即自由度，是VR技术当中的一个重要指标，指的是物体在空间里面的基本运动方式，总共有前后、左右、上下、前后翻转、左右摇摆以及水平转动6种。关于DoF，这里不做过多解释。总的来说，DoF越多，说明物体在空间中运动的方式越灵活。放到影视标准中同理，DoF越高，允许用户与设备交互的方式也就越多。

0DoF视频	4K/8K视频，看手机，电视的方式
3DoF视频	全景视频(360°视频)，目前大部分VR的观看方式，用户在固定位置，只能旋转自己的头部，但不能走动
6DoF视频	真正的自由交互视频，用户可以在VR场景中任意的走动

图片来自网络

众所周知，自然沉浸的交互体验是VR技术的一贯追求，目前已有很多设备支持6DoF，相信在不久的将来，会有越来越多的人能够感受到VR的深度沉浸效果！

部分图片来源于网络，如有版权问题请及时与我方联系。

也许你还想看

我们都是追梦人——爱奇艺8K VR直播技术方案

一个算法“拿下”两个榜单！爱奇艺ICCV 2021论文提出人手三维重建新方法

爱奇艺携手华为实现5G边缘计算验证网络超低延时助力VR爆发

关注我们，更多精彩内容陪伴你！

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

为什么VR视频的清晰度不高？

相关文章