本书详细论述了立体视觉信号质量评价的作用、方法及其性能度量,其中立体视觉信号质量评价方法面向多种立体视觉信号,包括三维图像、合成图像和自由视点视频。本书分为三部分:第一部分论述了立体视觉信号质量评价的发展背景及作用、二维图像质量评价、三维图像质量评价、合成图像质量评价和合成视频质量评价,并论述了方法性能度量;第二部分论述了面向三维图像、合成图像和自由视点视频的质量评价方法,并对其性能进行了详细比较;第三部分总结了全书并介绍了潜在的研究方向。本书对关键问题进行了详细的数学描述,并给出了大量的图示和性能对比表格,以易于读者阅读和理解。本书适合作为高等院校计算机科学与技术和相关专业数字图像处理和计算机视觉课程教材,也可供对视觉质量评价领域感兴趣的人员参考。
立体视觉信号质量评价在多媒体信息管理中不可或缺,具有重要的研究价值和应用价值。本书面向三维图像、合成图像和自由视点视频三种立体视觉信号,论述立体视觉信号质量评价研究工作,旨在让读者了解新式媒体应用中的视觉质量度量问题,从而进一步了解当前科技发展的前沿,如虚拟现实、增强现实、人机交互等。
立体成像技术的迅速发展使得立体视觉信号成为人们生活中重要的多媒体数据,立体成像技术也给人们的日常生活带来了巨大的变化。多媒体立体视觉技术在服务人们日常生活及提升生活质量的同时,也带来了多媒体信息管理的难题。比如,海量的立体视觉信号的质量参差不齐,如何准确地预测立体视觉信号的质量并筛选出低质量立体视觉信号是十分必要的,该操作可以有效地节约存储空间并提高多媒体资源的利用率。另外,随着人们对多媒体立体视觉技术带来的视觉体验要求逐渐增加,如何提升多媒体立体视觉技术成为学术界和工业界追求的目标。立体视觉信号质量评价旨在准确地预测立体视觉信号的质量,是海量立体视觉信号筛选的重要手段。同时,它可为立体视觉信号处理算法优化和立体视觉系统优化提供直接的优化目标。因此,立体视觉信号质量评价在多媒体信息管理中不可或缺,具有重要的研究价值和应用价值。
本书面向三维图像、合成图像和自由视点视频三种立体视觉信号,论述立体视觉信号质量评价研究工作,旨在让读者了解新式媒体应用中的视觉质量度量问题,从而进一步了解当前科技发展的前沿,如虚拟现实、增强现实、人机交互等。本书的主要内容如下:
(1)针对大部分现有三维图像质量评价模型仅考虑高级语义特征融合问题,本书提出融合多层级语义特征的三维图像质量评价模型,它包含一个权值共享的特征提取模块、一个特征融合模块和一个质量回归模块。首先,受多层级视觉感知机制启发,使用一个权值共享的深度卷积神经网络,提取左右视图低级、中级和高级语义特征。其次,考虑到双目视觉特性,构建特征融合模块。该模块先分别融合左右视图的不同层级语义特征,再通过两个卷积操作进一步融合多层级语义特征。最后,构建包含多个全连接网络的质量回归模块,输出三维图像的质量分数。本书在两个常用的三维图像质量评价数据集上进行实验,实验结果表明所提出的模型性能超过了其他对比的模型。
(2)针对当前公开的三维图像质量评价数据集规模过小导致模型性能比较可信度不足的问题,本书开展基于弱监督学习的三维图像质量评价研究。首先,构建首个大规模三维图像质量评价数据集,并自动生成三维图像对的相对质量作为粗粒度标签,生成单一视图质量作为伪标签。其次,利用构建的三维图像质量评价数据集,重新训练当前主流的三维图像质量评价模型,以更加公平的方式比较不同的模型,并探索网络框架、输入尺寸和额外的监督信号对模型性能的影响。所有的测试模型均在当前公开的数据集上测试,实验结果证明了本书构建的三维图像数据集的必要性,并获得了关于三维图像质量评价模型多维度的比较。
(3)针对DIBR过程引入的非均匀失真难度量问题,本书提出结合局部变化感知和全局自然性建模的合成图像质量评价方法。首先,使用局部高斯导数计算图像的局部泰勒展开,用于表征图像局部结构信息。进一步地,使用局部二值模式表示初始结构特征,并使用局部结构特征幅值对初始结构特征进行加权,得到最终的结构特征。同时,计算图像的色度信息和颜色角度信息。类似地,计算得到颜色特征。结构特征和颜色特征共同用于感知局部变化。其次,使用全局自然性度量全局变化,包括亮度自然性和结构自然性。其中,亮度图通过局部归一化操作获得;结构图通过计算合成图与其低通滤波图的差异图得到。最后,结合局部变化和全局自然性共同度量合成图像质量。实验证明,本书提出的方法能够有效地度量合成图像的质量。并且,通过剥离实验证明了局部感知和全局建模在度量合成图像质量变化上的有效性和互补性。
(4)针对当前自由视点视频体验质量评价研究中内容简单、数据量少的问题,开展自由视点视频体验质量评价研究。考虑到应用场景仅有两种(中国男子篮球联赛和综艺节目),本书提出有限场景内的多样化数据收集策略,构建首个大规模自由视点视频体验质量评价数据集。其次,提出从粗至细的两阶段主观数据标注法。第一阶段为挑出确定的样本,即受试者对此类样本的评分一致性概率较高;第二阶段则继续为不确定的样本打分。通过深入分析主观数据,研究深度信息和人物聚集程度对自由视点视频体验的影响。另外,考虑到模型性能和效率的平衡,设计快速、有效的自由视点视频体验质量预测基准模型。率先探索帧稀疏采样对模型性能的影响,测试多种稀疏采样策略。实验证明,仅使用自由视点视频的部分帧,就可以准确地预测整个自由视点视频的体验质量。
本书各章之间的关系如图1所示,内容围绕立体视觉信号展开,具体组织结构如下。第1章是导论,首先介绍立体视觉信号质量评价的作用,然后分别介绍二维图像质量评价、三维图像质量评价、合成图像质量评价、合成视频质量评价研究,最后详细介绍立体视觉信号质量评价方法性能度量。第2章提出融合多层级语义特征的三维图像质量评价框架。考虑双目视觉特性和多层级视觉感知特性,设计融合多层级语义特征的三维图像质量评价模型。该模型使用孪生网络分别提取三维图像左右视图的低、中和高级语义特征,再分别融合不同层级语义特征,最后融合不同层级交互特征,通过非线性映射,得到三维图像质量分数。第3章提出基于弱监督学习的三维图像质量评价框架。针对有限训练集容易造成模型过拟合问题,进而降低模型的可扩展能力,且难以确定不同模型真正的优劣,提出基于弱监督学习的三维图像质量评价框架。为了解决数据量少的问题,构建大型三维图像质量评价数据集(仅包含粗粒度标签和伪标签),并在该数据集上使用排序学习训练不同的基准模型,探究当前主流三维图像质量评价模型性能优劣。进一步地,研究输入大小对模型的影响,以及三维图像对之间的视觉偏好约束和单视图预测约束对模型性能的影响。第4章提出融合局部感知和全局建模的合成图像质量评价方法。针对虚拟合成图像非均匀失真度量难问题,分别使用局部感知度量局部失真引起的质量变化和全局建模度量全局质量变化。其中,使用局部二值模式表征结构信息和颜色信息,感知局部变化;使用全局自然性度量全局变化;结合局部和全局变化度量,计算虚拟合成图像质量分数。第5章开展体验质量研究。本书考虑有限应用场景内的数据多样性,收集多视角合成视频数据,构建一个大规模真实场景下的体验质量评价数据集;提出从粗至细的两阶段主观数据标注法,节省约17%标注人力;结合多种稀疏采样策略,设计快速、有效的体验质量预测基准模型。其中,第2、3章的研究对象是三维图像,第4章的研究对象是合成图像,第5章的研究对象是自由视点视频。第6章提出方法总结与潜在的研究方向,总结本书的研究工作,并指出未来潜在的发展方向。
在本书编写过程中,参考了国内外众多研究者的工作,在此衷心感谢他们对立体视觉信号质量评价工作的贡献。
衷心希望本书能够给读者带来启发,引发更多有意义的研究工作。著者相信,立体视觉技术将得到进一步的发展,造福社会。由于著者水平有限,书中不妥和疏漏之处在所难免,欢迎广大读者批评指正。
著者
2023年6月
鄢杰斌,男,1994年12月生,博士,江西财经大学信息管理学院讲师,专业方向为多媒体处理和人工智能,主授课程包括多媒体技术基础、人工智能实践和学术论文写作等,荣获硕士研究生国家奖学金、博士研究生国家奖学金、江西省博士十佳学术之星、江西财经大学研究生标兵等荣誉。