近日,实验室陈燚雷博士在人工智能与多模态生成领域取得重要进展,其研究论文“Make You Said That: A Motion-Robust Multi-Knowledge Fusion Framework for Speaker-Agnostic Visual Dubbing”发表在中科院一区Top期刊《Knowledge-Based Systems(KBS)》上。
随着数字经济的发展,虚拟数字人、智能媒体内容生成和人机自然交互成为关键趋势。然而,现有的可视配音技术在自然头部运动条件下容易出现面部伪影和同步问题,影响其效果和实用性。
为解决这些挑战,陈燚雷博士提出了一种新的多知识融合可视配音框架,创新性地引入了3D人脸形变模型(3DMM),将语音驱动的口型生成与高保真图像重建解耦,从而提升了视频生成的自然度和细节还原能力。包含音频-表情映射网络和纹理增强渲染网络,通过高精度的表情参数预测和运动感知机制,实现对大幅头动视频的高保真还原。
此外,在VoxCeleb1与VoxCeleb2数据集上,该方法在PSNR、SSIM、LPIPS等多个指标上全面领先,显示出出色的可泛化性和工业应用潜力,具有广泛的应用前景。
该成果的取得,为人工智能赋能数字内容产业提供了关键技术支撑,助力数字经济高质量发展。