研究人员分享如何利用 AI 技术解决水下图片模糊和着色问题

他们说，这种方法在质量和数量上都与最新技术相匹配，并且能够在单个显卡上以每秒 125 帧的速度进行处理。

该团队指出，大多数水下图像增强算法（例如那些调整白平衡的算法）都不是基于物理成像模型实现，这使其不适用于一些任务。相比之下，这种方法利用了生成式对抗网络（ GAN ）（一种深度学习模型，模型通过框架中两个模块：生成模型和判别模型的互相博弈学习产生相当好的输出），以生成一组特定调查地点的图像并在此基础上引入第二种算法， U-Net 。

研究小组对 GAN 进行了一系列有标记场景的训练，这些场景包括 3733 幅图像和相应的深度地图，主要包括扇贝、海参、海胆和室内海洋农场内的其他此类生物。他们还获得了包括 NY Depth 在内的公开数据集，其中包含了总共数千张水下照片。

训练后，研究人员将双模型方法的结果与基线模型方法的结果进行了比较。他们指出，前者技术的优势在于它在颜色恢复上是统一的，这使它能在很好恢复绿色色调图像的同时，不破坏原始输入图像的底层结构。通常情况下，这种方式在保持“适当的”亮度和对比度的同时，还能设法恢复颜色，而在这方面其他解决方案并不特别擅长。

值得注意的是，这并不是第一个想到利用AI技术从损坏的图片中重建画面的研究团队。剑桥咨询（ Cambridge Consultants ）公司的 AI 系统 DeepRay 利用了一套训练有素的 GAN 来处理 10 万张静止图像的数据集，以消除不透明的玻璃窗格导致的失真。开源 DeOldify 项目使用了包括 GANs 在内的一系列人工智能模型来对旧图像和胶片进行着色和恢复。

在其他方面，微软亚洲研究院（ Microsoft Research Asia ）的科学家在 9 月份详细介绍了一个用于自主视频着色的端到端系统； NVIDIA 的研究人员去年描述了一个框架，该框架仅基于一个被注释过得彩色视频帧推断颜色分类；今年 6 月，谷歌AI团队推出了一种无需人工监督即可对灰度视频进行着色的算法。

venturebeat