
5月24日在家中,美国华盛顿大学的一项研究表明,可穿戴技术的“空间语音翻译”可以通过双耳耳机在多人对话环境中实时翻译,并可以维持每个讲话者的方向的语音特征和感受。根据ITMedia News昨天的报道,在这项技术的帮助下,耳机可以实时将每个人的话语转换为您自己的语言,同时维护彼此的语音信息和方向信息,从而使您清楚地告诉谁在说什么。与现有的翻译工具相比,该技术解决了两个主要问题:一个是支持许多同时讲话的人,另一个是翻译结果不再相同,而是说明每个说话者的独特语音和方向。研究结合了资源分离,空间定位,实时翻译和等方法双耳渲染以生成一个完整的系统。它从报告中学到的是,团队的三个主要技术突破包括:将空间减少到许多角度区域,并使用神经网络来识别每个区域中的潜在扬声器,以实现准确的资源声音和定位;可以用苹果芯片实时运行的语音翻译模型的构建,该模型可以保持演讲者声音的质量和情感;开发一种双耳渲染方法,以允许翻译的声音来自原始扬声器Enhanceog。在实际测试中,研究人员使用了商用耳机和双耳耳机的可用耳机完成了从法语,德语,西班牙语,在Apple M2芯片中英语的实时翻译。在许多环境中测试了10个主题后,该系统表现出强烈的灵活性。进一步的评论表明,有29名参与者认为,新系统的性能比传统译本更好在许多人的沟通场景中,不仅提高了翻译质量,而且使识别扬声器更容易。此外,在实验空间理解的实验中,用户可以准确判断翻译的语音方向,这与原始配乐非常相似。研究结果:https://dii.org/10.1145/3706598.3713745