华盛顿大学将开发“空间语音翻译”技术：许多-R星吃瓜：反差大赛与暗黑吃瓜官网入口

产品

华盛顿大学将开发“空间语音翻译”技术：许多

5月24日在家中，美国华盛顿大学的一项研究表明，可穿戴技术的“空间语音翻译”可以通过双耳耳机在多人对话环境中实时翻译，并可以维持每个讲话者的方向的语音特征和感受。根据ITMedia News昨天的报道，在这项技术的帮助下，耳机可以实时将每个人的话语转换为您自己的语言，同时维护彼此的语音信息和方向信息，从而使您清楚地告诉谁在说什么。与现有的翻译工具相比，该技术解决了两个主要问题：一个是支持许多同时讲话的人，另一个是翻译结果不再相同，而是说明每个说话者的独特语音和方向。研究结合了资源分离，空间定位，实时翻译和等方法双耳渲染以生成一个完整的系统。它从报告中学到的是，团队的三个主要技术突破包括：将空间减少到许多角度区域，并使用神经网络来识别每个区域中的潜在扬声器，以实现准确的资源声音和定位；可以用苹果芯片实时运行的语音翻译模型的构建，该模型可以保持演讲者声音的质量和情感；开发一种双耳渲染方法，以允许翻译的声音来自原始扬声器Enhanceog。在实际测试中，研究人员使用了商用耳机和双耳耳机的可用耳机完成了从法语，德语，西班牙语，在Apple M2芯片中英语的实时翻译。在许多环境中测试了10个主题后，该系统表现出强烈的灵活性。进一步的评论表明，有29名参与者认为，新系统的性能比传统译本更好在许多人的沟通场景中，不仅提高了翻译质量，而且使识别扬声器更容易。此外，在实验空间理解的实验中，用户可以准确判断翻译的语音方向，这与原始配乐非常相似。研究结果：https：//dii.org/10.1145/3706598.3713745

上一篇：Wenjia AI：纸质写作的智能监护人，AIGC工具引导减下一篇：Canalys：中东市场的货物在2025年第1季度下跌了4％

产品

华盛顿大学将开发“空间语音翻译”技术：许多

开元电竞

产品

联系我们

微信扫一扫