Google研究团队提出可聆听理解语音内容的AudioPaLM模型，并且能自动生成口说内容

游研社 • 2023年6月26日 09:52 • 玩家投稿

谷歌研究团队近期提出一项名为AudioPaLM的大型自然语言模型，将能实现语音内容聆听理解，并且自动生成口说内容。

AudioPaLM的背后是由PaLM 2与AudioLM两种模型组合，并且对应多模运作框架，使其能聆听、理解语言内容，并且藉由自动生成式人工智能产生口说内容。

除了识别语音内容，并且进行自然互动之外，AudioPaLM更可对应多种语言翻译功能，因此预期未来将能直接聆听特定口语内容，随即转换成另一种语言呈现或许将能带动更多跨语言沟通的便利性。

不过，目前此项技术仍处于研究阶段，谷歌方面并未透露是否会将此技术应用在旗下诸如谷歌翻译等服务，或是作为其他产品、服务应用。

0 0