告别面瘫:EMO机器人掌握口型同步并学会准确模拟人类面部表情

IT之家1月17日消息 科技媒体 New Atlas 今天(1月17日)发表博文报道,哥伦比亚大学创意机器实验室开发出一款名为 EMO 的机器人面部系统,旨在解决人形机器人“恐怖谷”效应的一个关键环节:唇型与声音的完美同步。来源:哥伦比亚大学创意机器实验室 与传统的预编程机器人不同,EMO 具有自学习能力,可以通过观察人类行为来优化面部表情,让交互体验更接近《西部世界》的科幻设定。 EMO 没有硬壳,而是覆盖着柔软的硅胶皮肤,感觉更像真人。在这层皮下,研究人员精确放置了 26 个小型电机(执行器)。这些引擎以各种组合方式工作,以精细拉伸皮肤,允许微妙的面部表情并控制唇形的变化。这种硬件架构给了EMO很大的自由度让它能够模拟复杂的表情,从微笑到惊讶。为了帮助 EMO 获得面部控制技能,研究人员引入了“愿景到行动”(VLA)语言模型。训练开始时,团队将EMO放在镜子前,要求他做出数千个随机面部动作。 EMO 通过摄像头照镜子,分析运动命令与由此产生的面部表情之间的因果关系。这个过程类似于人类婴儿通过模仿和观察自己来学习肌肉控制的过程,并允许机器人建立内部本体感觉模型。建立基本运营模型后,EMO进入高级培训阶段。机器人观看了几个小时的 YouTube 人类说话和唱歌视频,系统通过分析视频的音频特征和相应的嘴型变化来映射听觉和视觉信号。结合之前建立的VLA模型,EMO最终可以生产出输出合成语音时实时高度一致的嘴唇运动。还可以在说话前几毫秒预测和调整嘴巴的形状。目前,EMO 在处理“B”和“W”等闭唇声音方面仍然存在小缺陷,但其核心架构非常有前途。研究人员指出,随着训练数据的增加,这些问题将逐渐得到解决。未来,该团队计划将 EMO 与 ChatGPT 和 Gemini 等先进对话式 AI 集成。 IT主页附参考地址
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”的userios上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注