华盛顿大学团队打造摄像头耳机VueBuds 实时描述所看到的一切

2026年04月22日 02:47 次阅读 稿源:cnBeta.COM 条评论

4月21日消息,美国华盛顿大学团队展示了一款名为 VueBuds 的新型原型耳机,在常规真无线耳机内嵌入微型摄像头,并结合视觉语言模型(VLM),可以通过语音互动实时描述佩戴者视野中的画面、识别物体并进行翻译,被研究人员形容为“移动端、纯语音版的反向图片搜索”。

VueBuds 的原型基于索尼 WF-1000XM3 无线降噪耳机改造,在耳机外壳中嵌入米粒大小的黑白摄像头,通过内置的视觉语言模型进行本地或低带宽处理,用户只需开口提问,就可以获得对眼前场景的语音描述、物体名称或文字内容的解释与翻译。研究团队在人机交互领域重要会议 CHI 2026 上发表论文,详细介绍了这一系统的设计和实验结果。

项目负责人之一、华盛顿大学保罗·G·艾伦计算机科学与工程学院教授 Shyam Gollakota 表示,团队在设计时充分吸取了Google眼镜的教训——后者因外形突兀、隐私争议巨大,被公众嘲讽为“Glassholes”,最终折戟。Gollakota 指出,相比眼镜,很多人并不喜欢在脸上增加可见设备,而耳机在当下已经是高度普及、社会接受度极高的穿戴形态,因此将视觉功能“藏”进耳机,有望在可用性与隐私感受之间取得更好的平衡。

从硬件层面看,VueBuds 借助低分辨率黑白摄像头和低带宽传输,将功耗控制在 5 mW 以下,并在不使用时自动关闭以节省电量。研究人员称,在一项包含 90 名用户、17 个视觉问答任务的测试中,VueBuds 的回答质量可与内嵌摄像头和大模型的 Ray-Ban Meta 智能眼镜相媲美,显示出将快速发展的视觉语言模型能力带入耳机这一大众设备形态的潜力。

演示视频中,一名佩戴 VueBuds 的男子站在公寓厨房内,提出“请描述我面前的场景”这一请求,大约一秒后,耳机中传来一位语气轻松、模仿人类女声的 AI 回答:“我看到一个厨房区域,有一扇窗户带来大量光线。台面上有一些瓶子和一本书。窗户有百叶帘,左侧有一个水槽。”随后,当他注视一张唱片封面并询问专辑名称时,系统很快识别出这是披头士乐队的《Abbey Road》专辑封面。

根据论文中披露的实验数据,在 16 名参与者的测试中,VueBuds 在物体识别和翻译任务上的正确率约为 83%,在识别书籍标题和作者等任务上正确率约为 93%。研究团队举例称,将来用户有望借助该系统阅读尚未翻译的韩国漫画,或者在中餐馆点“只有中文菜单上才有”的隐藏菜品,而不再受限于自身的语言能力。

针对常见疑问“耳机摄像头位于脸部两侧,是否会被佩戴者自己的头部遮挡视野”,研究人员解释称,VueBuds 借鉴了人类双眼视差的原理,通过两枚摄像头的不同视角进行“立体视觉”融合,从而获得对前方场景的理解能力。不过,受限于目前仅支持黑白画面,VueBuds 无法回答与颜色相关的问题;导航和复杂场景下的高精度翻译仍然需要更高分辨率的彩色摄像头与更强算力支持。

电源和算力限制同样意味着 VueBuds 目前无法连续、高带宽地进行视频流采集与处理,只适合以“拍照+问答”的间断方式使用。尽管如此,研究团队认为,其在能耗、体积和响应速度之间的平衡,已经足以证明这一形态作为“视觉智能平台”的可行性,为未来耳机类设备的功能扩展提供了新方向。

与此同时,隐私与安全风险也成为绕不开的话题。文章指出,几年前曾有公司提出“拍一张照就能识别陌生人姓名”的应用设想,当时网络上流行的反讽回应是:“那样的话,女性会因此而死亡。”VueBuds 在现阶段仅提供有限的安全措施,例如耳机上小小的“工作指示灯”,但观察者往往不会意识到一副耳机正在抓拍图像,而结合音频采集、蓝牙连接和第三方人脸识别服务,这类设备一旦滥用,可能构成“低清仍致命”的严重隐私威胁。

文章指出,若监管部门能够制定并执行有效规则,确保公共安全与个人隐私不受侵害,这类“会看”的耳机设备则有望为视障人士等群体带来显著的便利,极大提升其生活质量与出行、学习、娱乐等方面的自由度。华盛顿大学在官方新闻稿中强调,VueBuds 当前仍处于科研原型阶段,但已展示出将视觉语言模型融入日常穿戴设备的前景,未来可能催生新一代“听得见又看得见”的智能耳机产品形态。

对文章打分

华盛顿大学团队打造摄像头耳机VueBuds 实时描述所看到的一切

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan