2025-08-23 08:17来源:本站
通过一种新的软件,可以讲述相机记录的内容,盲人或视力低下的人很快就能进入一个充满色彩和质感的世界。
这个名为WorldScribe的工具是由密歇根大学的研究人员设计的,将在2024年在匹兹堡举行的ACM用户界面软件与技术研讨会上展示。
这项研究的标题是“WorldScribe:迈向上下文感知的实时视觉描述”,并出现在arXiv预印本服务器上。
该工具使用生成式人工智能(GenAI)语言模型来解释相机图像,并实时生成文本和音频描述,以帮助用户更快地了解周围环境。它可以根据用户的命令或物体在相机框架内的时间长短来调整细节水平,音量会自动适应拥挤的房间、繁忙的街道和嘈杂的音乐等嘈杂的环境。
该工具将在美国东部时间10月14日下午6点演示,并在美国东部时间10月16日下午3点15分展示该工具的研究——组织者认为该工具是会议上最好的工具之一。
“对于我们盲人来说,这真的可以彻底改变我们在日常生活中与世界打交道的方式,”参加WorldScribe试验研究的盲人萨姆·劳(Sam Rau)说。
“我对视觉没有任何概念,但当我尝试这个工具时,我得到了真实世界的照片,我对所有的颜色和纹理感到兴奋,否则我无法获得这些,”劳说。
“作为一个盲人,我们有点像在一点点地填补我们周围发生的事情的画面,这可能需要很多精神上的努力来创造一个更大的画面。但这个工具可以帮助我们立即获得信息,在我看来,它可以帮助我们专注于做人,而不是弄清楚发生了什么。我不知道我是否能用语言来表达这对我们来说是一个多么巨大的奇迹。”
在试验研究中,劳戴上了配有智能手机的耳机,在研究实验室里走来走去。手机摄像头将图像无线传输到服务器,服务器几乎立即生成相机框架内物体的文本和音频描述:桌子上的一台笔记本电脑、一堆文件、一台电视和挂在附近墙上的画作。
这些描述会不断变化,以匹配摄像头看到的任何东西,优先考虑离劳最近的物体。瞟一眼桌子,就能看到一个简单的单词描述,但仔细观察,就能看到桌子上放着的文件夹和文件的信息。
该工具可以通过在三种不同的人工智能语言模型之间切换来调整描述中的细节水平。YOLO World模型快速生成非常简单的物体描述,这些物体短暂地出现在相机框架中。在框架中保留较长时间的对象的详细描述由ChatGPT背后的模型GPT-4处理。另一个模型Moondream提供了一个中等层次的细节。
“许多现有的利用人工智能的辅助技术都专注于特定的任务,或者需要某种形式的轮流互动。例如,你拍了一张照片,然后得到一些结果,”计算机科学与工程助理教授、该研究的通讯作者郭安红说。
“为现场体验提供丰富而详细的描述对无障碍工具来说是一个巨大的挑战,”郭说。“我们看到了利用日益强大的人工智能模型实时创建自动化和自适应描述的机会。”
因为它依赖于GenAI,所以WorldScribe还可以响应用户提供的任务或查询,例如用户要求工具查找的任何对象的优先级描述。然而,一些研究参与者指出,该工具在检测某些物体时存在问题,比如滴管瓶。
劳说,目前这个工具在日常使用中仍然有点笨拙,但他说,如果它能被集成到智能眼镜或其他可穿戴设备中,他就会每天使用它。
研究人员已经在密歇根大学创新伙伴关系的帮助下申请了专利保护,并正在寻找合作伙伴来帮助改进技术并将其推向市场。
郭还是密歇根大学信息学院的信息助理教授。
更多信息:Ruei-Che Chang等,WorldScribe: Towards Context-Aware Live Visual description, arXiv(2024)。DOI: 10.1145/3654777.3676375期刊信息:arXiv由密歇根大学提供引文:人工智能驱动的软件实时为视障碍人士讲述周围环境(2024年,10月10日)检索自2024年10月10日https://techxplore.com/news/2024-10-ai-powered-software-narrates-visually.html此文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。