AI工具集AI大模型

眸思大模型

一款多模态大模型,旨在通过视觉和语言的深度融合,提升视障人士的生活便利性

标签:
流量卡AI工具AI视频

复旦大学开发的“复旦·眸思”(MouSi)是一款多模态大模型,旨在通过视觉和语言的深度融合,提升视障人士的生活便利性。该模型由复旦大学自然语言处理实验室(FudanNLP)研发,结合了图文匹配、光学字符识别(OCR)和图像分割等多种视觉任务专家的能力,显著提高了多模态对话任务的表现效果。

复旦眸思大模型官网入口网址:http://mousi.org/

眸思大模型插图

“眸思”模型的核心在于其多模态特性,能够理解并识别图片内容,并将其转化为语言描述,从而帮助视障人士更好地感知周围环境。例如,“听见世界”APP基于“眸思”模型,为视障人士提供了街道行走模式、自由问答模式和寻物模式,帮助他们在日常生活中更安全、便捷地导航和寻找物品。

为了使“眸思”模型更加贴合视障人士的需求,研发团队进行了大量特殊样本训练,并邀请视障人士参与模拟真实情境的测试,以确保模型能够适应更多场景。此外,“眸思”还计划结合AR技术提升定位精度,并在未来升级为基于视频判断的模式,进一步增强其功能。

“复旦·眸思”不仅在科研领域表现出色,还在公益项目中发挥了重要作用。例如,在“听见世界”的公益短片中,“眸思”通过将画面转化为语言描述,帮助视障人士了解和应对潜在风险。此外,该模型还计划与NGO组织、智障中心和硬件厂商合作,让视障人士免费使用相关产品和服务。

“复旦·眸思”大模型通过多模态融合技术,为视障人士提供了一种全新的生活辅助工具,不仅提升了他们的生活质量,也为AI技术在社会公益领域的应用开辟了新的可能性。

相关导航

暂无评论

暂无评论...