复旦眸思大模型官网入口-办公人导航

复旦大学开发的“复旦·眸思”（MouSi）是一款多模态大模型，旨在通过视觉和语言的深度融合，提升视障人士的生活便利性。该模型由复旦大学自然语言处理实验室（FudanNLP）研发，结合了图文匹配、光学字符识别（OCR）和图像分割等多种视觉任务专家的能力，显著提高了多模态对话任务的表现效果。

复旦眸思大模型官网入口网址：http://mousi.org/

“眸思”模型的核心在于其多模态特性，能够理解并识别图片内容，并将其转化为语言描述，从而帮助视障人士更好地感知周围环境。例如，“听见世界”APP基于“眸思”模型，为视障人士提供了街道行走模式、自由问答模式和寻物模式，帮助他们在日常生活中更安全、便捷地导航和寻找物品。

为了使“眸思”模型更加贴合视障人士的需求，研发团队进行了大量特殊样本训练，并邀请视障人士参与模拟真实情境的测试，以确保模型能够适应更多场景。此外，“眸思”还计划结合AR技术提升定位精度，并在未来升级为基于视频判断的模式，进一步增强其功能。

“复旦·眸思”不仅在科研领域表现出色，还在公益项目中发挥了重要作用。例如，在“听见世界”的公益短片中，“眸思”通过将画面转化为语言描述，帮助视障人士了解和应对潜在风险。此外，该模型还计划与NGO组织、智障中心和硬件厂商合作，让视障人士免费使用相关产品和服务。

“复旦·眸思”大模型通过多模态融合技术，为视障人士提供了一种全新的生活辅助工具，不仅提升了他们的生活质量，也为AI技术在社会公益领域的应用开辟了新的可能性。

相关导航

新一代多模态大模型

基于昇思MindSpore AI框架打造的一站式大模型体验平台

阿里云自主研发的大语言模型

腾讯研发的大语言模型

华为云推出的面向行业的大模型

帮助用户完成特定场景中的多种工作任务

暂无评论...