首页 >> 学识问答 >

微软推出Kosmos1一种响应视觉提示的新AI模型

2023-03-06 14:54:33

问题描述：

微软推出Kosmos1一种响应视觉提示的新AI模型，急！求解答，求别让我失望！

随着人工智能 (AI) 聊天机器人之战升温，微软推出了 Kosmos-1，这是一种新的人工智能模型，除了文本提示或消息外，它还可以响应视觉提示或图像。

多模态大型语言模型 (MLLM) 可以帮助完成一系列新任务，包括图像字幕、视觉问答等。

Kosmos-1 可以为 ChatGPT 文本提示之外的下一阶段铺平道路。

“语言、多模式感知、动作和世界建模的大融合是通向通用人工智能的关键一步。在这项工作中，我们介绍了 Kosmos-1，这是一种多模式大型语言模型 (MLLM)，它可以感知一般模式、在上下文中学习并遵循指令，”微软的人工智能研究人员在一篇论文中说。

据 ZDNet 报道，该论文表明，要超越类似于 ChatGPT 的能力，实现通用人工智能 (AGI)，需要在现实世界中进行多模式感知或知识获取和“扎根”。

“更重要的是，解锁多模态输入极大地拓宽了语言模型在更多高价值领域的应用，例如多模态机器学习、文档智能和机器人技术，”论文中写道。

目标是使感知与 LLM 保持一致，以便模型能够看到和说话。

实验结果表明，Kosmos-1 在语言理解、生成甚至直接输入文档图像方面都取得了令人印象深刻的性能。

它还在感知语言任务中显示出良好的效果，包括多模态对话、图像字幕、视觉问答和视觉任务，例如带描述的图像识别(通过文本指令指定分类)。

“我们还表明，MLLM 可以从跨模态迁移中受益，即将知识从语言迁移到多模态，再从多模态迁移到语言。此外，我们还引入了 Raven IQ 测试数据集，它可以诊断 MLLM 的非语言推理能力，”该团队说。

　　免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。