您现在的位置是:首页 > 综合 > 正文
微软推出Kosmos1一种响应视觉提示的新AI模型
发布时间:2023-03-06 14:54:33编辑:来源:
随着人工智能 (AI) 聊天机器人之战升温,微软推出了 Kosmos-1,这是一种新的人工智能模型,除了文本提示或消息外,它还可以响应视觉提示或图像。
多模态大型语言模型 (MLLM) 可以帮助完成一系列新任务,包括图像字幕、视觉问答等。
Kosmos-1 可以为 ChatGPT 文本提示之外的下一阶段铺平道路。
“语言、多模式感知、动作和世界建模的大融合是通向通用人工智能的关键一步。在这项工作中,我们介绍了 Kosmos-1,这是一种多模式大型语言模型 (MLLM),它可以感知一般模式、在上下文中学习并遵循指令,”微软的人工智能研究人员在一篇论文中说。
据 ZDNet 报道,该论文表明,要超越类似于 ChatGPT 的能力,实现通用人工智能 (AGI),需要在现实世界中进行多模式感知或知识获取和“扎根”。
“更重要的是,解锁多模态输入极大地拓宽了语言模型在更多高价值领域的应用,例如多模态机器学习、文档智能和机器人技术,”论文中写道。
目标是使感知与 LLM 保持一致,以便模型能够看到和说话。
实验结果表明,Kosmos-1 在语言理解、生成甚至直接输入文档图像方面都取得了令人印象深刻的性能。
它还在感知语言任务中显示出良好的效果,包括多模态对话、图像字幕、视觉问答和视觉任务,例如带描述的图像识别(通过文本指令指定分类)。
“我们还表明,MLLM 可以从跨模态迁移中受益,即将知识从语言迁移到多模态,再从多模态迁移到语言。此外,我们还引入了 Raven IQ 测试数据集,它可以诊断 MLLM 的非语言推理能力,”该团队说。
标签:
猜你喜欢
- 美味的蚌肉在哪买(美味的蚌肉哪里多)
- 张艺谋共有几位老婆(张艺谋有几个老婆几个孩子)
- uc头条联系方式(uc头条号注册)
- 打印机属性显示不可用的解决方法(打印机属性显示不可用)
- autocad如何输入尺寸(cadrec怎么输入尺寸)
- 基层自治形式(基层自治)
- 304不锈钢耐温多少度(304不锈钢耐高温多少度)
- 安能 单号查询(安能查询单号查询跟踪)
- 机械指环几级赌(机械指环)
- 直播美颜相机下载(直播美颜摄像头软件)
- 今天摩羯座女的运气怎么样(今天摩羯座女的运气)
- 股票基金赎回几日到账(股票型基金赎回几天到账)
- 我最敬佩的一个人500字作文妈妈(我最敬佩的一个人500字)
- 造四小白龙技能(造4小白龙技能加点)
- 冷读术常用100句(冷读术)
- 开心俱乐部第一季全集在线观看星辰影院(开心俱乐部)
- 四海无闲田农夫犹饿死出自哪首诗(四海无闲田)
- 郑庄公母亲武姜(武姜)
- 研学旅行的意义及感悟800字(研学旅行的意义)
- 微管可视人流和超导可视人流哪个好(什么是超导可视无痛人流)