首页 > 资讯 >

计算机行业跟踪周报299期:MAAS模型即服务日渐趋势 天天简讯

2023-03-12 10:26:27 来源:海通证券股份有限公司


(资料图片仅供参考)

谷歌推出PaLM-E,大模型向机器人控制领域迈进。3 月6 日,谷歌和柏林工业大学的研究团队推出了目前报道的最大的视觉语言模型——PaLM-E(PathwaysLanguage Model with Embodied),参数量高达5620 亿。PaLM-E 是PaLM-540B语言模型与ViT-22B 视觉Transformer 模型的结合,它被称为“PaLM-E”是因为它基于谷歌现有的“PaLM”大语言模型,并使其具体化(Embodied)。PaLM-E会进行连续观察,例如图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。

PaLM-E 是一个仅有解码器的大型语言模型(LLM),在给定前缀或提示下,能够以自回归方式生成文本补全。作为一种多模态具身视觉语言模型,PaLM-E 不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。当得到一个高级命令,如“把抽屉里的米片拿给我”,PaLM-E 可以为带有手臂的移动机器人平台生成一个行动计划,并自行执行这些行动,PaLM-E 通过分析来自机器人摄像头的数据来实现这一目标。另外,PaLM-E 能表现出“正向转移”的特点,这意味着 PaLM-E 可以将从一个任务中学到的知识和技能转移到另一个任务中,相较单任务机器人模型能有更好的表现。根据微软官网,其研究团队也在推动将ChatGPT 的功能扩展到机器人,并通过语言直观地控制多个平台,如机器人手臂、无人机和家庭助理机器人;Sai Vemprala 等发布论文ChatGPT forRobotics: Design Principles and Model Abilities,介绍了关于ChatGPT 用于机器人应用的实验研究。

微软推出多模态AI 模型 Kosmos-1,Meta 也官宣大模型LLaMA。近期,微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容(LLM)的ChatGPT 相比,Kosmos-1 属于多模态大型语言模型(MLLM),目前能同时理解文字与图像内容。微软也于3 月8 日提出了Visual ChatGPT,其包含不同的视觉基础模型,可以使用户通过以下方式与 ChatGPT 互动:(1)不仅发送和接收语言,而且发送和接收图像;(2)提供复杂的视觉问题或视觉编辑指令,这需要多个人工智能模型的协作和多步骤;(3)提供反馈并要求纠正结果。近日, Meta公司也发布了全新的人工智能大型语言模型LLaMA,加入微软、谷歌等公司的AI 竞赛。LLaMA 的参数范围为从70 亿至650 亿,并经过了数万亿个tokens 的训练。在仅拥有十分之一参数的情况下,LLaMA-13B 在大多基准测试中优于GPT-3(175B);并且,LLaMA-65B 相比于业内领先的Chinchilla-70B 和PaLM-540B 也具有竞争力。Meta 在论文LLaMA: Open and Efficient FoundationLanguage Models 中表示,计划将所有的研究社区开源LLaMA 模型系列,并且计划在未来发布在更大的预训练语料库上训练的更大模型。我们认为,伴随众多顶尖科技公司入场AI 大模型领域,行业有望在竞争中持续发展,MaaS 模型即服务有望日渐成为趋势。

GPT-4 即将发布,多模态大模型成为趋势和重要方向。根据德国媒体Heise,在3 月9 日其参加的一场名为“ AI in Focus - Digital Kickoff ”的活动中,微软德国CTO Andreas Braun 表示GPT-4 将在下周正式推出,而且GPT-4 将是多模态的,这将提供完全不同的可能性,例如视频等。除此之外,Andreas Braun 还指出GPT-4 将是一个“改变游戏规则”的技术,因为“他们教机器理解自然语言,然后以统计的方式理解以前只能被人类阅读和理解的内容”。与此同时,GPT-4 已基本“适用于所有语言”,例如可以用德语提问并得到意大利语的回答。 AndreasBraun 认为,通过多模态,微软(OpenAI)将“使模型全面化”。同一活动中,微软德国首席执行官Marianne Janik 还谈到了人工智能对企业带来的颠覆性影响。她将当前的人工智能发展和ChatGPT 的出现比作“iPhone 时刻”,并说道“(新技术)不是要替代我们的工作,而是在以不同于以往的方式去完成重复性的任务。”

我们认为,多模态大模型大大扩展了AI 落地的场景与可能,AIGC 有望覆盖文字、图像乃至视频。从谷歌的PaLM-E 和微软的Kosmos-1 这两款多模态的大模型就能看出,目前多模态大模型已经成为整个AI 大模型发展的趋势和重要方向,随着GPT-4 的发布,我们判断AI 行业的发展有望进入一个全新阶段。

建议关注:商汤-W,云从科技-UW,科大讯飞,格灵深瞳。

风险提示:AI 技术发展不及预期。

关键词

最近更新