突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4


aihuafeng66t
克里斯蒂亚诺诺 2024-01-06 20:37:57 66207
分类专栏: 资讯

undefined

北京时间12月7日凌晨,期盼已久的谷歌AI大模型Gemini终于发布了!

作为谷歌用来应对GPT-4的“杀手锏”,Gemini也不负众望,一亮相就拿出了许多亮眼的成绩:首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。

其中,Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成,最强大的Gemini Ultra则将在明年发布。

 

01.

三大版本、五种模态

多模态性能全面超越GPT-4V

 

 

作为一个从头开始构建的多模态大模型,Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。

这意味着用户可以自然地交错输入:说几句话,添加图像、文本,或是短视频。同样,模型也会自然地交错文本和图像作为输出。

Gemini具有三个版本:规模最大、功能最强大,适用于高度复杂任务的Gemini Ultra、适用于各种任务的最佳模型Gemini Pro以及适用于端侧设备的Gemini Nano。所谓的端侧,主要是指能在手机、平板、PC上直接运行。

其中,Gemini Nano还包含两个规模,分别是参数18亿的Nano-1和参数32.5亿的Nano-2,针对低内存和高内存设备。Gemini Nano是通过从更大的Gemini模型中提取知识进行训练的,它经过4位量化处理用于部署,并提供最佳性能。

谷歌宣称,Gemini Ultra是首个在MMLU任务上表现优于人类专家的大模型,取得90.0%的成绩。作为对比,人类专家的成绩为89.8%,GPT-4为86.4%。


从测评数据上来看,Gemini的性能在多模态任务上全面超越GPT-4V。

在文本任务上,Gemini Ultra也几乎全方位胜于GPT-4V。

具体来说,Gemini Ultra在32个基准测试中的30个中取得SOTA,还在上周新发布的MMMU多模态推理基准上取得了62.4%的最佳分数,比之前的SOTA模型高出5个百分点以上。

 

02.

解题、写文案、做菜谱

60页技术报告教你玩转Gemini

 

 

“如果回顾在过去几十年时间AI发展的突破性节点,你会发现谷歌在其中参与良多。我认为Gemini,将会继承这个优良的传统。”在谷歌官方发布的视频里,谷歌CEO桑达尔·皮查伊(Sundar Pichai)面带着笑意说道。

皮查伊还发布了一封公开信,以下是公开信全文:

每一次技术转变都是推动科学发现、加速人类进步和改善生活的机会。我相信我们目前所见到的AI的转变将是我们一生中最深远的,远远超过移动技术或互联网的转变。AI有潜力为全球各地的人们创造机会,从日常生活到非凡事物。它将带来新的创新浪潮和经济进步,并在我们从未见过的规模上推动知识、学习、创造力和生产力。

这就是让我兴奋的地方:有机会让AI对全世界的每个人都有帮助。

作为一个以AI为核心的公司,我们已经走过了近八年的旅程,进展的速度只会越来越快:数百万人现在在我们的产品中使用生成式AI来完成以前甚至无法完成的任务,从回答更复杂的问题到使用新工具进行协作和创造。同时,开发人员正在使用我们的模型和基础设施构建新的生成式AI应用程序,全球的初创企业和企业正在借助我们的AI工具实现增长。

这是令人难以置信的势头,然而,我们只是刚刚开始揭开可能性的表面。

我们以大胆和负责任的态度进行这项工作。这意味着我们在研究中有着雄心勃勃的目标,追求能够给人们和社会带来巨大利益的能力,同时建立安全保障,并与政府和专家合作,应对AI变得更加强大时的风险。我们继续投资于最好的工具、基础模型和基础设施,并将它们应用于我们的产品和其他领域,遵循我们的AI原则的指导。

现在,我们正迈向旅程的下一步,推出Gemini,这是我们迄今为止最强大、最通用的模型,具备许多领先基准测试的先进性能。我们的第一个版本,Gemini 1.0,针对不同的规模进行了优化:Ultra、Pro和Nano。这些是Gemini时代的第一个模型,也是我们今年早些时候成立谷歌DeepMind时设想的第一个实现。这一新模型时代代表着我们作为一家公司所进行的最大的科学和工程努力之一。我对未来和Gemini将为全球人们带来的机遇感到真正兴奋。

而作为Gemini的另一大功臣,DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)则给出更为具体的介绍,“Gemini是我们最强大的模型。通过吸收大量的信息,它可以理解我们四周的环境,理解我们的思维方式,并有所产出。”

同时,谷歌也考虑到AI大模型的安全性,提供了一系列保护措施。

谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)在社交平台X贴出了自己团队专门为Gemini写的60页技术报告,来介绍Gemini的能力。

利用Gemini的多模态推理能力,该模型能够读懂凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学排版,识别出学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。

 

网站声明:如果转载,请联系本站管理员。否则一切后果自行承担。

本文链接:https://www.xckfsq.com/news/show.html?id=34891
赞同 0
评论 0 条
克里斯蒂亚诺诺L1
粉丝 0 发表 307 + 关注 私信
上周热门
银河麒麟添加网络打印机时,出现“client-error-not-possible”错误提示  1448
银河麒麟打印带有图像的文档时出错  1365
银河麒麟添加打印机时,出现“server-error-internal-error”  1151
统信桌面专业版【如何查询系统安装时间】  1073
统信操作系统各版本介绍  1070
统信桌面专业版【全盘安装UOS系统】介绍  1028
麒麟系统也能完整体验微信啦!  984
统信【启动盘制作工具】使用介绍  627
统信桌面专业版【一个U盘做多个系统启动盘】的方法  575
信刻全自动档案蓝光光盘检测一体机  484
本周热议
我的信创开放社区兼职赚钱历程 40
今天你签到了吗? 27
信创开放社区邀请他人注册的具体步骤如下 15
如何玩转信创开放社区—从小白进阶到专家 15
方德桌面操作系统 14
我有15积分有什么用? 13
用抖音玩法闯信创开放社区——用平台宣传企业产品服务 13
如何让你先人一步获得悬赏问题信息?(创作者必看) 12
2024中国信创产业发展大会暨中国信息科技创新与应用博览会 9
中央国家机关政府采购中心:应当将CPU、操作系统符合安全可靠测评要求纳入采购需求 8

添加我为好友,拉您入交流群!

请使用微信扫一扫!