谷歌gemini吧 关注:26贴子:64
  • 1回复贴,共1

什么是谷歌Gemini

只看楼主收藏回复

谷歌宣布推出新一代多模态大模型Gemini,包括三个版本:Gemini Ultra、Pro和Nano。Gemini在32个基准测试中达到30个SOTA,在多模态任务中表现出色,在阅读论文、更新图表和识别图片等任务中表现优秀。Gemini采用原生多模态技术,从一开始就对不同的模态进行预训练,并通过额外的多模态数据对其进行微调。谷歌表示,这样的方法可以更好地执行更具概念性和复杂推理的任务。


IP属地:甘肃来自iPhone客户端1楼2023-12-07 21:41回复
    多模态的史诗级创新
    以前,多模态大模型就是将纯文本、纯视觉和纯音频模型拼接在一起,就像OpenAI的GPT-4、DALL·E和Whisper那样。然而,这并不是最优解。
    相比之下,在设计之初,多模态就是Gemini计划的一部分。
    从一开始,Gemini就在不同模态上进行了训练。随后,研究人员又用额外的多模态数据进行了微调,进一步提升了模型的有效性。最终,实现了「无缝」地理解和推理各种模态的输入内容。
    从结果上来看,Gemini的性能要远远优于现有的多模态模型,而且它的功能几乎在每个领域都是SOTA级别的。
    而这个最大、最有能力的模型,也意味着Gemini可以用和人类一样的方式理解我们周围的世界,并且吸收任何类型的输入和输出——无论是文字,还是代码、音频、图像、视频。


    IP属地:甘肃来自iPhone客户端2楼2023-12-08 16:25
    回复