Gemini成为谷歌产品新大脑新视频模型对标SoraXR智能眼镜惊喜亮相

发布时间：2025-05-22

点击次数：

Gemini成为谷歌产品新大脑新视频模型对标SoraXR智能眼镜惊喜亮相(图1)

　　展示了它在实时感知、语境理解、边缘设备运行等方面的全新能力：它能通过手机或智能眼镜识别物体、追踪用户语音指令，并对环境中的动态变化做出快速反应，真正融入人类的现实生活。

　　“Astra可以根据它看到的事物选择何时说话。”DeepMind研究总监Greg Wayne表示，“实际上，它一直在持续观察，然后发表评论。”

　　这意味着：它能够代表你完成任务，即使你没有明确要求；它还可以根据所看到的内容选择性“发言”，比如指出作业中的错误。

　　Project Astra仍然是一个试验项目，公众或许很久都没有机会体验它，但它的升级，代表着谷歌的AI战略野心。它的背后，是谷歌正在以Gemini为核心，构建一个贯穿搜索、创作、办公、助手系统的AI应用世界。

　　从文本生成图像与视频，到智能回复邮件和工作流整合，再到与用户实时对话的语音交互——Gemini已不只是聊天工具，而是逐渐成为谷歌全产品线的大脑。

　　同时，谷歌还带来了新的模型升级。Gemini 2.5 Pro新增了一种名为Deep Think的强推理模式，该模式专为与数学和编程相关的复杂查询而设计，能够在回应前考虑多种假设，但目前仅向可信测试者开放。

　　开启Deep Think模型的模型在多模态推理测试MMMU中获得了84%的准确率。

　　该公司还补充说，该模式在2025年美国数学奥林匹克竞赛(USAMO)中取得了“令人印象深刻的成绩”，但并未公布确切分数。

　　此外，上个月发布在Pixel手机上的Gemini Live应用将登陆所有兼容的Android和iOS设备，可通过Gemini应用程序使用（谷歌透露该应用已拥有超过4亿月活跃用户）。

　　该应用允许用户询问Gemini关于截图的问题，以及手机摄像头正在捕捉的实时视频内容。

　　另一个新进展是，谷歌宣布将Gemini进一步集成到Chrome浏览器中。

　　从5月21日开始，Google AI Pro和Ultra订阅用户可以看到Chrome中的Gemini按钮，以跨网页总结信息，并帮助他们更好地浏览网站。谷歌计划今年晚些时候让Gemini能够同时处理多个标签页。

　　这项功能位于单独的标签页中，旨在处理比传统搜索更复杂的查询。用户可以利用它比较不同品牌的同类商品，或寻找最便宜的门票。该功能将首先向美国用户开放。

　　AI Mode还为购物功能带来了重大升级。用户很快就能上传一张自己的照片，来虚拟试穿衣服，查看服装在真实人物上的效果。谷歌正在测试这一新功能，该功能利用“了解人体和服装细微差别”的AI模型来实现试穿效果。

　　据谷歌透露，每月已有超过15亿人次看到AI生成的搜索概览（AI Overviews），而且绝大多数用户都以有意义的方式与之互动。

　　AI Mode将使用Gemini 2.5模型，并将很快能够根据特定查询生成自定义图表和图形。它还能够处理后续问题，使搜索体验更加连贯自然。

　　同时谷歌还推出了名为Search Live的功能，允许用户通过选择AI Mode或Lens中的Live图标，实时讨论手机摄像头看到的内容。这项功能未来将从谷歌Astra项目中汲取灵感，进一步扩展搜索引擎的能力范围。

　　作为安全增强措施，Chrome的密码管理器也将得到更新。如果Chrome检测到您的密码已被泄露，浏览器将很快能够“生成强大的替代密码”，并在支持的网站上自动更新它（如果用户同意）。此功能将于今年晚些时候推出。

　　AI创作工具是本次大会的另一大亮点。谷歌推出了全新图像生成模型Imagen 4，在输出图像的细节、构图和风格控制上“实现了明显提升”，更擅长处理布料和毛皮等精细细节。

　　“Imagen 4可以创建各种宽高比的图像，分辨率高达2k，更适合打印或演示。它在拼写和排版方面也得到了显著提升，让用户可以更轻松地创作自己的贺卡、海报甚至漫画。”谷歌表示。

　　而新一代视频生成模型Veo 3不仅提高了生成质量，而且首次可以生成带有音频的视频，包括城市街道场景背景中的交通噪音、公园里鸟儿的歌唱，甚至人物之间的对话。

　　结合上述模型的进步，谷歌还推出了一款名为Flow的新型AI电影制作应用，类似于OpenAI Sora。

　　它是VideoFX的升级版，使用Veo、Imagen和Gemini来创建基于文本提示和/或图像的视频片段。该工具还提供场景构建工具，可将剪辑拼接在一起，创建更长的AI视频。

　　Flow具备摄像机移动和透视控制等功能，允许编辑和扩展现有镜头，还能将Veo模型生成的AI视频内容融入更复杂的项目中。

　　Flow从今天开始向美国的谷歌AI Pro和Ultra订阅用户开放，很快将扩大到其他市场。

　　为了帮助用户确定内容是否由AI工具生成，谷歌设计了一种工具，名为SynthID Detector，它可以扫描图像、音频、视频或文本中的SynthID水印，并让用户知道哪些部分可能带有水印。早期测试人员将从今天开始尝试使用这一工具。

　　Android XR平台是谷歌为增强现实、混合现实和虚拟现实开发的平台，希望能复制Android系统在智能手机领域的成功。

　　基于此，谷歌宣布了第二款官方Android XR设备：Project Aura，一款智能眼镜。

　　Xreal和谷歌正在合作开发Project Aura，它将是一款使用Android XR平台的新型智能眼镜。目前关于这款眼镜的信息不多，但它将集成Gemini，拥有大视场，预计将使用高通芯片，以及内置摄像头和麦克风。

　　在Android XR的演示中，谷歌展示了实时翻译功能，但使用的是与三星共同开发的智能眼镜（Project Moohan）于今年初公布的）。

　　Gmail将大规模引入基于Gemini的智能回复功能，可从用户过往邮件、谷歌云盘文件中提取背景信息，生成更精准、定制化的回复内容。用户在阅读邮件时，也可调出Gemini侧边栏，获取总结、要点提取和后续操作建议。

　　谷歌Workspace中的Docs、Sheets、Slides等工具也将陆续集成Gemini，帮助用户更高效地处理长文档、制作数据报告或撰写内容提案。

　　谷歌还宣布了一个新的3D视频会议项目，Google Beam。目前仅面向企业客户。

　　这套系统也集成了AI技术。它使用光场显示技术，不需要佩戴任何特殊设备，而是通过六个摄像头阵列捕捉不同角度，然后用AI将这些图像拼接在一起，使用头部跟踪功能跟踪用户的动作，并以每秒最高60帧的速度传输。

　　最后，谷歌推出了高达每月250美元的AI Ultra订阅计划。这个价格比OpenAI的200美元Pro计划还要贵。

　　谷歌表示，该计划将包括对其最新AI工具的早期访问权限，以及无限使用对谷歌来说成本高昂的功能，如NotebookLM、Deep Research和最新推出的Flow，都将解除使用次数上限。此外，它还提供30TB的存储空间，以及YouTube Premium服务。

　　可以看出，与尝试统治AI代理生态系统的微软不同，谷歌在此次I/O大会上更多展示的是应用层面的更新，将以Gemini为核心的AI技术全面拓展到自家产品中。

Kaiyun·官方网站-（中国大陆）登录入口