Kaiyun·官方网站-(中国大陆)登录入口

服务热线热线:

0871-63910365

行业新闻

当前位置: 首页 > 新闻资讯 > 行业新闻

Gemini成为谷歌产品新大脑新视频模型对标SoraXR智能眼镜惊喜亮相

发布时间:2025-05-22点击次数:

  

Gemini成为谷歌产品新大脑新视频模型对标SoraXR智能眼镜惊喜亮相(图1)

  展示了它在实时感知、语境理解、边缘设备运行等方面的全新能力:它能通过手机或智能眼镜识别物体、追踪用户语音指令,并对环境中的动态变化做出快速反应,真正融入人类的现实生活。

  “Astra可以根据它看到的事物选择何时说话。”DeepMind研究总监Greg Wayne表示,“实际上,它一直在持续观察,然后发表评论。”

  这意味着:它能够代表你完成任务,即使你没有明确要求;它还可以根据所看到的内容选择性“发言”,比如指出作业中的错误。

  Project Astra仍然是一个试验项目,公众或许很久都没有机会体验它,但它的升级,代表着谷歌的AI战略野心。它的背后,是谷歌正在以Gemini为核心,构建一个贯穿搜索、创作、办公、助手系统的AI应用世界。

  从文本生成图像与视频,到智能回复邮件和工作流整合,再到与用户实时对话的语音交互——Gemini已不只是聊天工具,而是逐渐成为谷歌全产品线的大脑。

  同时,谷歌还带来了新的模型升级。Gemini 2.5 Pro新增了一种名为Deep Think的强推理模式,该模式专为与数学和编程相关的复杂查询而设计,能够在回应前考虑多种假设,但目前仅向可信测试者开放。

  开启Deep Think模型的模型在多模态推理测试MMMU中获得了84%的准确率。

  该公司还补充说,该模式在2025年美国数学奥林匹克竞赛(USAMO)中取得了“令人印象深刻的成绩”,但并未公布确切分数。

  此外,上个月发布在Pixel手机上的Gemini Live应用将登陆所有兼容的Android和iOS设备,可通过Gemini应用程序使用(谷歌透露该应用已拥有超过4亿月活跃用户)。

  该应用允许用户询问Gemini关于截图的问题,以及手机摄像头正在捕捉的实时视频内容。

  另一个新进展是,谷歌宣布将Gemini进一步集成到Chrome浏览器中。

  从5月21日开始,Google AI Pro和Ultra订阅用户可以看到Chrome中的Gemini按钮,以跨网页总结信息,并帮助他们更好地浏览网站。谷歌计划今年晚些时候让Gemini能够同时处理多个标签页。

  这项功能位于单独的标签页中,旨在处理比传统搜索更复杂的查询。用户可以利用它比较不同品牌的同类商品,或寻找最便宜的门票。该功能将首先向美国用户开放。

  AI Mode还为购物功能带来了重大升级。用户很快就能上传一张自己的照片,来虚拟试穿衣服,查看服装在真实人物上的效果。谷歌正在测试这一新功能,该功能利用“了解人体和服装细微差别”的AI模型来实现试穿效果。

  据谷歌透露,每月已有超过15亿人次看到AI生成的搜索概览(AI Overviews),而且绝大多数用户都以有意义的方式与之互动。

  AI Mode将使用Gemini 2.5模型,并将很快能够根据特定查询生成自定义图表和图形。它还能够处理后续问题,使搜索体验更加连贯自然。

  同时谷歌还推出了名为Search Live的功能,允许用户通过选择AI Mode或Lens中的Live图标,实时讨论手机摄像头看到的内容。这项功能未来将从谷歌Astra项目中汲取灵感,进一步扩展搜索引擎的能力范围。

  作为安全增强措施,Chrome的密码管理器也将得到更新。如果Chrome检测到您的密码已被泄露,浏览器将很快能够“生成强大的替代密码”,并在支持的网站上自动更新它(如果用户同意)。此功能将于今年晚些时候推出。

  AI创作工具是本次大会的另一大亮点。谷歌推出了全新图像生成模型Imagen 4,在输出图像的细节、构图和风格控制上“实现了明显提升”,更擅长处理布料和毛皮等精细细节。

  “Imagen 4可以创建各种宽高比的图像,分辨率高达2k,更适合打印或演示。它在拼写和排版方面也得到了显著提升,让用户可以更轻松地创作自己的贺卡、海报甚至漫画。”谷歌表示。

  而新一代视频生成模型Veo 3不仅提高了生成质量,而且首次可以生成带有音频的视频,包括城市街道场景背景中的交通噪音、公园里鸟儿的歌唱,甚至人物之间的对话。

  结合上述模型的进步,谷歌还推出了一款名为Flow的新型AI电影制作应用,类似于OpenAI Sora。

  它是VideoFX的升级版,使用Veo、Imagen和Gemini来创建基于文本提示和/或图像的视频片段。该工具还提供场景构建工具,可将剪辑拼接在一起,创建更长的AI视频。

  Flow具备摄像机移动和透视控制等功能,允许编辑和扩展现有镜头,还能将Veo模型生成的AI视频内容融入更复杂的项目中。

  Kaiyun网站

  Flow从今天开始向美国的谷歌AI Pro和Ultra订阅用户开放,很快将扩大到其他市场。

  为了帮助用户确定内容是否由AI工具生成,谷歌设计了一种工具,名为SynthID Detector,它可以扫描图像、音频、视频或文本中的SynthID水印,并让用户知道哪些部分可能带有水印。早期测试人员将从今天开始尝试使用这一工具。

  Android XR平台是谷歌为增强现实、混合现实和虚拟现实开发的平台,希望能复制Android系统在智能手机领域的成功。

  基于此,谷歌宣布了第二款官方Android XR设备:Project Aura,一款智能眼镜。

  Xreal和谷歌正在合作开发Project Aura,它将是一款使用Android XR平台的新型智能眼镜。目前关于这款眼镜的信息不多,但它将集成Gemini,拥有大视场,预计将使用高通芯片,以及内置摄像头和麦克风。

  在Android XR的演示中,谷歌展示了实时翻译功能,但使用的是与三星共同开发的智能眼镜(Project Moohan)于今年初公布的)。

  Gmail将大规模引入基于Gemini的智能回复功能,可从用户过往邮件、谷歌云盘文件中提取背景信息,生成更精准、定制化的回复内容。用户在阅读邮件时,也可调出Gemini侧边栏,获取总结、要点提取和后续操作建议。

  谷歌Workspace中的Docs、Sheets、Slides等工具也将陆续集成Gemini,帮助用户更高效地处理长文档、制作数据报告或撰写内容提案。

  谷歌还宣布了一个新的3D视频会议项目,Google Beam。目前仅面向企业客户。

  这套系统也集成了AI技术。它使用光场显示技术,不需要佩戴任何特殊设备,而是通过六个摄像头阵列捕捉不同角度,然后用AI将这些图像拼接在一起,使用头部跟踪功能跟踪用户的动作,并以每秒最高60帧的速度传输。

  最后,谷歌推出了高达每月250美元的AI Ultra订阅计划。这个价格比OpenAI的200美元Pro计划还要贵。

  谷歌表示,该计划将包括对其最新AI工具的早期访问权限,以及无限使用对谷歌来说成本高昂的功能,如NotebookLM、Deep Research和最新推出的Flow,都将解除使用次数上限。此外,它还提供30TB的存储空间,以及YouTube Premium服务。

  可以看出,与尝试统治AI代理生态系统的微软不同,谷歌在此次I/O大会上更多展示的是应用层面的更新,将以Gemini为核心的AI技术全面拓展到自家产品中。

上一篇:Kaiyun:XMOS推出支持AES67标准的以太网音频解决

返回列表

下一篇:618华为音频选购宝典:5款明星产品总有一款是你的菜!