老胡茶室
老胡茶室
Beta

开启智能体未来:Microsoft Build 和 Google I/O 2025 大会亮点


本文是对于 Google I/O 和 微软 Build 大会的总结,基于视频自动生成的字幕完成,可能有存在有错别字,😄。

概述

科技巨头们正加倍投入人工智能时代,特别关注使人工智能能够自主执行任务的智能体能力。微软(在 Build 大会上)和谷歌(在 I/O 大会上)均发布了其平台和产品的重大进展,旨在赋能开发者构建这些复杂的智能体,并将其深度整合到工作流和用户体验中。核心主题包括:内置人工智能的开发工具的演进、智能体市场的创建、多模态人工智能能力的增强、将人工智能扩展到边缘和新型设备(如 AR/XR 眼镜),同时强调安全性、治理和企业就绪性。

术语

  • 智能体网络/应用程序 (Agentic Web/Applications):一种概念,指人工智能智能体能够独立或协作地在网络服务、应用程序和数据源之间执行复杂任务。
  • IDE (集成开发环境):为计算机程序员提供软件开发综合设施的软件(例如 Visual Studio、VS Code)。
  • Copilot:由 GitHub/Microsoft 开发的人工智能结对程序员,正朝着能够处理分配任务的自主“结对程序员”方向演进。
  • SRE (站点可靠性工程):一门将软件工程原则应用于 IT 运营的学科,确保系统的可靠性和可用性。
  • RAG (检索增强生成):一种人工智能技术,通过允许大型语言模型 (LLM) 在生成响应之前从外部来源检索相关信息,从而提高其输出质量。
  • Foundry (Azure):微软的端到端平台,旨在大规模构建、训练、部署和管理人工智能模型和智能体。
  • Purview (Azure):微软的统一数据治理解决方案,帮助组织管理和治理数据。
  • Entra ID (Azure):微软基于云的身份和访问管理服务(前身为 Azure Active Directory),用于保护身份和管理访问。
  • Defender (Azure):微软的综合安全套件,提供威胁防护和安全管理。
  • MCP (多摄像头感知 - 上下文定义):在 Windows 环境中,一种系统,可在人工智能兼容的客户端和服务器之间实现安全通信和发现,从而促进文件系统访问、设置控制和窗口操作等功能。
  • WSL (适用于 Linux 的 Windows 子系统):一个兼容层,用于在 Windows 上本地运行 Linux 二进制可执行文件。
  • Fabric (Microsoft):微软的统一数据平台,旨在整合各种数据和分析工具。
  • 数字孪生 (Digital Twin):物理对象、过程或系统的虚拟副本,常用于模拟、监控和分析。
  • ETL (提取、转换、加载):一个用于从各种来源收集数据、将其转换为可用格式并加载到目标系统(如数据仓库)的过程。
  • Gemini (Google):谷歌的大型语言模型和多模态人工智能模型系列。
  • Beam (Google):谷歌全新的人工智能优先视频通信平台,将 2D 视频转换为逼真的 3D 体验。
  • Project Mariner (Google):一个研究原型智能体,旨在与网络交互并自主执行任务。
  • 智能体模式 (Agent Mode) (Google Gemini App):一项功能,使 Gemini 应用程序能够使用 Project Mariner 等智能体根据用户请求执行复杂的、多步骤的任务。
  • 个人上下文 (Personal Context) (Google):允许人工智能模型(经用户许可)访问并使用用户 Google 应用程序(如 Gmail、云端硬盘)中的相关数据,以个性化交互和任务执行。
  • 深度思考 (Deep Think) (Google):Gemini 模型的实验模式,旨在通过高级推理技术突破性能极限。
  • 世界模型 (World Model) (Google):一个雄心勃勃的人工智能模型概念,能够模拟真实世界的各个方面,从而实现规划和想象。
  • Project Astra (Google):谷歌的项目,专注于构建能够通过多种模态(视觉、听觉、语音)理解世界并与之交互的通用智能体。
  • 人工智能模式 (AI Mode) (Google Search):一种增强的 Google 搜索体验,使用人工智能总结信息、提供个性化建议并整合多模态搜索。
  • 深度搜索 (Deep Search) (Google):一种高级搜索功能,执行大量并行搜索以生成详细的专家级报告。
  • 实时搜索 (Search Live) (Google):一项使用设备摄像头实现实时视觉搜索和上下文感知信息叠加的功能。
  • Imagine 4 (Google):谷歌最新的最先进文本到图像生成模型。
  • Veo3 (Google):谷歌最新的最先进文本到视频生成模型,现已包含原生音频生成。
  • Lyria 2 (Google):谷歌专门用于生成高保真音乐和专业级音频的人工智能模型。
  • Synth ID (Google):谷歌用于在生成媒体(图像、音频、文本、视频)中嵌入不可见水印以进行识别的技术。
  • Flow (Google):谷歌全新的人工智能驱动工具,专为创建视频和电影而设计。
  • Android XR:谷歌的扩展现实 (XR) 设备平台,可在 AR 眼镜等硬件上实现人工智能驱动的体验。
  • Project Muhan (Samsung):三星在其首款基于 Android XR 平台的设备上的代号。

主要观点

微软:构建智能体网络和企业人工智能平台

微软描绘了一个基于可扩展平台的“开放智能体网络”的全面愿景。这包括在其开发工具、云基础设施和终端用户产品中深度嵌入人工智能能力。

实施:

  • 开发工具:增强 Visual Studio、VS Code 和 GitHub,包括在 VS Code 中开源 Copilot。Copilot 从协助编码员的“结对程序员”演变为能够通过 GitHub issue(bug 修复、功能、维护)自主承担并完成开发任务的“结对程序员”。
  • 将 Microsoft 365 作为智能体接口:将 M365 应用程序(聊天、搜索、笔记本、创建)定位为“人工智能的用户界面”,实现与智能体的交互。特别强调了“研究员”智能体(通过链式思考推理综合网络和企业数据)和“分析师”智能体(处理原始数据以获取洞察、预测、可视化)。
  • 智能体商店 (Agent Store):一个新的市场,允许开发者将自定义智能体发布并分发给 Copilot 和 Teams 中的数亿用户。
  • Azure Foundry:作为企业级人工智能的核心平台。它支持使用最少的代码构建和编排声明式和多智能体工作流。Foundry 支持多模型能力(包括来自 XAI 的 Grok 加入 Azure),允许跨模型配置吞吐量,并与 Azure Container Apps 和 AKS 等 Azure 服务紧密集成以进行部署。
  • 企业安全与治理:在 Foundry 和 Copilot Studio 中构建的智能体通过 Entra ID 获得身份、权限和访问控制。Purview 确保智能体的端到端数据保护,Defender 保护智能体免受威胁,将其集成到企业安全态势中。
  • Copilot 微调 (Copilot Tuning):一项新功能,允许企业根据自己的数据、工作流和独特的语气微调 Copilot 模型,从而实现上下文感知和公司特定的人工智能协助。
  • 边缘和客户端人工智能:引入 Foundry Local,用于直接在边缘设备和客户端(Windows、Mac)上开发和运行人工智能应用程序/智能体。Windows AI Foundry 提供了一个平台,支持跨不同硬件(CPU、GPU、NPU)和云的完整人工智能开发生命周期。Windows 中原生的 MCP 支持实现了人工智能客户端和系统级服务器之间的安全通信。“NL web”允许轻松将现有网站/API 转换为智能体应用程序。
  • 数据集成:Cosmos DB(用于对话历史记录、RAG)、Azure Databricks 和 Fabric(统一数据平台)与 Foundry 深度集成,使企业数据可供人工智能随时使用。允许在 PostgreSQL 查询中直接响应 LLM,并在 Fabric 中提供人工智能驱动的 ETL 功能。
  • 扩展和发现:Azure 将托管最大的基于 GB200 的超级计算机。Microsoft Discovery 是一项新举措,通过理解专业领域知识,将这种完整的人工智能堆栈应用于加速科学研发。

谷歌:推进 Gemini 模型并将人工智能整合到日常体验中

谷歌展示了其核心 Gemini 模型以及其在广泛的消费者和企业产品以及新型硬件设备中的普遍集成方面的显著进展。

实施:

  • Gemini 模型进展:更新了 Gemini 2.5 Pro 和 Flash,在基准测试(推理、代码、长上下文)中显示出改进的性能。引入了“深度思考”这一用于增强推理的实验模式。持续致力于能够模拟现实的“世界模型”。新的多模态能力,如多说话人文本到语音、高级图像生成 (Imagine 4)、带原生音频的视频生成 (Veo3) 以及音乐生成 (Lyria 2)。
  • 产品中的人工智能集成
    • Gemini 应用程序:引入了“智能体模式”,利用“Project Mariner”等智能体执行复杂的网络任务(例如,查找公寓)。整合了“个人上下文”,在用户许可下使用其他 Google 应用程序(Gmail、云端硬盘)中的数据来个性化响应。添加了“Gemini Live”,实现自然、对话式的交互,支持摄像头和屏幕共享。“深度研究”现在支持上传用户文件,并很快将集成云端硬盘/Gmail 数据。
    • 搜索:在 Google 搜索中推出了“人工智能模式”,提供人工智能驱动的摘要、个性化建议(基于过去的搜索和可选的 Google 应用程序数据)、用于生成详细报告的“深度搜索”以及使用设备摄像头进行实时视觉上下文和信息的“实时搜索”。
    • 编程:继续支持 Gemini Code Assist 和异步编程智能体“Jules”(现已进入公开测试阶段)等编程工具,以应对复杂的代码任务。
    • Chrome:引入了“Chrome 中的 Gemini”作为理解当前查看网页上下文的人工智能助手。
    • 购物:新的 AI 购物功能,包括使用自定义图像生成模型和智能体结账功能的“虚拟试穿”功能。
    • 画布 (Canvas):一个用于协同创建的交互式空间,允许用户将人工智能生成的报告转换为各种格式,如网页、信息图、测验或播客。
  • 新的人工智能体验和硬件
    • Google Beam:一个新颖的人工智能优先视频通信平台,使用人工智能从多个摄像头流创建逼真的 3D 体验。
    • Android XR:与三星(Project Muhan 设备)和高通合作开发的新平台,用于构建扩展现实体验。展示了轻型眼镜上的人工智能能力,配备摄像头、麦克风和可选的镜内显示器,实现了与 Gemini 的多模态交互(视觉、听觉、信息显示)。与 Gentle Monster 和 Warby Parker 等眼镜公司合作。
    • Flow:一款专为电影制作人设计的新型人工智能工具,结合了 V、Imagine 和 Gemini 的功能,可实现一致的角色/场景生成和视频创作中的精确摄像机控制。
  • 安全与企业:引入了“Synth ID 检测器”来识别各种生成媒体类型(图像、音频、文本、视频)中的水印。Google Meet 中正在推出实时语音翻译,包括企业可用性。企业可以访问 Lyria 2 音乐生成。

改进与创新

两家公司都展示了显著的创造性飞跃和改进:

  • 智能体自主性与生态系统:微软将 Copilot 定位为能够自主承担分配任务的“结对程序员”,并建立智能体商店,是迈向去中心化人工智能生态系统的关键举措。谷歌在 Gemini 应用程序中的智能体模式和 Project Mariner 显示了向自主网络交互的类似推动。
  • 深度企业集成:微软将 Foundry 智能体与 Entra ID、Purview 和 Defender 紧密集成,为在企业中部署智能体提供了强大、安全且合规的框架——这是采用的关键因素。Copilot 微调提供了深度定制。
  • 多模态扩展:谷歌的 Project Astra、实时搜索以及在 Android XR 眼镜上展示的功能,代表着超越文本和静态图像,向实时、摄像头驱动、上下文理解和与物理世界交互的重大推动。他们新的带原生音频生成的 Veo3 模型和用于音乐的 Lyria 2 也是媒体生成方面的创新步骤。
  • 新颖的接口和设备形态:Google Beam 的 3D 视频通信和 Android XR 眼镜代表了探索用户与人工智能交互的全新方式,超越屏幕,走向沉浸式和上下文感知的体验。
  • 人工智能能力的普及:使医疗保健智能体编排器(Microsoft Foundry)、虚拟试穿(Google 搜索)和人工智能电影制作(Google Flow)等工具更易于访问,旨在将复杂的人工智能能力带给更广泛的用户和开发者。在 VS Code 中开源 Copilot 和 WSL 也符合这一目标。
  • 数据-人工智能协同:微软将 Foundry 与其数据平台(Cosmos DB、Fabric、Databricks,甚至 PostgreSQL 中的 LLM)深度集成,突显了在使数据无缝可用并可操作于智能体和人工智能工作流方面的创造力。

洞察

关键的启示是,我们正迅速迈向一个以智能体为中心的未来。人工智能不再仅仅是生成文本或图像的工具;它正在成为一个能够理解上下文、规划、执行复杂任务并通过多种模态与世界交互的自主实体。

  • 开发者是关键:两家公司都认识到,构建这个未来需要赋能开发者。对增强的 IDE、编程助手、全面的人工智能平台 (Foundry, Vertex AI) 以及智能体市场/库的关注凸显了这一点。开发者心智份额的竞争将非常激烈。
  • 平台之争加剧:Azure Foundry 和谷歌的 Vertex AI/Gemini 平台显然正在争夺企业级人工智能和智能体构建和部署的首选基础设施。模型管理(多模型、吞吐量)、编排、安全和数据集成方面的功能是竞争的焦点。
  • 上下文和个性化至关重要:谷歌的个人上下文和微软的 Copilot 微调等功能强调了有效的智能体需要访问用户特定或公司特定数据和上下文才能真正有帮助的理解。管理这些数据的隐私和安全至关重要。
  • 人工智能正在走出屏幕:对 AR/XR(通过 Android XR)的推动以及对摄像头/麦克风输入(实时搜索、Project Astra)的强调,标志着人工智能将更深入地融入我们的物理环境,提供实时、上下文感知的协助。
  • 安全和治理是基础:对安全、身份、数据治理和水印(Entra ID、Purview、Defender、Synth ID)的突出提及,反映了行业日益增长的意识和监管压力。强大的保障措施对于人工智能的广泛采用是必要的,特别是对于在敏感企业系统中运行的自主智能体。

预测:

  • 我们将看到高度专业化的智能体出现在特定行业和角色中(如微软用于科学的 Discovery、SRE 智能体、医疗保健智能体)。
  • 智能体市场将成为软件分发的重要渠道。
  • 边缘设备和智能眼镜等新型设备上的人工智能能力将迅速发展,带来新颖的用户体验。
  • 智能体及其与不同平台和数据源交互的互操作性和标准将变得越来越重要。

建议:

  • 开发者应开始尝试构建和编排智能体,理解 RAG、多模态以及自主系统交互设计等概念。
  • 企业应评估智能体人工智能如何自动化复杂工作流,并探索 Azure Foundry 或 Google Vertex AI 等平台,同时密切关注安全和数据治理功能。
  • 用户应熟悉与人工智能智能体的交互,并了解如何管理其“个人上下文”和权限。

参考文献