微软自立门户，OpenAI抢占语音，马斯克奇袭编程

周四，微软、OpenAI与马斯克旗下xAI几乎同时推出最新AI模型。这一动作不仅让AI赛道的竞争更显白热化，也让人看到核心技术正以超乎想象的速度迭代。

微软：自研模型，从幕后走到台前

微软这次推出了两款自研AI模型，算是正式从“幕后”走到“台前”，要和OpenAI等行业巨头正面竞争，在高风险的AI领域里掌握自己的主动权。

两款模型各有侧重：MAI-Voice-1是高效语音生成模型，单GPU就能在不到一秒内生成一分钟音频，已开始为Copilot Daily新闻播报和Podcast生成服务；MAI-1-preview是文本模型，未来将集成到Copilot助手中，提升其文本处理能力。

这两款模型的设计都强调“成本效益”。微软AI部门负责人穆斯塔法·苏莱曼透露，MAI-1-preview训练时仅用了约1.5万块英伟达H-100 GPU，远低于xAI Grok模型的超10万块。他说：“现在训练模型的关键不是‘堆算力’，而是选对数据——得在无效的Token上省着点用。”

不过，模型虽更高效了，用户需求和技术发展对算力的依赖却在涨，AI公司的成本压力不小。苏莱曼提到，微软已在全球顶级数据中心启动下一代模型研发，这些中心配备了英伟达新一代芯片GB-200。他们还规划了“庞大的五年路线图”，每个季度都在加码投资。

尽管微软仍在自研模型的早期阶段，但这一动作对其长期竞争力至关重要。有分析认为，微软的最终目标可能是借助Windows和Office的强大分发渠道，用自己的AI模型和基础设施为这些核心产品赋能。

作为AI安全倡导者，苏莱曼近期还撰文提醒“看似有意识的AI”存在风险。他表示，微软正尝试在模型“后训练”阶段，像雕刻一样剔除那些让模型显得有情感、有目标的“表面特征”。“盲目模仿人类的所有能力是有风险的，现在该我们主动思考这些问题了。”

OpenAI：升级语音API，押注“下一个媒介”

同一天，OpenAI发布了目前最先进的语音模型gpt-realtime，并宣布Realtime API正式开放——此前它已公测数月。

“我们相信语音会是下一个主流交互方式，”OpenAI产品负责人迈克达德·贾弗说，“用说话表达比打字更简单、更自然。”

Realtime API此次更新后，新增了远程模型上下文协议（MCP）服务器支持、图像输入和电话呼叫功能。MCP尤其适合语音命令场景，用户能通过连接的应用无缝操作，比如边说“查下明天的天气”边让AI自动打开天气应用。

新模型gpt-realtime也有明显升级：它更“聪明”了，能更稳定地执行复杂指令；支持单句中途流畅切换语言（比如从英语切到西班牙语）；演示版本里，它的声音有起伏，能表达开心、严肃等多种情绪，甚至遇到“越狱”尝试时也能冷静引导对话。此外，它还能分析照片内容，和用户讨论照片里的细节。

贾弗特别强调：“能让模型稳稳执行一组指令，是设计的关键。”为此，OpenAI还推出了两种专供API用户的语音模型Cedar和Marin，从周四起向所有开发者开放。他建议开发者：“做对用户最有好处的事——我们相信语音就是未来。”

xAI：切入编程赛道，主打“快速又经济”

马斯克旗下的xAI也没落下，推出了名为grok-code-fast-1的“快速又经济”智能编程模型，正式进军AI编程领域。

xAI表示，这款模型将在有限时间内免费提供，首批合作方包括GitHub Copilot和Windsurf。其核心优势是“用更小的资源，办更大的事”——以紧凑的体型提供强劲性能，目标是成为处理常见编程任务（如写代码、修bug）的高性价比选择。

AI编程助手的竞争早已白热化：微软的GitHub Copilot已广泛用于企业，其CEO纳德拉4月透露，公司内部20%-30%的代码由AI编写；OpenAI的Codex也早在6月向ChatGPT Plus用户开放。xAI此时入局，无疑让这一赛道的竞争更趋复杂。

三雄竞逐：创新与竞争并行

微软、OpenAI、xAI同一天发布新模型，勾勒出AI行业当下的图景：竞争激烈，创新不断。

微软想通过自研掌握核心技术，强调成本控制和长期布局；OpenAI深耕语音交互，试图定义“下一个媒介”的标准；xAI则用“快速又经济”的编程模型，切入关键应用领域。

三家公司策略不同，但目标一致——推动AI技术边界，把技术融入更多产品和日常。这场“三雄争霸”不仅加速了技术进步，也预示着：未来，AI会更深地渗透到我们的工作和生活中，改变着每一个细节。