周四,微软、OpenAI与马斯克旗下xAI几乎同时推出最新AI模型。这一动作不仅让AI赛道的竞争更显白热化,也让人看到核心技术正以超乎想象的速度迭代。
微软:自研模型,从幕后走到台前
微软这次推出了两款自研AI模型,算是正式从“幕后”走到“台前”,要和OpenAI等行业巨头正面竞争,在高风险的AI领域里掌握自己的主动权。
两款模型各有侧重:MAI-Voice-1是高效语音生成模型,单GPU就能在不到一秒内生成一分钟音频,已开始为Copilot Daily新闻播报和Podcast生成服务;MAI-1-preview是文本模型,未来将集成到Copilot助手中,提升其文本处理能力。
这两款模型的设计都强调“成本效益”。微软AI部门负责人穆斯塔法·苏莱曼透露,MAI-1-preview训练时仅用了约1.5万块英伟达H-100 GPU,远低于xAI Grok模型的超10万块。他说:“现在训练模型的关键不是‘堆算力’,而是选对数据——得在无效的Token上省着点用。”
不过,模型虽更高效了,用户需求和技术发展对算力的依赖却在涨,AI公司的成本压力不小。苏莱曼提到,微软已在全球顶级数据中心启动下一代模型研发,这些中心配备了英伟达新一代芯片GB-200。他们还规划了“庞大的五年路线图”,每个季度都在加码投资。
尽管微软仍在自研模型的早期阶段,但这一动作对其长期竞争力至关重要。有分析认为,微软的最终目标可能是借助Windows和Office的强大分发渠道,用自己的AI模型和基础设施为这些核心产品赋能。
作为AI安全倡导者,苏莱曼近期还撰文提醒“看似有意识的AI”存在风险。他表示,微软正尝试在模型“后训练”阶段,像雕刻一样剔除那些让模型显得有情感、有目标的“表面特征”。“盲目模仿人类的所有能力是有风险的,现在该我们主动思考这些问题了。”
OpenAI:升级语音API,押注“下一个媒介”
同一天,OpenAI发布了目前最先进的语音模型gpt-realtime,并宣布Realtime API正式开放——此前它已公测数月。
“我们相信语音会是下一个主流交互方式,”OpenAI产品负责人迈克达德·贾弗说,“用说话表达比打字更简单、更自然。”
Realtime API此次更新后,新增了远程模型上下文协议(MCP)服务器支持、图像输入和电话呼叫功能。MCP尤其适合语音命令场景,用户能通过连接的应用无缝操作,比如边说“查下明天的天气”边让AI自动打开天气应用。
新模型gpt-realtime也有明显升级:它更“聪明”了,能更稳定地执行复杂指令;支持单句中途流畅切换语言(比如从英语切到西班牙语);演示版本里,它的声音有起伏,能表达开心、严肃等多种情绪,甚至遇到“越狱”尝试时也能冷静引导对话。此外,它还能分析照片内容,和用户讨论照片里的细节。
贾弗特别强调:“能让模型稳稳执行一组指令,是设计的关键。”为此,OpenAI还推出了两种专供API用户的语音模型Cedar和Marin,从周四起向所有开发者开放。他建议开发者:“做对用户最有好处的事——我们相信语音就是未来。”
xAI:切入编程赛道,主打“快速又经济”
马斯克旗下的xAI也没落下,推出了名为grok-code-fast-1的“快速又经济”智能编程模型,正式进军AI编程领域。
xAI表示,这款模型将在有限时间内免费提供,首批合作方包括GitHub Copilot和Windsurf。其核心优势是“用更小的资源,办更大的事”——以紧凑的体型提供强劲性能,目标是成为处理常见编程任务(如写代码、修bug)的高性价比选择。
AI编程助手的竞争早已白热化:微软的GitHub Copilot已广泛用于企业,其CEO纳德拉4月透露,公司内部20%-30%的代码由AI编写;OpenAI的Codex也早在6月向ChatGPT Plus用户开放。xAI此时入局,无疑让这一赛道的竞争更趋复杂。
三雄竞逐:创新与竞争并行
微软、OpenAI、xAI同一天发布新模型,勾勒出AI行业当下的图景:竞争激烈,创新不断。
微软想通过自研掌握核心技术,强调成本控制和长期布局;OpenAI深耕语音交互,试图定义“下一个媒介”的标准;xAI则用“快速又经济”的编程模型,切入关键应用领域。
三家公司策略不同,但目标一致——推动AI技术边界,把技术融入更多产品和日常。这场“三雄争霸”不仅加速了技术进步,也预示着:未来,AI会更深地渗透到我们的工作和生活中,改变着每一个细节。
