文|山自
一句话生成一个世界,正从数字隐喻变为物理现实。当AI不仅能回答“如何冲一杯咖啡”,更能直接操控机器为你递上一杯亲手冲调、温度恰好的咖啡时,我们便站在了一个新时代的门槛上。
本周,一场密集的AI“亮剑”正在上演:阿里“千问”APP正式定位为“会聊天能办事的个人AI助手”;蚂蚁集团“灵光”主打“自然语言30秒生成小应用”;谷歌Gemini 3昨天则以碾压性的多模态和Agent能力震动行业。
这三款产品,不约而同地指向同一个核心:AI的竞争正从“对话的艺术”转向“办事的能力”,从数字世界的比特流,迈向对物理世界的原子进行干预。
AI执行力的三级跃迁
“帮我订一张下周一到北京最早航班的经济舱机票,并用企业账户支付。”——这在过去需要打开App、多次点击和输入才能完成的任务,现在正成为AI“听令即办”的日常。
阿里将“千问”项目视为“AI时代的未来之战”,其野心远不止一个聊天机器人。据「智能涌现」了解,千问APP正计划深度整合地图、外卖、订票、办公、学习、购物、健康等生活全场景。其核心进化在于“Agentic AI”(智能体AI)——一种能理解意图、规划步骤、自主执行任务的新范式。
“阿里计划在未来几个月内逐步为千问增加Agentic AI功能,支持在淘宝、天猫等平台上用自然语言购物。”一位接近阿里的人士透露。这意味着,用户指令从“展示羽绒服”变成了“帮我家人买一件适合零下十度、预算一千五以内的长款羽绒服,要轻便保暖”。AI将自动完成搜索、筛选、比价、尺寸选择,直至下单支付的全过程。
蚂蚁集团的“灵光”则展现了另一种更轻巧的物理世界交互路径。其“闪应用”功能允许用户在30秒内通过自然语言生成可交互的小应用。一位用户体验后感叹:“当我让灵光做一个‘人生计时器’,它生成的应用不仅美观,更让我直观地感受到已流逝和剩余的生命时间,这种震撼源于它将一个抽象概念,变成了可感知、可交互的物理化体验。”
谷歌Gemini 3的发布,则将这种执行力推向了新的高度。其强大的屏幕理解能力(ScreenSpot-Pro得分72.7%)是一项关键技术突破。它意味着AI不再依赖专用的API接口,就能像人一样“看懂”任何软件界面并进行操作。从操作复杂的专业软件到引导你完成手机设置,Gemini 3展示了其作为“万能操作员”的潜质。
这三大产品,清晰地勾勒出AI执行力的跃迁路径:从被动问答到主动任务规划,从信息整合到实物交易,从虚拟助手到物理世界的操盘手。
多模态理解与工具调用的关键突破
AI之所以能迈出虚拟对话框,得益于其在“眼睛”和“手”上的技术突破——即多模态理解和工具调用能力。
谷歌Gemini 3在多项基准测试中展现了碾压性优势。其在涵盖专业、学术领域的“人类终极考试”中取得37.5%的成绩,在高端数学测试MathArena Apex中达到23.4%,大幅领先其他模型。更关键的是,其在终端操作基准测试中的优异表现,为AI操作手机、电脑等物理世界终端设备奠定了性能基石。
阿里的Qwen系列模型同样构筑了坚实的技术底座。Qwen3-Max在考验代码能力的SWE-Bench评测中获得69.6分,在需要深度推理的Tau2 Bench测试上取得突破性的74.8分,超过Claude Opus4等国际顶尖模型。尤为引人注目的是,在首届AI大模型真实投资比赛中,Qwen3-Max以22.32%的收益率赢得比赛。这证明AI已不仅能处理结构化任务,更能在充满不确定性的复杂环境中进行有效决策。
视觉能力的突破是连接物理世界的“临门一脚”。千问APP的“以图搜图”功能可以直接识别现实物品并跳转购物,而灵光的“灵光开眼”可以实时识别摄像头中的物体并提供相关信息。当AI能“看懂”我们所见的世界,它才能真正理解“帮我拿一下桌子上的那本书”这样的指令。
“过去,AI是‘盲人’,只能通过我们的描述来理解世界。现在,它拥有了‘视力’,并能将看到的信息与知识图谱关联。”一位行业分析师指出,“多模态理解让AI从‘文本宇宙’降落在了‘物理地球’。”
从单一App到生活全场景的入口
技术决定了下限,而生态决定了上限。AI应用能否真正融入物理世界,很大程度上取决于其背后生态系统的广度和深度。
阿里正以更加协同的方式推进其AI战略。其内部人士指出,“AI技术革命让阿里多样化的产品和服务有机会产生更大协同效应。”千问APP正试图成为串联起淘宝、天猫、支付宝、高德、饿了么、飞猪等阿里系应用的“超级智能中枢”。用户未来可能只需对千问说一句“我周末想去上海迪士尼”,它就能自动规划行程、订购机票酒店和门票,形成一个无缝的体验闭环。
蚂蚁集团的灵光则扎根于支付宝深厚的金融与本地生活场景。虽然目前尚未完全打通支付宝的核心API,但其想象空间巨大。一旦实现,用户将能通过自然语言直接完成转账、理财、缴费、信用借款等复杂金融操作,将原本需要多步跳转的金融流程,压缩为一句简单的对话。
谷歌凭借其全球化的产品矩阵,为Gemini提供了更广阔的试验场。从搜索到Gmail,从Google Calendar到Maps,Gemini的Agent能力可以渗透到用户数字生活的方方面面,并间接影响物理世界的行为。例如,它可以根据邮件自动添加航班行程到日历,并提醒你出发时间。
这种生态整合的竞争,本质上是“场景密度”的竞争。谁能为AI提供更丰富、更高频的物理世界交互场景,谁的AI就能更快地学习和进化。一位深度用户对比后表示:“千问在购物和本地生活场景明显更懂中国用户,而Gemini在处理复杂信息和全球化任务规划上更胜一筹。”
随着更多生活场景被接入,AI将不再只是回答问题的助手,而是真正能够操办实事的伙伴。摆在所有玩家面前的,是一道共同的难题:如何在确保安全、可靠的前提下,让AI更好地理解并服务于这个复杂而充满不确定性的物理世界。这场竞赛的序幕刚刚拉开,而它的胜利者,将很有可能定义未来十年的人机交互标准与用户体验范式。
上一篇:平安集团拟打造统一AI客户入口