类 Manus 的 UI Agent 完全是个伪需求,前端已经没活路了
现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。
但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。
让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。
感谢 lawted 的推荐:《反对对话式界面( LUI )的理由》
这篇文章对比了自然语言和 UI 控件的 [信息传输效率] 方面的差异,对思考交互模式的发展挺有帮助的
英文原版: julian.digital/2025/03/27/the-case-against-conversational-interfaces/
知乎翻译: zhuanlan.zhihu.com/p/1890449038282846235
那你问问美团、滴滴舍不舍得砍掉他们的营销前台呢
要不你先做一个出来,革掉大厂的命?
要是大厂愿意把流量放出来你觉得你手机上还会有这么多 app?
纯视觉 agent 一样可以绕过所有 app 营销内容,难道到时候又要变成爬虫攻防?
这个问题根本就不是技术问题,纯粹是 mcp 和 llm 后续发展能不能让传统厂商低头的商业问题。虽然过程有争议,但是 manus 这种形式目前来看是最不可能的未来方向
OP 你喜欢在点外卖时 AI 一条条语音报给你听然后你花个十分钟听完文字描述的各种美味?再用语音细致地确认要点哪个?
未来马斯克的脑机接口, 谁 tm 还玩手机,直接内置芯片不好吗?
到时候大家上架的都是马斯克的脑机接口商店。
基本上绝大部分手机 app ,未来都可以通过 agent 一句话来搞定
对话框也属于 UI ,我感觉并不适合所有场景,就订餐来说,食物长什么样的,店铺评价如何,要几双筷子,有哪些优惠,如何支付,外卖送到哪了等等,这些信息用自然语言来呈现不一定最佳。还有打车,你如何精确描述你的目的地,以及到哪接你,以及你可接受的价格。
agent 可以显示一个页面来展示菜单,点击就行,不一定非要语音交互
连网页都嫌弃用户可以屏蔽广告,还想做自动化,把自己的命给革了?
理想很美好,这就像 GC 主义的终极目标,是个美好的目标,但是奈何公司和平台之间是要考虑自己利益的,能实现完美的共赢几乎不可能。
你要选择你要点外卖功能,(搜索你想吃的)然后选择店铺,选择你要点的东西,选择收货地址,写备注,这不就是目前 app 在做的事情么?我想不到哪里还可以优化。
你以为的是:
美团,滴滴,把接口交给类 Manus 的 UI Agent ,美团,滴滴药丸。
实际上可能的是:
美团,滴滴,等每个公司搞一个 AI ,UI Agent 。
实际上,这十几年来,资本在干的事情是,把用户从公共互联网,引流到自己的私域( APP ,小程序,网站,平台)。
资本好不容易把用户圈进自己的鱼塘,会轻易让别人抢走?
想多了。
后面会怎么发展,我们静观其变好了。
#12 这是人机交互,不是 APP 那种,一个界面能解决所有问题,页面是 AI 实时写的,直达目标,不需要你点一层一层目录进去,收货地址,支付更是不需要自己动手
想象一下浏览器也是 ai 接口,关闭个 tab 得打字 :close-tab 或说出来。点外卖没比关个 tab 复杂多少,对这种极简场景我是想象不了走命令比直接操作会更高效。直接操作相当于按快捷键,命令相当于当场编程。
我认为,信息压缩也是有极限的,有些东西无论以何种方式呈现,最终还是要呈现,你可以改进压缩算法,但是它的极限就在那,你没办法不说出你的需求,就能得到结果,最多做一些优化(比如常用地址只要选择就可以了,而不用重复输入)。话说,真有人会感觉目前 App 订餐以及打车需要优化么(普通人一天最多也就一两次吧)?
#15 都 AI 了,还用 tab 吗,压根不会用浏览器这种东西了,整个系统只有一个 UI ,就是人机对话 agent ,想要看什么给你显示什么,内容全是为你实时生成的
你要吃什么,在哪个店铺,要点多少数量,收货地址是哪,餐具要多少,有无口味要求(可能一个人吃,也可能几个人吃)这些可以做哪些优化?一个界面呈现所有选项么?
#18 想象一下,大领导有一个美女秘书,到饭点了,秘书会拿个手机让领导亲自点么?
真实场景是: 美女用温柔的声音问领导中午想吃点什么,附近有个素菜馆不错要不要试试,领导说想吃点肉,好,那咱们吃个秘制猪脚饭吧,领导说行吧,一会饭就送来了
推荐阅读 julian.digital/2025/03/27/the-case-against-conversational-interfaces/
这个好,感谢推荐
那个店关门了怎么办,领导一会要去另一栋楼开会要修改一下地址怎么办,领导最近信用卡到期了,要更换支付方式,领导夫人来了,需要多点一些,夫人喜欢吃淡点的,领导除了吃猪脚饭,还能吃什么,总不可能是随便吧,领导想给自己的父母点一些该怎么办。我的核心观点就是,想要精确表达需求,就要有足够的输入,你可以优化输入(比如,最近点过什么,我可以说,就吃上次点的),但是你不能省略输入信息,不然,你得到的结果很可能不是你想要的,各种 UI 都在优化这种输入,比如从常用地址中选择而不需要手动输入地址,你没办法做到不精确描述需求,而想得到一个精确的结果,不然就是开盲盒了(点了什么不知道,送到哪去了不知道,是用美团月付还是用信用卡支付的,不知道,餐具有几套,不知道,我最近牙疼,是不是清淡的,不知道)。
#22 你还是逃离不了现有 APP 思维,你身边有个真人助理了,有什么是人不能解决的?
这得看 AI 跑不跑得赢人机验证。如果人机验证能持续卡住 AI ,那么各大 app 继续限制机器人操作。
最近试了试 browser use + gpt4o ,图形验证码三个网站都没过去。
不可否认的是,现有的图形验证码拦不住有视觉的 UI Agent 只是时间问题了。
但仔细一想,区块链 + 数币 + 网络实名制发展这么久,人机验证发挥的安全作用也许会越来越小
"通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景"
目前这些平台,以及大的品牌有在和手机厂之类的搞此类合作探索
流量怎么分、蛋糕怎么切,应该还没有定论
#5 就一个 ai 的 app ,点外卖的时候直接语音交互,菜单直接返回图片;需要深入了解,可以直接语音交互,或者看图片。不会有各种各样的乱七八糟的 app——因为一个 app 就够了
#5 如果你觉得 AI 是这个样子,那你的想象力确实很匮乏。
参考现在 chatGPT 的语音交互能力。以 AI 外卖为例子,你只需要告诉 AI 你需要一份外卖,AI 可能会按照如:
1 、现在时刻决定早餐午餐晚餐
2 、你的历史订单决定口味偏好。
3 、你的历史订单金额决定价格区间。
4 、你的地理位置周边好评/健康/举例等你关注你的条件。
4 、其它如时令食物,近期其它来源(如淘宝搜过腊肠等)偏好。
5 、你的其它指令:如今天想吃面食为主的外卖,今天发工资想吃一顿好的外卖等信息。
得到精准的结果让你选择。且只播报餐品和价格,3-5 个可选项,太少不行,太多也不行。
你需要做的,只是通过生物识别(脸部,声纹等)确认信息和授权支付。
没有复杂需求时,整个交互过程可以在 1 分钟内完成。对于饮食习惯这要的需求,其实 AI 比你更了解你。
不要觉得 AI 是生成你需要的内容。你要认为 AI 是帮你过滤你不需要的内容。
#26 本质上只有一个问题——比如某个某团、某滴跟了 mcp 的模式,美团、滴滴你跟不跟。整个营销前台几乎都可以直接砍掉,这效率的提升、成本的节省就不少
牛逼了,比本人还懂,终级管家全面接管是吧,能发展到把工作和活着也接管了就最好了,本人只负责吃和睡
在浏览完餐单前 你怎么知道你想吃什么
非常同意。
你这不是要改变 APP 啊,大胆点,直接放弃手机吧
前情提要 StarkNet 公链项目为了激励开发者参与其平台建设,启动了空投活动。 如果曾向 GitHub 上获得较多 Star 的项目提交过 PR ,就有资格领取 111.…
EasyLink 自研 CDN 公测上线,欢迎各位大佬体验反馈 当前使用 EasyLink 机房节点,线路采用联通 10099 每月免费赠送 10G 流量(如果觉得不够可以在调…
相信大家在上班的时候都要去浏览很多与工作无关的网页,但总是害怕被同事尤其是老板看到,所以,你总是会有个“老板键”什么的。当有人从你身边经过的时候,你会很快速地切换你的桌面屏幕,…
合速度