從2024年12月發(fā)布第一篇手機智能體的報道開始,我們就意識到,這不是一個簡單的功能升級故事,而是一場對AI生態(tài)控制權的重新分配。
在過去一年里,不少產(chǎn)品嶄露頭角,榮耀YOYO、智譜AutoGLM、豆包AI手機助手……技術毫無疑問在狂奔,這時候需要有人客觀呈現(xiàn)全貌,適時地“唱唱反調(diào)”。
圍繞手機智能體對無障礙權限的灰色調(diào)用、讀屏的濫用空間、系統(tǒng)權限的失控風險,我們一直在追問:當手機能替你做事,誰來定義它的邊界?
如果你依舊覺得手機智能體是一個混亂而模糊的概念,那么這篇報道能為你提供一個系統(tǒng)性的框架——能力變化、技術方案、商業(yè)競合關系,和如影隨形的合規(guī)陰影。
這是我們過去一年對手機智能體的重要報道合集,帶你完整走一遍它的來時路。
同時,我們也將再次出發(fā),根據(jù)最新動態(tài)對行業(yè)手機智能體開展新一輪的測評,輸出最新的內(nèi)容,敬請期待。

過去十年,我們習慣了圍繞App行事?,F(xiàn)在,手機助手/智能體(統(tǒng)稱手機智能體)正在改變這種路徑依賴。它不再只是初級的聊天助手,而是一個能直接替你操作手機的私人助理。
從去年11月榮耀YOYO用“一句話幫你點咖啡”開始,展示手機智能體的自主操作功能,幾乎成了每場新機發(fā)布會的固定環(huán)節(jié)。目前小米、榮耀、vivo、OPPO、華為、三星的量產(chǎn)機中均已配備自家智能體,第三方陣營中還有智譜AI的AutoGLM、字節(jié)跳動的豆包手機助手。
但在今年初,手機智能體的宣傳噱頭還遠大于真實能力。當時實驗室論文里的任務成功率大概能到70%,而在現(xiàn)實環(huán)境里,能成功點外賣的手機智能體不超過3家。成功率低、響應不穩(wěn)定、耗時長都是常態(tài)。
這背后既有技術局限,也有工程問題。技術層面,手機智能體理解屏幕的方法依賴逐步推理,每執(zhí)行一個操作前都要 “思考” 下一步該做什么,效率不高。而工程層面,不同 App 之間沒有統(tǒng)一的調(diào)用方式,手機智能體很難繞過限制直接調(diào)動第三方服務,能力有限。
因此,圍繞“怎么真正把手機用起來”,智能體走出了幾條技術路線:
第一種路線叫意圖框架,本質(zhì)是App和手機智能體的合作方案。經(jīng)過App授權后,手機智能體用過應用編程接口(API)或者開發(fā)套件(SDK)調(diào)用App的特定功能。這種方式效率高、可控安全,但難點在于如何說服每一款App達成合作。
第二種路線,是基于視覺路線的GUI Agent(圖形界面智能體)。智能體像真人用戶一樣讀屏幕、思考過程、模擬點擊。不用挨個去跟App談判,流程更簡單,但技術要求更高,同時還容易撞上隱私和App紅線。
好在解決方案不是單選題,幾乎所有手機智能體“兩個都要”,但視覺路線更主流。大部分手機智能體都會用到“無障礙權限”,其擁有系統(tǒng)級別的最高權限,可以看到屏幕上銀行卡密碼、聊天記錄等所有信息,繼而替用戶點擊、長按、滑動屏幕,相當于手機里的一雙“上帝之手”。
但無障礙權限作為手機的系統(tǒng)權限,第三方想獲得授權并非易事,因此又出現(xiàn)了第三種技術方案:云手機。智譜在AutoGLM 2.0 中創(chuàng)造了一個獨立的“虛擬手機”界面,所有操作都在云端完成。這一方案解決了無障礙權限調(diào)用的問題,不再依賴本機的無障礙權限,但依舊需要讀屏。
把局勢推到下一個階段的,是豆包手機助手。豆包直接與中興合作了工程機,讓手機操作系統(tǒng)第一次為智能體“讓位”。下一代AI原生手機有了雛形,同時,也帶來了關于商業(yè)生態(tài)、合規(guī)風險的大討論。



大模型的建立離不開大量數(shù)據(jù)訓練,在“推理黑箱”本就難解釋的情況下,手機智能體還疊加了一層“執(zhí)行黑箱”——擁有能打破平臺的超級權限,把一個人的所有數(shù)據(jù)匯總在一起。
擔心隱私泄露、數(shù)據(jù)濫用的焦慮不難理解。作為一個普通用戶,可以從三個方面了解手機智能體的風險:
第一個是讀屏能力帶來的隱私問題。走視覺路線的手機智能體,不可避免要分析屏幕上的所有內(nèi)容,包括聊天記錄、商業(yè)會議內(nèi)容,甚至網(wǎng)銀App里安全鍵盤輸入的支付密碼。一旦被濫用,電信詐騙的門檻可能進一步降低,而持續(xù)性的行為監(jiān)控與畫像能力也會更隱蔽、更精準。
第二個風險,來自控制權的讓渡,這可能比隱私泄露更緊迫。一方面,AI 幻覺并未消失,已有航空公司智能客服因提供錯誤優(yōu)惠信息而引發(fā)訴訟,智譜AutoGLM被指出多買了優(yōu)惠券。在智能體代勞中,欺騙、誤導和誤執(zhí)行的概率會迅速放大。
另一方面,針對智能體的主動攻擊也在變化。比如,攻擊者甚至無需入侵手機或系統(tǒng),只需要在網(wǎng)頁、GitHub 項目或郵件中預埋惡意指令,就可能誘導智能體主動泄露隱私,或者植入木馬病毒。
因此第三個風險,也是數(shù)據(jù)安全的系統(tǒng)性風險。在缺乏外部約束、僅靠自我監(jiān)督的情況下,高權限應用很容易滑向灰色地帶。比如,過去大量“跳廣告”神器、自動搶紅包、搶外賣外掛,以及手游腳本黑產(chǎn),正是利用無障礙服務形成的完整黑灰產(chǎn)業(yè)鏈。
風險并非沒有應對方案,作為普通用戶,可以關注的是透明度和控制權。
在此前競爭秩序場課題組的測評中,許多手機廠商的智能體被指出無障礙權限使用混亂,多家手機智能體結(jié)束任務后,無障礙權限還保持打開狀態(tài)。調(diào)用無障礙權限之前,一些手機智能體也未提示風險,甚至沒有征求同意。
競爭秩序場課題組曾發(fā)出對于無障礙權限使用的倡議,這6條倡議已被吸納進入行業(yè)協(xié)會標準。
行業(yè)逐漸形成的共識是:應當讓用戶清晰掌握各類執(zhí)行環(huán)境中的數(shù)據(jù)使用狀況,避免超權限、超范圍、超目的的訪問行為。拿無障礙權限來說,手機智能體需要事前充分告知,并征得同意;事中還應該允許用戶隨時拒絕、終止接管。






除了技術與安全的拉鋸,手機智能體還面臨商業(yè)博弈。
博弈場上站著的是互聯(lián)網(wǎng)App和手機智能體。對于互聯(lián)網(wǎng)App,一旦智能體能完全替代真人操作手機,短期沖擊的是App拉新率、留存率、用戶活躍時長,直接拖累廣告回報率這一核心變現(xiàn)指標;長期擔憂更深,互聯(lián)網(wǎng)App可能被管道化(OTT化),退化為智能體的工具零件。
豆包手機助手是一個最直觀的樣本。發(fā)布四天內(nèi),這款限量的“工程機”售罄。在用戶交流群中,有人使用豆包手機助手在拼多多刷視頻領金幣,在抖音極速版獲取流量激勵,以及嘗試讓 AI 代打《王者榮耀》。
類似的生態(tài)摩擦其實在MCP身上也上演過一輪。MCP試圖用統(tǒng)一接口連接AI與外部工具,這是智能體真正“動手做事”的起點。
2024年11月,Anthropic推出MCP協(xié)議后,OpenAI、谷歌迅速跟進,國內(nèi)的阿里云百煉、騰訊云知識引擎、字節(jié)跳動扣子空間、百度智能云也相繼發(fā)布完整MCP服務。但互聯(lián)網(wǎng)平臺的抗拒從未真正消失,甚至時至今日,Anthropic自己也坦言MCP發(fā)展得不順利。
互聯(lián)網(wǎng)App的顧慮主要是失去場景控制權。舉個例子,要開放完整的點外賣服務,必須讓智能體接到觸價格、店鋪信息,甚至用戶地址和聯(lián)系方式等敏感個人數(shù)據(jù)。而MCP的權限管理、調(diào)用審計能力,成熟程度都尚不足以讓大型平臺放心托付。
更重要的是,如果智能體參與全程交易——幫用戶比價,甚至直接推薦哪家餐廳性價比最高,對用戶是效率革命,對App卻意味著權力讓渡。推薦權、排序權和算法優(yōu)勢被抽空,App被降級為普通的供應商。
即便圍墻花園開放了,也會有新的矛盾:不透明的排序機制不僅存在被誘導的安全風險,也天然帶著“自我優(yōu)待”的疑云。當服務供給過剩時,智能體該調(diào)用誰?是打開淘寶閃購還是美團外賣?是選擇高德地圖還是百度地圖?
這場博弈何時松動,接下來可能有兩個觸發(fā)器:
第一,技術和產(chǎn)品能否真的跑通,市場成熟到足以反向逼迫App接入。這是許多中小平臺在觀望的態(tài)勢。
其二,頭部大平臺在力爭“正當性”問題。開放是否必須、授權要不要給,它們與手機智能體的硬仗會打到法規(guī)層面。




智能體授權爭端并非始于今日。2017年,騰訊也曾指控華為榮耀手機,收集微信聊天記錄用于智能推薦,侵犯了其與用戶的數(shù)據(jù)權益;華為則認為數(shù)據(jù)屬于用戶,自己已獲用戶授權。
8年后這場戰(zhàn)爭又迎來了續(xù)篇。上線一周后,豆包手機助手接連被微信、支付寶、淘寶、王者榮耀等App限制操作。
在大洋彼岸,沖突已經(jīng)從明槍暗箭上升至正面法律對抗。11月,亞馬遜起訴AI公司Perplexity,指控其瀏覽器智能體Comet偽裝成人類用戶、秘密訪問并操控亞馬遜賬戶購物,違反了計算機欺詐罪等法律。Perplexity則反擊稱智能體只是用戶的“代理”,將亞馬遜的訴訟稱為對創(chuàng)新的“霸凌”。
互聯(lián)網(wǎng)大公司在爭規(guī)則制定權,誰能把自己的利益寫進行規(guī)里,誰就站在更高的博弈位階上。而面對AI代勞,現(xiàn)有規(guī)則體系確實也有無力的地方。
目前規(guī)則爭議主要集中在兩條紅線:
其一,代理/代勞授權問題。智能體代勞前自然需要用戶授權,但和長期被詬病的隱私政策類似,智能體的“授權”往往存在信息不對稱。只有當用戶真正理解調(diào)用范圍、潛在風險與后果,知情同意才有實質(zhì)意義。
除了用戶同意,是否也需要App授權,爭議更大。理論上,智能體的合法性來源于用戶授權,而非 App 協(xié)議;但現(xiàn)實中,智能體的行為直接沖擊 App 的商業(yè)利益和數(shù)據(jù)控制權。用戶數(shù)據(jù)被平臺視作核心資產(chǎn),要求開放的智能體可能被指不正當競爭,拒絕開放的App也可能有壟斷和阻斷創(chuàng)新之嫌。
其二,代勞責任問題。在競爭秩序場課題組的測評中,智譜AutoGLM2.0就“自作主張”地加購了一張“神搶手”優(yōu)惠券,最終導致賬單多出7.9元。智能體并非每次都能準確理解用戶需求,“貼心之舉”與“越界之嫌”僅一線之隔,極易演變?yōu)樾湃挝C。
要推動AI代勞具備制度上的正當性,必須建立透明的授權機制、清晰的責任鏈條以及可靠的安全兜底。在此基礎上,智能體與平臺方才有談判的現(xiàn)實土壤。
目前,技術界已率先拋出了自己的理解和方案:給智能體一個主體身份、搭建一套基礎設施,圍繞此來設計規(guī)則方案。
比如,給智能體開設獨立錢包,規(guī)定其能自由發(fā)揮的金額和商品類型;提供“撤銷—追溯”的保障機制,讓智能體的退款能迅速被處理,從而給AI代勞更自由、更可控的邊界。通過技術規(guī)則,為AI代勞劃出一條“可控的邊界”。
這會是一個務實的起點嗎?




