考慮到首發機型的備貨量和技術的完善度,所謂的“豆包手機”暫時不會對移動互聯網生態產生實質性的影響。搭載了豆包手機助手的深度定制機中興努比亞 M153 限量發售,售價 3499 元,定位中端。外界傳言其首發備貨量約為 3 萬臺,且不會補貨。
這款手機并不是一個面向普通消費者的成熟硬件產品。豆包手機助手團隊特意強調,該機型“只是一款方便大家體驗豆包手機助手使用的工程樣機”,中興商城頁面也顯示,“僅面向需要體驗豆包手機助手的行業人士,不承諾成熟產品的功能完善度,普通消費者請務必謹慎選擇”。
上周外界對于豆包手機助手的討論更多圍繞各大互聯網公司相繼“封禁”豆包展開。動作最快的是字節跳動的直接競對騰訊,使用豆包手機助手會觸發微信的風控策略,導致用戶微信賬號強制退出無法登錄。
緊接著,包括各大銀行、支付寶乃至淘寶、拼多多等電商應用、王者榮耀等手游都相繼阻止用戶使用豆包手機助手進行操作。豆包于上周五對外聲明,表示將調整并限制豆包手機助手的使用范圍,包括但不限于限制刷分/刷激勵等應用場景、金融類應用、游戲類使用場景等。
看熱鬧不嫌事兒大的科技媒體們繼續發揮他們渲染情緒的祖傳藝能,對外強調又一輪互聯網生態入口爭奪大戰開始。有了大模型的加持之后,大家的討論明顯都“深入”一些,動不動就要強調本質問題,上升到戰略、生態、下一代交互的地位上。這樣的論斷過去在智能音箱、小程序乃至區塊鏈等都屢見不鮮,不免有些厭煩,讓人想起巴黎報紙的拿破侖笑話。
拋去這些宏大敘事的論調,各大互聯網公司當前封禁豆包手機助手的直接原因或許只有一條:禁止外掛代替用戶操作,無論它是否由 AI 還是腳本操作。微信、支付寶乃至銀行等涉及用戶隱私和金融風險的應用更是嚴厲禁止。過去,哪怕只是一個簡單幫助用戶去除應用開屏廣告的“李跳跳”,都收到過互聯網大廠的律師函,不得不無限期暫停更新。
豆包團隊在限制豆包手機助手的聲明中同時強調,他們正積極尋求與各應用廠商的深度溝通,希望推動形成更加清晰、可預期的規則,“避免用一刀切的方式否定用戶合理使用 AI 的權利。”
這話略顯偏頗。好似豆包手機助手才是幫助用戶的屠龍少年,而其它互聯網廠商則是橫亙 AI 未來面前的惡龍形象。姑且不說抖音會不會禁止其他 AI 手機助手獲取并操作用戶的聊天信息、上傳視頻乃至抖音商城、錢包等頁面,關鍵在于當前豆包手機助手的GUI交互手段,很難說就是未來手機 AI 的發展方向。
已經有不少媒體指出,部分手機或大模型廠商早在豆包之前就推出過類似的 AI 手機助手功能,比如榮耀的 YOYO 助手或者智譜的 AutoGLM。它們的技術原理也都差不多,通過獲取系統底層權限,AI 讀取手機屏幕信息并代替用戶模擬點擊。只是豆包展現的模型理解能力更強、交互也更流暢。
這樣的做的好處是可以不需要再一對一地與應用廠商溝通,不用再費心建立生態,只靠自家的技術優化就能打通當前的移動互聯網應用。過去 AI 廠商在瀏覽器層面推出的 AI Agent 功能與此類似,都是代替用戶模擬操作網絡頁面。
但風險在于,手機是一個比瀏覽器擁有隱私更多、風險也更大的場景。一個簡單的例證,瀏覽器內的 Agent 不需要額外獲取更多系統權限,但類似于豆包手機助手則需要獲取安卓的 INJECT_EVENTS 權限。
INJECT_EVENTS 權限是安卓系統的底層權限,可以直接向設備發送原始信號,后臺模擬用戶點擊。它早在安卓系統誕生之初就已經存在,此前更多被手機廠商用作新機上市前的測試階段。
開放這一權限,意味著你完全讓渡了手機的控制權,風險極大,因此它只向系統級應用開放,第三方應用無法獲取。蘋果也沒有為 iOS 系統開放類似權限。
更關鍵的是,無論你是否打開手機,理論上被授予這一權限的應用都可以在后臺操作手機。比如豆包團隊在宣傳片中展示的助手直接打開特斯拉前備箱、查詢播客節目、預定餐廳等功能,人物只通過耳機下達指令,而無需拿出手機。
目前,手機行業中也只有國內安卓廠商在嘗試類似 GUI Agent 的道路,Google、蘋果都沒有在自家手機中使用類似的技術路線。Google 今年發布的 Pixel 10 系列雖然也強調 AI 的系統級能力,但更多是通過 API 接入和端側 AI 來打通用戶信息和自家應用生態。縱觀過去 Google 的手機 AI 路線,也從未使用系統的 INJECT_EVENTS 權限。
事實上,Google 在今年發布的 Android 16 中已經在嘗試引入一個名為 App Functions 的新接口,允許應用將自己的關鍵功能比如訂餐、下單、發消息等能力提供給系統,系統助手可以調用這些功能代替用戶操作,實現跨應用交互。
蘋果及華為也都在 iOS 系統和鴻蒙系統內加入了類似能力,iOS 內稱作 App Intents,鴻蒙系統內則稱作意圖框架。比如華為就在鴻蒙開發者文檔中介紹,銀行類應用接入意圖框架服務之后,用戶可以直接通過小藝發起轉賬交易。
換句話說,和 GUI Agent 需要獲取系統底層權限,識別屏幕信息并代替用戶模擬點擊等相比,API Agent 的接入方式才更為安全也更可控,隱私泄露風險也更小。
OpenAI今年開始嘗試通過 ChatGPT 打通第三方應用生態,同樣是通過MCP等協議來接入外部應用。即便在介紹 ChatGPT Atlas 瀏覽器的代理功能時,OpenAI 也格外強調其安全風險,“用戶仍應保持警惕并監控 ChatGPT 代理的操作行為。”
更直接點說,GUI Agent 的路線更像是當前 AI 生態尚不完善時的折衷產物。AI 與應用的交互完全可以靠代碼或 API 的方式交流,現在則是模仿人來讀取屏幕、模擬點擊。當下通過獲取手機最高權限來實現 AI 模擬交互,幾乎可以用“高射炮打蚊子”來形容。
當然,我們并不是在苛責或者批評豆包手機助手。國內的 AI 應用探索一直跑在全球前列,豆包所展現的一些系統級 AI 能力確實也帶給市場不少驚喜。
但它是建立在完全讓渡用戶隱私和系統操作的基礎上——比如要讀取你的微信聊天記錄和聯系人信息,目的僅僅只是為了搞清楚你昨天和朋友定的餐廳在哪里,又或者只是為了比較一下外賣的價格。就像豆包手機團隊發布的那條宣傳視頻下,排名第一的評論說,“真的沒人在乎個人信息安全嗎?”
暫且忘掉豆包團隊在聲明中強調的對個人隱私嚴格保護、所有權限都是在用戶授權下才獲取的說法。我們并不是說豆包不注重隱私保護,更多只是強調其風險問題。科技公司們總有各式各樣的法務條款來規避風險,而不用承擔責任。
監管往往滯后于技術的發展。雷火競技移動互聯網時代狂奔十多年,蘋果和安卓廠商們才在 2020 年前后加入了更多對應用調用系統權限的限制和披露。這時,人們才驚訝應用們會如此頻繁地調用地理位置、讀取剪切板、獲取通訊錄、相冊等敏感信息,目的可能僅僅只是為了幾個微不足道的小功能。一些應用甚至會在幾分鐘內發起上千次權限調用申請,國內外大廠無一幸免。
過去幾天,也有不少手機廠商人士就豆包手機助手對外發聲,或附和表態或解釋技術原理。手機廠商們和豆包面臨的困境是類似的,它們很難在短時間內就構建起一個 AI 與應用交互的生態,也無法打通國內封閉割裂的移動互聯網壁壘,因而只能通過粗暴的方式來強行推進 AI 的手機變革。
阿里集團 CEO 吳泳銘之前說,人們對新技術革命,往往對短期高估,又對長期低估,但新技術革命會在人們的懷疑中成長,讓很多人在遲疑中錯過。
人類對于新技術的適應能力或許也遠超自身的想象。現在已經沒有人出門再帶現金了,也很少見到人在路邊招手揚車。無論如何,AI 對于手機的改造已經開始,曾經封閉的移動互聯網生態也必須要正視 AI 的介入。