12月以來,豆包手機助手成為科技圈最為關注的熱點話題。1日驚艷發布、2日手機「一機難求」、3日微信異常退出後引發權限爭議、4日5日陸續遭第三方產品限制登錄……各路人馬圍繞這款AI手機助手的功能、安全性以及其蘊含的可能改變現有互聯網商業模式的力量爭論不休。
繼12月1日開始至今,已經過去了10天。當最猛烈的風波過後,這款搭載了豆包手機助手的豆包中興合作工程樣機nubia M153(以下簡稱「豆包手機」)還能否保有其最初宣發時的功能?在科技邏輯、安全邏輯與商業邏輯一周的摩擦碰撞下,豆包手機目前守住了哪些陣地?其核心的AI手機助手功能有沒有受到影響?對此,新京報貝殼財經記者在這款手機上,圍繞點外賣、訂機票、導航等日常場景進行實測,並邀請專家進行了分析。
23款App中8款使用受限,15款仍可通過AI操作
在推出初期,豆包手機曾展現跨平台比價、發送微信等功能,但以12月3日有用戶反映微信賬號異常退出,豆包手機隨即下線其自動操作微信能力這一事件為開端,豆包手機一頭撞上了App的「風控牆」,後續接連限制了多個場景的AI能力。甚至有用戶擔憂,豆包手機將變成不能用的「板磚」。
對此,新京報貝殼財經記者在12月8日以「這是一部新手機,需要安裝一些日常所需要的App,幫我推薦並下載」為提示詞,一共下載了23款App,涉及社交通訊、生活服務、購物消費、辦公學習、娛樂休閒五大類。
記者使用豆包手機實測發現,在這23款App中,淘寶、美團、支付寶、拼多多、貓眼5款App直接無法登錄;微信、高德地圖、大麥網3款App可以手動登錄但無法通過AI操作;而滴滴、QQ、京東等15款App的使用則完全不受影響,既可以登錄,也可以通過AI操作。具體情況見下表:

23款主流App在「豆包手機」上的運行情況.新京報貝殼財經根據12月8日實測情況製圖。
貝殼財經記者梳理發現,上述被限制功能的8款App分別隸屬於騰訊、阿里巴巴、美團、拼多多以及光線傳媒五家大廠旗下。此外,根據豆包手機助手官方在12月5日發布的信息,出於金融安全和遊戲公平的考慮,其對銀行等金融類應用以及遊戲場景的應用也進行了限制。
從上述結果來看,目前豆包這一「光明頂」已然遭遇了「五大派」圍攻,但也可以發現,大廠對豆包手機的限制也並非「一刀切」,比如騰訊旗下的QQ,阿里旗下的夸克依然可以正常被豆包手機助手調取。
那麼,「還能用」的豆包手機,現在可以帶給用戶怎樣的新體驗呢?
全新AI助手體驗:一句話記住用戶喜好,跳過彈窗和廣告,可後台運行
新京報貝殼財經記者通過2天的實測發現,目前豆包手機所搭載的AI助手能力確實到了「可以落地」的階段,並且一些功能極具實用性。
讓記者印象最深的就是,當使用豆包手機助手打開App執行任務時,其可以精準識別並點擊關閉廣告、找到用戶指定的功能入口。
要知道,當前不同App的各式彈窗「防不勝防」,一些彈窗的關閉手段極其隱蔽,極易誤導用戶。但當豆包手機助手打開這些App時,它會針對不同的彈窗形式採取「點擊關閉」或「等待彈窗消失」等處理措施。且成功率極高,很少點擊進入廣告。

豆包手機助手執行任務中正在關閉彈窗。(豆包手機截圖)
另外,在面對一些App的引誘式選項時,它也能清楚分辨,例如記者經常使用某OTA平台購買飛機票,此類平台在購買機票步驟的末尾通常會通過選項顏色加深等方式「引導」用戶購買保險等附加服務,而當記者本次測試時,豆包手機助手就在這一步進行了提示,「清楚明了」地諮詢記者「是否要添加附加服務」。

豆包手機助手在購買機票場景時諮詢記者「是否需要添加附加服務」。(豆包手機截圖)
而面對任務執行中遇到的突發事件,豆包手機助手也展示了相當程度的靈活性,其可以通過嘗試不同路徑解決問題。當記者喚醒豆包手機助手,要求其導航時,它首先打開了高德地圖,但遭遇打開限制,便再次打開了百度地圖。而要求豆包手機助手P圖時,其首先嘗試了手機自帶的美顏功能,之後又上小紅書尋找了P圖方法,在上述兩個方法均失敗後,又登錄了瀏覽器,通過諮詢「哪些App可以P圖」,最後下載了美圖秀秀,直至任務完成,它共嘗試了4條路徑。
這種靈活性在記者要求其上嗶哩嗶哩對某UP主的視頻進行評論時達到了令人驚嘆的地步:豆包手機助手按照記者要求登錄嗶哩嗶哩,但在視頻評論時發現記者的賬號等級不夠,無法評論,要評論就必須得邀請好友或答題。此時,記者通過手機助手的「補充」功能添加了指令「幫我答題」。結果,豆包手機助手真的開始一題題幫助記者進行了答題(每答一題的思考時間不同),並在8分鐘後回答了60道嗶哩嗶哩「考題」,最終通過了嗶哩嗶哩的測試,升級到LV2後發表了任務最開始所要求的評論。

豆包手機助手在完成嗶哩嗶哩評論的任務時「順便」幫助記者的賬號通過了答題測試。(豆包手機截圖)
最後,面對用戶的模糊要求,豆包手機助手也有一定的「主見」,甚至還能通過記憶力幫助用戶進行選擇。
例如,記者此前曾通過豆包手機助手在便簽中輸入了「我想吃豬腳飯」。而之後,記者通過豆包手機助手下達指令「幫我訂一份晚飯,點什麼你看着辦,便宜點,離我近的都行」這樣的模糊指令之後,豆包手機助手的執行邏輯顯示為「搜索豬腳飯,篩選便宜近的」。而在京東外賣的頁面,當遭遇起送價不夠,需要湊單的情況時,面對記者下達的「你看着湊」的指令,選擇了滷蛋和鹵丸子作為推薦的湊單商品,而類似的選項還有滷豆干、紫菜蛋花湯、烤腸、荷包蛋等,這一「選擇」正屬於豆包手機助手的「主觀」推薦。

豆包手機助手自動幫助用戶在外賣場景進行「湊單」。(豆包手機截圖)
不過,貝殼財經記者在測試中發現,豆包手機助手也存在一定的局限性,在一些複雜任務中也會發生錯誤。如其在執行「購買12月9日天津到北京的高鐵票」這一任務時,其執行邏輯是首先遍閱當日所有車票,但由於當日兩地高鐵票數量過多,該任務在執行數分鐘後自動停止了。此外,在執行一個「打開QQ音樂,播放某歌手傳唱度最高的歌曲」這一任務時,豆包手機助手播放了該歌手歌單列表中第一首歌曲,但該歌曲的瀏覽量和點讚量並非最高。
同時,豆包手機助手在12月5日更新後,無法完成一些激勵場景,如記者要求其「幫忙打開網易雲音樂並看廣告領取免費聽VIP歌曲時長」時,豆包手機助手回應「涉及用戶賬戶和激勵體系的操作,無法直接為您執行」。
「豆包手機助手的工程化水平很高,完成度很好,是未來智能終端的雛形。不過,對於需要實時響應的場景,如攝像頭採集的高清視頻理解等,豆包手機助手的響應速度還不夠。」面壁智能首席科學家劉知遠在接受貝殼財經記者採訪時表示。
豆包手機助手絲滑運行的背後:高系統權限與閱讀屏幕能力
貝殼財經記者注意到,之所以豆包手機能夠帶給人「絲滑」的AI手機助手體驗,和該手機在系統層面就給豆包手機助手讓渡了INJECT_EVENTS權限,以及豆包本身的大模型能力都有關係。
記者在實測中發現,當喚醒豆包手機助手執行一個任務時,其會在接受任務後默認最小化到手機屏幕正上方,在後台執行該任務,這就給了用戶無感的任務執行體驗,而這正是通過INJECT_EVENTS權限才能達到的效果。
事實上,AI手機助手並非豆包首創,華為、小米、榮耀等都有過AI手機助手的嘗試,並使用INJECT_EVENTS權限,實現一些特定場景的操作手機任務,例如通過語音指令定鬧鐘、打開某個App等。第三方App則只能通過無障礙權限實現「讀取屏幕+模擬點擊」,如智譜的AutoGLM手機智能體演示過的發紅包操作,這種方式會占用手機終端的屏幕,用戶無法同時在手機上操作其他事項。
對此,網絡安全專家曲子龍向記者解釋,無障礙權限的工作邏輯,完全是模仿用戶的前台應用操作。手機智能體若是依附這項應用層的權限,中止無障礙權限就等同於退出一款應用,自然不會繼續執行任務。而豆包助手是一個擁有手機系統底層權限的應用,所以具備後台執行任務的能力。但INJECT_EVENTS權限只負責模擬用戶指令的操作,「允許後台活動」需要系統提供其他的權限才能完成。
技術上,AI手機助手的核心邏輯實際上是「閱讀理解手機屏幕」的能力。根據量子位消息,豆包手機助手的圖形界面操作能力,建立在字節自研的UI-TARS模型基礎之上,這是一款今年1月字節Seed團隊與清華聯手開源的模型。而「豆包手機」使用的是UI-TARS閉源版本,不僅性能優於其開源版本,還針對Mobile Use進行了大量優化,這為豆包手機提供了關鍵的技術支撐。
兩套「組合拳」下來,才形成了豆包手機當前所展現出的功能。
不過,上文中所提到的INJECT_EVENTS權限因其本身屬於「系統簽名權限」,在12月3日一度成為豆包手機助手遭遇質疑的理由。當日晚間,豆包手機助手官方立即進行了闢謠,表示只有用戶主動授權才可以調用該權限,「豆包手機助手不存在任何黑客行為。」
12月9日,一名曾經編寫過國內信息安全相關法規的專家在復盤此事件時告訴貝殼財經記者,豆包手機相當於擁有了一把「萬能鑰匙」,因此才能帶來流暢的用戶體驗,但可能會觸及多個App的風控機制,「不同App的風控機制不一樣,有些安全系數比較高的,可能會認為一些異常行為不是用戶操作,而是機器代理操作,判斷為黑灰產的『貓池』,最終限制登錄」。
對於AI手機助手可能在執行用戶任務中獲取用戶信息的問題,有聲音認為將AI助手的能力限制在本地,採用端側模型或許是較好的解決之道。
劉知遠多年從事端側大模型研發,對此,他告訴貝殼財經記者,「豆包手機助手裏面應該也有一個本地的語音模型,算是比較簡單的端雲協同。未來一定是端雲協同共同完成端側智能的任務,主要是端雲如何分工的問題,我覺得大致應該是 personalized to professional,即端側負責個性化,雲側負責專業化(如數學、代碼等)。」