作者|洋紫
“夏日午后,休息時(shí)凝視遠(yuǎn)山或樹枝,直到 ‘靈韻降臨’,人與景物產(chǎn)生一種神秘共鳴?!?/p>
德國哲學(xué)家本雅明在代表作《機(jī)械復(fù)制時(shí)代的藝術(shù)作品》中,如是形容這種獨(dú)一無二、物我兩忘的審美體驗(yàn)。這是一種難以復(fù)刻的獨(dú)特感受,與AI支配下泥沙俱下、批量生產(chǎn)的虛幻景觀大相徑庭。
人類如蘆葦般孱弱,卻因思想而擁有尊嚴(yán)。我們可以聽見聲音、接收畫面、有身體的觸感,也可以知道空間感的放大縮小、呼吸的節(jié)律,以及細(xì)默之處未曾言明的情感表達(dá)。這些細(xì)膩幽微的情緒,是人類最難以被模擬與替代的部分。
“Technology is an extension of life.(技術(shù)是生命的一種延伸)”。凱文凱利在《科技想要什么》一書中曾表達(dá)過同樣的觀點(diǎn),如果人類與 AI 發(fā)展的終極理想,是實(shí)現(xiàn)人與技術(shù)的共生共舞,讓人工智能真正擁有接近人的思考、生命力與表達(dá)力,那么一個(gè)不容忽視的現(xiàn)實(shí)是:時(shí)至今日,人與 AI 最主流的交互方式,依然停留在文字層面。
這也成為人機(jī)協(xié)同路上一道難以繞開的障礙 —— 我們大量的所見、所思、所感,仍無法與 AI 實(shí)現(xiàn)真正的身臨其境。譬如一位癡迷奇石、對石頭懷有極致熱愛的人,若想將他眼中萬千石頭的肌理、氣韻與特質(zhì)傳遞給 AI,單純的文字描述遠(yuǎn)不足夠。一個(gè)集圖像、視覺、聲音于一體的 “石頭數(shù)字館”,才能真正支撐他與 AI 并肩鑒賞、共情共鳴。
那么,什么才是對于用戶來說更自然、更具有粘性的交互方式?

過去半年,一款名為Chance AI的app快速在紐約大學(xué)(NYU)、南加州大學(xué)(USC)等北美校園風(fēng)靡,學(xué)生們用Chance AI看穿搭、逛展覽、比較球鞋和卡牌、記錄皮膚狀態(tài)、觀察植物與寵物,甚至看圖寫詩。其獨(dú)特性在于,Chance AI 提出了一個(gè)新的產(chǎn)品形態(tài),即Visual Agent:在視覺之上建立解釋層,讓AI不僅看到事物,更參與解釋其意義,進(jìn)而幫助用戶形成判斷與品味。
在Chance AI看來,視覺不是輸入方式,而是人類的認(rèn)知系統(tǒng)?!皩θ祟悂碚f,視覺才是最直覺的操作系統(tǒng),而不是輸入框?!盋hance AI創(chuàng)始人兼CEO曾熙告訴霞光社,“從第一天開始做產(chǎn)品,我們的首頁就是沒有任何輸入框的。在我們的產(chǎn)品里面唯一的輸入框就是出現(xiàn)在評論區(qū),但是現(xiàn)在更多人是用語音,點(diǎn)開只有一個(gè)拍照按鍵,進(jìn)來以后用戶不用輸入prompt,one tap,因?yàn)檫@才是人類最直覺的方式?!?/p>
使用方式也很簡單,只需要通過Chance AI拍攝任何圖片,Chance AI就會(huì)快速將圖片內(nèi)容轉(zhuǎn)為對于圖片深層次含義的解讀。每一個(gè)圖片都不只限于“閱讀”,更多在于“理解”,即在認(rèn)識(shí)的基礎(chǔ)上解釋看見事物的意義;
此外,Chance AI也有Live模式,即實(shí)時(shí)視覺交互系統(tǒng)(Real-time Visual Intelligence System),在Live模式中,用戶可以一邊看,一邊與Chance AI交流,它還會(huì)做出對于畫面的實(shí)時(shí)視覺理解(Real-time perception)以及連續(xù)推理(Continuous reasoning,而非單次響應(yīng))。
巴塞爾藝術(shù)周現(xiàn)場,觀眾使用Chance AI「Visual Agent – Live」,在觀看作品的過程中與AI實(shí)時(shí)交流與理解
Chance AI的交互方式,打破了過去兩年間,AI通過輸入框提問、隨后獲得答案的主流形態(tài)。曾熙向霞光社表示,產(chǎn)品設(shè)計(jì)的差異源自年輕人認(rèn)識(shí)世界的底層邏輯不同,對從小使用emoji、meme和縮寫溝通的Gen Z來說,他們本身就是visual native:更習(xí)慣通過圖像和直覺理解世界,而不是先組織語言再提問。也就是說,越來越多的年輕人對于現(xiàn)實(shí)世界的認(rèn)知方式是從“先提問再理解” 轉(zhuǎn)變?yōu)椤跋瓤匆娫倮斫狻薄?/p>
對圖像的精準(zhǔn)理解離不開Chance AI的技術(shù)突破。MMMMU-Pro 是目前最嚴(yán)苛的多模態(tài)基準(zhǔn)測試之一,它通過過濾純文本可解題、增加選項(xiàng)干擾,并將問題嵌入圖像中,真正考察 AI 是否具備人類級別的視覺理解與跨學(xué)科推理能力,而非依賴模式匹配或文字捷徑。Chance AI Visual Agent 在 MMMU 相關(guān)評測中以 86.07% 的準(zhǔn)確率位列世界第一,在藝術(shù)理解、結(jié)構(gòu)分析與跨語境解釋等任務(wù)上表現(xiàn)優(yōu)秀,甚至超越了人類在2024年的成績。
實(shí)際操作上也可見Chance AI的出色表現(xiàn),如下圖所示,為一塊坐標(biāo)于洛杉磯的市中心的石頭,在Chance AI的“看見”里,不只有關(guān)于石頭的來歷故事——即一位藝術(shù)家把這個(gè)石頭從內(nèi)華達(dá)州搬過來花了1300萬美金,還有這一故事背后的意義:這場搬運(yùn)是為了體現(xiàn)美國的種族和階級對立的問題。

更重要的是,Chance AI真正意義上做到了千人千面地幫助人理解世界。在Chance AI,每個(gè)人的頁面都是個(gè)性化的,因?yàn)椴煌丝匆姟⒏惺艿氖澜绱嬖诓町?。而在Chance AI已經(jīng)布局的不同國家/地區(qū),用戶之間的差異化也能反饋出地區(qū)的特性,這是Chance AI的獨(dú)特價(jià)值——勾勒用戶眼中的世界。
在效率工具泛濫的當(dāng)下,Chance AI的魅力在于,當(dāng)用戶以主動(dòng)探索的方式理解事物,他會(huì)逐漸形成自己的判斷:什么是好的,什么是有價(jià)值的。也正因此,人們在使用AI過程中常出現(xiàn)的顧慮,如是否會(huì)面對更為千篇一律的AI流水線產(chǎn)品、AI是否會(huì)讓人喪失思考的能力,似乎不再需要猶疑。個(gè)性化的反饋、對事物更深的理解,都能讓用戶開始重新激發(fā)好奇心——那些曾經(jīng)習(xí)以為常的東西,會(huì)再次變得值得被解讀。
一些北美高校學(xué)生們表示,“有時(shí)候我不是想問什么,我只是想看看它會(huì)怎么看。”“I started noticing things I used to ignore”,這或許也符合了Chance AI對于年輕一代認(rèn)知世界的判斷:“視覺讓理解更直接,也讓好奇心重新成為驅(qū)動(dòng)力。用眼睛理解世界,正在成為一種新的基礎(chǔ)行為?!倍@一“主動(dòng)探索”的體驗(yàn)感,形成了用戶與Chance AI的持續(xù)使用粘性。
事實(shí)上,人類對現(xiàn)實(shí)的認(rèn)知,往往始于視覺,先看見,再感受,然后逐漸形成判斷。“visual reasoning是幫助你找到它的Perception跟knowledge,然后再加上connection就是它的社會(huì)共識(shí),這樣組成了今天的產(chǎn)品形態(tài)?!痹醺嬖V霞光社。
與此同時(shí),行業(yè)層面也展現(xiàn)出了年輕用戶傾向于使用視覺交互的趨勢:其一是,多模態(tài)交互(Lens / Circle to Search / AI Overviews)在年輕用戶中的增長最快;其二,Google Lens每月產(chǎn)生超過三十五億次級視覺搜索請求。
截至目前,Chance AI的全球年輕用戶已突破20萬,在iOS歐美多個(gè)國家進(jìn)入下載榜Top 3,并在Product Hunt上兩次獲得當(dāng)日最佳產(chǎn)品(Product of the Day)。在剛剛過去的香港Art Central藝術(shù)展上,Chance AI也作為官方創(chuàng)新合作伙伴,深度融入觀眾的觀展體驗(yàn),這一能力也首次得到了真實(shí)場景的驗(yàn)證。
面向未來的可能性,曾熙表示,手機(jī)拍照分享目前是圖片數(shù)據(jù)來源最直接、量最大的場景?!艾F(xiàn)在我們的數(shù)據(jù)是,每個(gè)北美的女生每天會(huì)拍2.8次的穿搭,這是非常海量的數(shù)據(jù)?!倍曈X數(shù)據(jù)本身就創(chuàng)造了價(jià)值,“我們想把Visual Agent engine這‘發(fā)動(dòng)機(jī)’給搭好,以后我們會(huì)有更豐富的數(shù)據(jù),會(huì)形成視覺的社區(qū),這就是最大的價(jià)值?!?/p>
曾熙早年在 University of Barcelona 獲得博士學(xué)位,研究方向集中在認(rèn)知科學(xué)與當(dāng)代藝術(shù),關(guān)注人類如何通過視覺理解世界、形成判斷與意義。 隨后,他先后在 OnePlus、OPPO 負(fù)責(zé)產(chǎn)品與設(shè)計(jì),并參與構(gòu)建面向數(shù)億用戶的硬件定義與系統(tǒng)體驗(yàn)。 在ByteDance期間,他在Flow擔(dān)任產(chǎn)品與設(shè)計(jì)高級總監(jiān),參與AI相關(guān)產(chǎn)品從0到1的探索(豆包)體系的早期構(gòu)建。豆包代表了這一代 AI 產(chǎn)品的典型形態(tài):以對話為核心入口。
這段經(jīng)歷讓他意識(shí)到一個(gè)結(jié)構(gòu)性問題:當(dāng)前AI已經(jīng)非常擅長“生成語言”和“回答問題”(尤其是大廠的必爭之地,因?yàn)殡xLLM很近),但對于人類如何在現(xiàn)實(shí)世界中形成理解,尤其是基于視覺的直覺判斷——仍然缺乏支持。因?yàn)檫@直接決定了,每一個(gè)事物的“意義”。
在他看來,這不是一個(gè)功能缺失,而是一個(gè)交互范式的空白:AI已經(jīng)很會(huì)“說”,但還不夠會(huì)“看”。Chance AI正是在這個(gè)判斷下誕生:如果AI的下一階段不只是回答問題,而是參與人類理解世界的過程,那么視覺能力可能會(huì)成為新的入口。他正在為了下一個(gè)時(shí)代的AI終端做準(zhǔn)備。
我們處在一個(gè)科技大發(fā)展的時(shí)代,無數(shù)高速迭代的科技產(chǎn)品快速出現(xiàn)、又快速成為舊聞,科技已經(jīng)包圍、席卷了人的工作與生活。對科技產(chǎn)品的贊嘆和恐懼,交織在一起,成為現(xiàn)代人普遍的心理情結(jié)。
而在每一場技術(shù)的變遷中,一個(gè)有趣的現(xiàn)象是:如何落地從來不是由發(fā)明者決定的,而是由用戶和它如何交互決定。比如作為通信工具的手機(jī),最終演變成了觸屏的交互方式,才能變?yōu)橛脩羧杖?、時(shí)時(shí)無法離身的“肉體外掛”。
AI時(shí)代的交互或許也是無處不在的。在談及“Chance”這一名稱的由來時(shí),曾熙表示,這個(gè)名字源于他對當(dāng)下生活方式的一種觀察。在高度算法化的環(huán)境中,人們越來越習(xí)慣沿著被推薦的路徑前行,日常經(jīng)驗(yàn)變得可預(yù)測且重復(fù),而真正具有啟發(fā)性的時(shí)刻,往往來自那些未被預(yù)設(shè)的“偶然”。
這些“偶然”的瞬間,或許才是生命特有的視角。不再來自技術(shù)的機(jī)械和重復(fù),而是一個(gè)充滿“人味兒”的生命脈動(dòng)。
特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn),不代表DoNews專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)