2024 年 OpenAI 一直給我種違和感:他們究竟是 AI 公司,還是 Consumer App(消費性應用)公司?
為什麼不斷推出消費端功能,甚至有些已經算是「套殼(AI Wrapper)」 了?OpenAI 還在追尋 AGI(通用人工智慧)的路上嗎?
這些疑惑,在 OpenAI 的十二天發表會結束後,變得更加強烈。
發表會最後一天,OpenAI 發表了 o3 模型,其數學與程式能力,已經超過世界上絕大多數的人;既有各項標準(benchmark)裡,表現也至少跟人類平均差不多或略好。
然而,儘管 o3 非常驚艷,其餘部分的發表則都是消費端功能,如搜尋、文件與協作、影片生成。發表會雖然展現 OpenAI 的研發實力,卻同時暴露出 OpenAI 現在的困境。我總結為 Consumer、Copycat、Commodity 三大彼此糾纏的問題:
- Consumer:不是強項,沒有優勢,卻非做不可
- Copycat:新技術一曝光,就會立刻被抄襲
- Commodity:AI 技術缺乏護城河,難以差異化
以下會先快速簡介 o3 模型,並逐一討論 OpenAI 的困境與可能的解法。
o3:接近 AGI、最強的推理模型
o3 是現今最強大的 AI 推理模型,在數學與程式能力上碾壓人類:
- 在程式競賽平台 Codeforces 拿到 2727 分,排行世界 175 名。
- 美國數學邀請賽AIME,拿到接近滿分的 96.7%。
- ARC-AGI benchmark 拿到 87.5%。
- FrontierMath 拿到 25%。
OpenAI 研究副總裁 Mark Chen 陳信翰,曾指導美國程式競賽選手,他說自己在 Codeforces 是 2500 分左右。
ARC-AGI 專門提供人類擅長、但 AI 極不擅長的抽象推理題。o3 拿到 87.5%。人類通常能拿到 85% 以上。相較之下,其他模型大概只能有 20~55% 之間。
FrontierMath 則是由頂尖數學家出題的極高難度題目,即使是專業數學家,也要花費數小時到數天才能完成。由於是全新出題,因此不可能「洩題」出現在訓練資料。而 o3 拿到 25.2%,碾壓過往其他模型的 2%。
簡單說,世界上已經快沒有什麼考試難得倒 o3 了。
樂觀而言,o3 已經是 AGI 了。它可以做到大多數人類做不到的事,而在人類做得到的事情裡,也跟人類表現差不多。唯一的缺點是非常貴,並可能耗費數十甚至數百小時。
雖然目前只有數字,沒有對外開放,但 o3 已足以重新點燃人們對於 AI 進展的希望。我們可以大膽想像,在不遠的未來,所有難題都可以像圍棋一樣被 AI 解決。OpenAI 也正與 ARC 基金會合作制定新的標準。
不過,如果我們攤開 OpenAI 十二天發表的內容,可能會覺得有些奇怪:
- Day 12:發表 o3,世界上最接近 AGI 的模型。
- Day 11:桌面版 ChatGPT,可跨 app 讀取資料、操作功能。
- Day 10:可以打電話或傳訊息給 ChatGPT。
- Day 09:o1 API 更新、Realtime API 降價。
- Day 08:搜尋功能,開放給免費用戶。
- Day 07:可以在 ChatGPT 裡創專案。
- Day 06:更自然的語音。
- Day 05:ChatGPT 加入 Apple Intelligence。
- Day 04:升級版 Canvas(讓 ChatGPT 跟文件互動)。
- Day 03:開放 Sora Turbo 影片生成模型(可惜大眾廣泛使用後,成果不盡理想)。
- Day 02:發表新的微調方法 Reinforcement Fine-Tuning。
- Day 01:開放推理模型 o1,以及 o1 用到飽的 Pro 方案(US$200 / 月)。
為什麼,一間做得出 AGI 的公司,要分心花時間做前面的內容?有些天的內容實在有點水,為什麼要拆成十二天來講?
這也就帶到 OpenAI 的第一個困境:Consumer。
Consumer:不是強項,沒有優勢,卻非做不可
理由是,OpenAI「不得不」。
OpenAI 有強大的募資壓力。ChatGPT 不僅不賺錢,2024 年陪了約五十億。OpenAI 必須藉由發表 Consumer 應用,引起大眾與媒體的反應,進而營造對自己更有利的募資環境。
發表會分成十二天,部份可能是為了節省成本,不想搞太過盛大的實體場地;另一方面,也可以確保至少這十二天,都有一定的新聞版面。
相較之下,競爭者如 Google、Meta、微軟,都在消費者領域具備更強的競爭力與經驗。靠 Consumer 成為首富的馬斯克,也成立 xAI 虎視眈眈。他們都有一隻甚至好幾隻金雞母,提供源源不絕的現金流,每次發表新 AI 技術,都可能推動股價成長,提供公司更多資金。
OpenAI 則沒有任何能提供現金流的資產,也並非 Consumer 起家,本質上更像研究團隊。回顧歷史,Sam Altman 也不是做 Consumer 的專家,第一次創業的消費性軟體公司(Loopt)以失敗收場,ChatGPT 甚至是我至今用過 bug 最多、最容易全球大當機的 Consumer 應用。
可是 OpenAI 沒有選擇。更麻煩的是,如今如果還只是不斷推出模型,恐怕只會更加不利。當全世界的目光都在他們身上,抄襲者也時刻蠢蠢欲動。
Copycat:新技術一曝光,就會立刻被抄走
抄襲遠比創新容易。OpenAI 花費八個月研發的模型,競爭者可能只需不到一半的時間就能抄完。即使不透露技術細節、甚至不開放給大眾使用,競爭者依然能快速模仿。
其中,最好的例子是 Sora。二月發表後,可靈、海螺、Runway 迅速推出自己的模型,品質大同小異。十二月,Google 推出的 Veo 2 則遙遙領先現有模型。
而在此之前,沒有人能做出穩定的影片生成模型。Sora 的思路非常創新,卻沒有辦法阻止競爭者進入。
推特上有人用同一個 prompt,測試包含 Veo 2、可靈、海螺、Runway 與 Sora 等多家不同影片生成模型。結果可見,Sora 不要說領先了,甚至連擠進中段班都有點勉強。
Let’s have a good old fashioned GenAI steak-off! 🥩
— Blaine Brown (@blizaine) December 17, 2024
This test is very challenging for AI models. Hands, consecutive slicing physics & movement, interpretation of ‘steak done perfectly’, steam, juices, etc.
Who did it best? Who’s your top three? pic.twitter.com/SpbhttNkjQ
(影片都是用同一個 prompt,並且生成了四支影片,取其中最好的。)
這自然與二月 Sora 剛發表時的聲勢有嚴重落差。當然,Sora Turbo 可能為了顧及成本與時間,而降低了生成的品質,而 Google Veo 2 尚未公開,或許屆時大規模開放時成品也會下滑。但這也同時點出,在 Consumer 的世界裡,OpenAI 並沒有競爭優勢。甚至因為分心多項模型,而無法專注在單一題目。
(圖片生成模型 DALL.E 是另一個例子,完全落後於 Midjourney、開源的 FLUX。)
我有時會把 AI 模型比作半導體晶片。兩者都是 Consumer 產品的核心,卻不是產品的全部。電子產品除了晶片,還需要外殼、按鈕、機械結構;同樣地,AI 產品不只需要模型,還需要 UI 與互動設計。
兩者也都依附於一套毫無物理根據、純粹人為的「定律」。晶片產業長年信仰摩爾定律,而成為自證預言;現在的 AI 產業,則相信 Scaling Law,不斷強調「There's no wall」,想讓大家相信,AI 發展沒有遇到牆。自證預言或許是人類的一大魔法。只要有一群人相信了,還真什麼都做得出來。
然而,半導體與 AI 有個根本性的不同,即前者是硬體,後者是軟體。
硬體天生有「規模化」的護城河。你不僅得找到方法做,還得做得比別人更多、更便宜。光是知道半導體原理沒有用,真正的商業價值存在於流程制定、人員管理、成本控管。
因此,硬體具備一定程度的抗抄襲能力。數十年的晶片戰爭裡,俄羅斯、中國多次派出商業間諜偷取機密,但最終依然失敗。因為半導體比的不只做法,還有良率和流程。
軟體則不同。AI 模型一旦訓練好,就能被快速複製與部署,幾乎沒有「良率」問題(頂多要手動禁止模型說出特定名字)。而只要找到對手訓練模型的「秘訣」,就能很快做出效果差不多的模型。
正因這個特性,長遠而言,AI 將會逐漸大宗商品化(commoditize),使得各家模型失去差異化。
Commodity:AI 技術缺乏護城河,難以差異化
Commodity(大宗商品)如瓶裝水、衛生紙,不同供應商之間無法差異化,因此無法超額定價。最終所有利潤,都會在競爭中被弭平,定價接近於成本。
回顧從 2022 年底至今,兩年多的時間裡,我們正見證 AI 技術 commoditize 的過程。
2022 年底,只有少數人知道 Midjourney、DALL.E 等圖片生成模型,生成品質也不怎麼樣。ChatGPT 推出即轟動,但也只有部分人常態性使用它。
但如今,幾乎沒有人不知道 ChatGPT。許多人遇到問題會先去問 AI;在社群上吵架時,貼 ChatGPT 的回答;甚至有新聞報導,內容就只是網友問 AI 的結果。
儘管今天 o3 讓我們驚掉下巴,但半年或一年後,或許就有一個基於 Gemini、Llama 的推理模型,也具備類似的解題能力,解題成本也隨著新的摩爾定律而逐年降低。
人是非常擅長「習慣」的生物。我們會逐漸習慣遇到任何難題,就讓 AI 先解解看;就如同我現在已經習慣,遇到「大概知道怎麼寫,但懶得自己寫」的程式,會先讓 AI 寫一遍試試,有問題再手動修改。
屆時,到底用的是 o3,還是 Gemini 系、Llama 系,其實並沒有太大差異 —— 只要問題能解決就好。
Commoditize 對社會大眾或許是福音,對供應商卻不是好消息。沒有競爭門檻,就無法避免削價競爭,也就無法獲取利潤。
總結 OpenAI 的困境:
- 做 Consumer 很燒錢,但為了取得資金不得不做;
- 做技術,會在半年到一年內被抄;
- 長遠而言,不僅無法壟斷技術,反而因缺乏競爭門檻而進入削價競爭。
那麼,OpenAI 有辦法脫離困境嗎?
擺脫兩難的可能策略:改做企業端
脫離困境的一種可能策略是:改做 B2B。
企業端對於 AI 的需求與個人不同。企業更重視資料安全性,及能否根據產業需求客製化。自從 ChatGPT 問世以來,就一直有企業端需求。一些公司甚至為了避免資料外洩,而禁止內部使用 ChatGPT。
OpenAI 最顯而易見的獲利手段,向來是提供「企業版 ChatGPT」。不只提供個人版 ChatGPT Plus,也提供專屬企業的協作工具,依人頭數收費。甚至可以提供企業專屬的 GPU,確保資料不外洩,並部署依內部資料微調後的模型,收取更高的費用。
改走 B2B 路線,也可以擺脫上述三個 C 的困境。企業資料是一種「轉移門檻」護城河,即使其他競爭模型有類似能力,卻沒法取得企業的內部資料。只要 OpenAI 持續維持半年至一年的技術領先,就可以繼續讓企業高層安心續約。
而個人版 ChatGPT 便可以視為「行銷預算」,用來激起大眾對於 AI 的想像。員工試用後,也可能由下而上,說服公司高層採用企業版(即 PLG 路線)。
然而,OpenAI 似乎不曾考慮深化企業端服務,主路線依然是提供 API,而非直接提供解決方案或為各企業客製化。這也讓許多新創公司有了生存空間,透過企業版客製化 AI 服務盈利。
我自然不知道真正的理由,但一個可能性是微軟的箝制。據《The Information》報導,微軟與 OpenAI 的協議是微軟可以取得 OpenAI 的技術,直到開發出 AGI(定義為可產生 1000 億美元利潤的系統)。那麼,是否可能雙方協議內容還包含由微軟提供企業服務,OpenAI 不能與之競爭?
這份與微軟的協議也能解釋,為什麼 Sam Altman 非常積極推動將 OpenAI 從非營利組織轉型成營利公司。若能自由募資,就能避免為了資金簽訂奇怪的協議。
當然,以上只是推測,可能只是消息沒有浮上新聞,或單純是:做這個很不酷。幫企業做聊天機器人,實在不像是間革命性的新創公司。OpenAI 或許不想成為接案公司,Sam Altman 或許想成為下一個賈伯斯。
這也可以視為矽谷的兩條路線之爭。你可以成為蘋果,堅持只做最新最酷的消費性產品;或是成為微軟,在企業端獲利。只不過對於 OpenAI 來說,B2B 縱使不酷,可能比提供免費的 ChatGPT,更能讓公司生存下去。