時間:2024-11-28 18:22 來源:證券之星 閱讀量:5327
在AI大模型的激烈競爭中,算力資源和算法優化一直是各大企業追逐的焦點。然而,隨著技術逐漸成熟,行業的焦點正在發生微妙的轉變——從單純的模型訓練和算力投入,轉向了如何處理和利用海量、高質量的數據。
事實上,數據已經成為了大模型能否成功落地的決定性因素。11月27日,獵豹移動董事長兼CEO傅盛在接受21世紀經濟報道記者采訪時明確指出:“算法和算力并不是大模型的核心競爭力,真正的壁壘是數據。”
傅盛提到,大多數大模型公司在算法上并沒有顯著的差異化。盡管芯片和算法依然關鍵,但它們的差距并不像數據那么深刻。“如果數據沒有足夠的質量和數量,任何算法和算力的優勢都無法發揮作用。”
大模型的訓練依賴大量標注過的數據,這一過程直接決定了模型的實際效果。傅盛比喻說,模型就像一個正在成長的孩子,只有得到正確的信息,他才能正確學習。
數據面臨質量和數量雙重挑戰
然而,在數據的獲取和利用方面,大模型的發展正面臨諸多挑戰。
首先是能用于大模型訓練的真實數據正在枯竭。DeepMind在一篇論文中深入探討了Scaling問題,并得出結論:為充分訓練一個模型,其token數量需要達到該模型參數量的20倍。
目前,已知閉源模型中訓練token數最多的是GPT4,約為20T;開源模型中訓練token數最多的是LLaMA3,約為15T。照此計算,如果一個5000億參數的Dense模型要達到相同的訓練效果,則需要訓練約token數為107T,而這已遠超當前業界擁有的數據量。
因此,使用合成數據已經成為大模型的一個共識。有預測數據顯示,到2026年,自然數據將被大模型全部用完,而2030年,人工智能使用的合成數據將超過真實數據。
但傅盛認為,直接使用合成數據訓練大模型存在巨大風險。由于合成數據本身不可避免地帶有系統性偏差,若直接將其用于訓練,模型可能會錯誤地將這些偏差視為常規,長期下來,模型的認知可能會出現致命缺陷。
所以合成數據也需要進行一些處理,如人工調優或者是用其他數據進行增強,來提升合成數據質量。
而針對真實數據,最顯著的問題是利用率不高。許多企業有足夠的數據,但是訓練出的大模型效果總是不理想,原因也在于他們的數據質量不夠高。
挖掘數據服務商機
基于此,獵豹移動也看到一個商機,其控股公司獵戶星空推出了全新的數據服務產品——AI數據寶AirDS。
AI數據寶AirDS提供的服務涵蓋數據收集、清洗、標注、提示詞工程以及評估等環節。傅盛表示,因為獵豹移動自己也在訓練大模型,所以相對于傳統的數據標注公司,獵豹移動對大模型有更深刻的理解,也更能滿足企業對數據的需求。
需要指出的是,目前的數據服務依然離不開人工。在大模型時代,數據篩選、清理等環節,可以借助一些工具提高效率,但要想獲得高質量數據,人工精細標注仍是不可或缺的。
傅盛表示,在大模型時代,獵豹移動的核心業務模式并非通過模型接口來賺錢,而是通過幫助客戶實現AI應用的落地來創造價值。
該業務模式的核心是圍繞大模型的應用場景進行深度挖掘。以AI數據寶為例,獵豹移動通過數據服務產品,幫助企業客戶實現從數據清洗到標注、再到應用優化的全流程服務,這不僅大幅提升了企業的AI應用效果,也為獵豹移動創造了巨大的商業化空間。
目前,AI數據寶的成功案例已經覆蓋了多個行業,包括移動通信、互聯網娛樂、新能源汽車等。
對于大模型未來的發展,傅盛認為,盡管技術瓶頸已使得模型的迭代速度放緩,但應用場景的深度和廣度卻在不斷擴展。特別是在搜索、企業服務等垂直行業,隨著數據質量和應用能力的提升,AI有望為行業帶來革命性的變革。
“明年將是應用大繁榮的一年,”傅盛預測,“大模型的能力已經相對穩定,下一步的競爭將更多依賴于如何在特定場景中應用大模型。只要場景足夠清晰,它的爆發力將非常強。”
聲明:免責聲明:此文內容為本網站轉載企業宣傳資訊,僅代表作者個人觀點,與本網無關。僅供讀者參考,并請自行核實相關內容。