來源:中國經濟網 發布時間:2023-11-20 9:51
11月16日,百川智能與鵬城實驗室宣布攜手探索大模型訓練和應用,合作研發基于國產算力的128K長窗口大模型“鵬城-百川·腦海33B”。這是國產算力大模型創新與落地的一次實踐,對國產算力大模型發展具有積極示范作用。
百川智能攜手鵬城實驗室助力國產算力大模型創新
眾所周知,訓練大模型需要海量的算力,并且大模型參數數量的增長與算力的平方成正比。大模型性能的競爭,一定程度上是算力的比拼。在復雜多變的國際環境下,國內算力供給與需求之間的“鴻溝”持續擴大,國產化算力已經成為國內大模型企業的必要選擇。
雖然國內諸多企業在通用AI芯片方面早有布局,在芯片量產、生態構建、應用拓展領域也取得了不錯進展,但基于國產算力訓練大模型,仍面臨著生態建設、成本控制、能效比優化等阻礙。因此算力完全自主,仍需要芯片廠商、大模型企業、學術科研機構等多方共同努力。
百川智能表示,百川智能希望通過開源、與合作伙伴共創等方式助力中國大模型創新,繁榮本土大模型生態。鵬城實驗室作為國家戰略科技力量的重要組成部分,在國產算力大模型研發和應用等方面一直處于國內領先位置。未來,百川智能將在技術、算力等諸多維度不斷深化與鵬城實驗室的合作,持續助力本土大模型創新發展。
國產算力最長上下文窗口,“鵬城-百川·腦海33B”率先實現國產算力技術突破
百川智能和鵬城實驗室共同研發的“鵬城-百川·腦海33B”128K長上下文窗口基于“鵬城云腦”國產算力平臺訓練,未來可升級至192K,是基于國產算力訓練的最長上下文窗口。
上下文窗口長度是大模型的核心技術之一。通常而言,更長的上下文窗口可以提供更豐富的語義信息、消除歧義,能夠讓模型生成的內容更準確、更流暢。
“鵬城-百川·腦海33B”在數據集構建方面,采用精細的數據構造,實現了段落、句子粒度的自動化數據過濾、選擇、配比,良好的提升了數據質量;在訓練架構上,通過NormHead、max-Z-Loss、dynamic-LR等自研或業界領先的模型訓練優化技術,對Transformer模塊進行深度優化;此外,還在全生命周期的模型工具集中,首創了帶安全約束的RLHF對齊技術,有效提升了模型內容生成質量和安全性。
未來,雙方將在國產算力大模型技術創新和模型落地等方面繼續加強合作,并與相關領域的優勢單位如北京大學、清華大學等開展協同創新,助力本土大模型在模型性能、技術創新方面持續突破,推動本土大模型進一步開源開放,為更多行業智能化轉型提供幫助和支持。