百川智能攜手鵬城實驗室突破國產算力大模型長窗口技術

來源：中國經濟網發布時間：2023-11-20 9:51

　　11月16日，百川智能與鵬城實驗室宣布攜手探索大模型訓練和應用，合作研發基于國產算力的128K長窗口大模型“鵬城-百川·腦海33B”。這是國產算力大模型創新與落地的一次實踐，對國產算力大模型發展具有積極示范作用。

　　百川智能攜手鵬城實驗室助力國產算力大模型創新

　　眾所周知，訓練大模型需要海量的算力，并且大模型參數數量的增長與算力的平方成正比。大模型性能的競爭，一定程度上是算力的比拼。在復雜多變的國際環境下，國內算力供給與需求之間的“鴻溝”持續擴大，國產化算力已經成為國內大模型企業的必要選擇。

　　雖然國內諸多企業在通用AI芯片方面早有布局，在芯片量產、生態構建、應用拓展領域也取得了不錯進展，但基于國產算力訓練大模型，仍面臨著生態建設、成本控制、能效比優化等阻礙。因此算力完全自主，仍需要芯片廠商、大模型企業、學術科研機構等多方共同努力。

　　百川智能表示，百川智能希望通過開源、與合作伙伴共創等方式助力中國大模型創新，繁榮本土大模型生態。鵬城實驗室作為國家戰略科技力量的重要組成部分，在國產算力大模型研發和應用等方面一直處于國內領先位置。未來，百川智能將在技術、算力等諸多維度不斷深化與鵬城實驗室的合作，持續助力本土大模型創新發展。

　　國產算力最長上下文窗口，“鵬城-百川·腦海33B”率先實現國產算力技術突破

　　百川智能和鵬城實驗室共同研發的“鵬城-百川·腦海33B”128K長上下文窗口基于“鵬城云腦”國產算力平臺訓練，未來可升級至192K，是基于國產算力訓練的最長上下文窗口。

　　上下文窗口長度是大模型的核心技術之一。通常而言，更長的上下文窗口可以提供更豐富的語義信息、消除歧義，能夠讓模型生成的內容更準確、更流暢。

　　“鵬城-百川·腦海33B”在數據集構建方面，采用精細的數據構造，實現了段落、句子粒度的自動化數據過濾、選擇、配比，良好的提升了數據質量；在訓練架構上，通過NormHead、max-Z-Loss、dynamic-LR等自研或業界領先的模型訓練優化技術，對Transformer模塊進行深度優化；此外，還在全生命周期的模型工具集中，首創了帶安全約束的RLHF對齊技術，有效提升了模型內容生成質量和安全性。

　　未來，雙方將在國產算力大模型技術創新和模型落地等方面繼續加強合作，并與相關領域的優勢單位如北京大學、清華大學等開展協同創新，助力本土大模型在模型性能、技術創新方面持續突破，推動本土大模型進一步開源開放，為更多行業智能化轉型提供幫助和支持。

上一篇：微信新功能上線！騰訊地圖更新！“小修小補”引路行動迎來全面升級

下一篇：《下一代互聯網關鍵技術專利分析》報告發布騰訊專利有效量位居全球企業首位

相關資訊