來源:中國電子報 發布時間:2022-7-25 9:26
從今年3月的GTC大會到6月的Computex展會,英偉達出場的主角都是Grace CPU和Hopper GPU,這意味著,從現在到未來,這兩者都將是英偉達在數據中心市場的絕對主角。英偉達希望通過命名自計算機編程界先驅Grace Hopper的最新GPU架構Hopper重新定義數據中心,搶占人工智能(AI)、高性能計算(HPC)和數據分析等需求市場,成為這波需求紅利的頭茬收割者。
人工智能、高性能計算和數據分析等市場,被鵬城實驗室研究員陳春章概括為“量子計算大規模流行之前的平行計算市場”。而筆者更愿意將其簡縮為“前量子計算市場”——量子計算機可能還需要10年到20年成熟,但對”量子級”的海量算力需求已經存在,一向以市場嗅覺敏銳著稱的英偉達CEO黃仁勛,已經“磨刀霍霍”了。
數據中心將變成AI工廠
不管品種繁多的消費電子產品市場如何消長,后端數據中心市場的增長從來不會放緩,這是為什么英偉達、英特爾、AMD等半導體廠商都把數據中心視為“兵家必爭之地”的原因。
目前這三家企業都把CPU+GPU超級混合芯片作為數據中心市場的最新“聯合作戰方案”,基于這樣的組合思路,原來沒有GPU的補GPU,沒有CPU的補CPU。在基本完成“補短板”行動之后,最近,英特爾宣布推出Falcon Shores XPU芯片,AMD推出Instinct MI300芯片,英偉達則推出Grace,這幾款“CPU+GPU”的混合芯片將在2023年、2024年陸續登場。
如何在同一市場塑造差異化,從來都是CEO們必須思考的關鍵問題,正是基于差異化思路,黃仁勛今年頻繁在各個場合釋放“未來的數據中心將變成AI工廠”的論調,并下大注推動GPU代次更迭。因為在AI市場,英偉達的GPU優勢無人撼動,如果未來的數據中心都向AI工廠轉型,那么英偉達將是這一轉型的最大獲利者。
未來的數據中心、云計算數據中心會越來越凸顯AI特征嗎?未來的數據中心會變成所謂“AI工廠”嗎?Gartner2020年發布的《云AI開發者服務關鍵能力報告》顯示,AI與云的結合將越來越緊密,AI云服務的能力也將成為AI產業的重要指標,到2025年,70%的新應用程序將集成AI模型。中國工程院院士王恩東同樣表示,當前人工智能計算需求正呈指數級增長,未來在社會總計算需求中將占80%以上,承載這種需求的就是AI算力中心。
這印證了英偉達CEO黃仁勛的判斷。英偉達認為AI人工智能計算的發展正經歷第五次浪潮。AI計算的第一次浪潮始于深度神經網絡的發現。第二次浪潮是因為云,通過云AI計算迎來第二次浪潮。AI計算的第三次浪潮是因為AI工具的開發,使得AI獲得更為容易,大型企業使用AI工具提高工作流程的質量、安全和效率。第四次浪潮是AI從云或數據中心推向邊緣,比如工廠、醫院、機場、商店、餐廳和電網等地方。AI的第五次浪潮是自主性的增長——即AI在沒有人類干預的情況下自主操控移動機械,如汽車、卡車、船舶、飛機、無人機等。
“自AI大爆炸以來,該行業已取得了迅速發展并引發了后來的計算浪潮,包括云服務、企業AI、邊緣AI和自主機器。”黃仁勛表示,“下一個機會就藏在AI工廠、云AI和邊緣AI之中。”
眼下,AI正以前所未有的速度向各行各業滲透,各個IT巨頭正在奮力突破AI加速滲透的最后瓶頸,大模型的“軍備競賽”是這場突圍的信號之一。咨詢公司IDC認為,人工智能的落地已經發展到一定階段,向前一步的瓶頸在于某一廠商往往不具備足夠的可用于模型訓練的數據資源,且缺乏充足的算力,很難將偏通用的AI模型落地到企業場景中。
模型算法、數據、算力是推動人工智能發展的三大要素,其中算力被視為人工智能走向規模化應用的“發動機”。關于這個“發動機”有多重要,AI又多能“吃”算力,AI大模型訓練對算力消耗是一個參照:阿里用了480塊GPU來訓練其千億參數模型,英偉達用3072塊GPU訓練萬億參數模型,谷歌則用2046塊TPU訓練16萬億參數的模型。所以加快提升“發動機”的能力,進一步降低算力成本,成為推動人工智能加速規模化落地的關鍵。
應對人工智能發展所需要的“指數級算力”增長,要想成為下一輪“AI工廠”競爭的頭牌,英偉達必須將GPU的算力再次推向極致。
Hopper帶來GPU代際飛躍
一直以來英偉達在GPU市場擁有絕對優勢,但AI等市場對于算力的無窮訴求,加上英特爾推出獨立GPU,以及AMD的步步緊逼,英偉達必須革新架構,進一步加寬其護城河。
兩年前,英偉達推出的GPU架構是Ampere(安培),英偉達最新的GPU新架構以美國計算機編程界先驅Grace Hopper命名,足見其希望新架構引領未來計算的企圖。
Hopper是英偉達最新的GPU架構,基于Hopper架構的GPU H100實現的性能提升,有人用“新核彈”來形容其代際飛躍。目前,基于Hopper架構,英偉達推出了面向數據中心的GPU H100,“用20塊H100 GPU,可以承托全球互聯網的流量”,這是黃仁勛的原話。
具體來看,H100 GPU芯片由800億個晶體管構建而成,采用了專為英偉達加速計算需求而優化的TSMC 4N工藝,單個H100最大支持40TB/s的IO帶寬。H100同時還集多項“首個”于一身,包括首款支持PCIe 5.0的GPU、首款采用HBM3標準的GPU,以及全球首款具有機密計算功能的GPU。
盡管GPU H100將于2023年上半年才正式供貨,但自從今年曝光以來,已在業界引發諸多震蕩。
賽迪顧問集成電路產業研究中心分析師池憲念認為,相比于上一代的安培架構,Hopper架構在工藝、張量核心、性能方面均實現了飛躍,H100還具有機密計算功能,可保護AI模型和正在處理的客戶數據。
業內資深人士認為,Hopper架構的性能提升和主要變化體現在新型線程塊集群技術和新一代的流式多處理器。英偉達在Hopper中引入了新的線程塊集群機制,可實現跨單元進行協同計算。
池憲念認為,基于Hopper的GPU H100可以作為加速計算卡來助力超級計算機的發展,極大推進了數據中心、AI超級計算產業的發展。此外,它對產業界還有以下幾點促進:一是Hopper架構的GPU產品可以應用于服務器,為AI訓練和推理以及數據分析提供更高應用性能。二是H100 PCIe規格便于集成到現有的數據中心基礎設施中,有效提高算力和減小能耗。三是H100可助力開發者和企業構建并加速AI、HPC等一系列應用,使企業可用它來加速由AI驅動的業務。
如果再加上英偉達的連接技術,那么Hopper還可以像搭積木一樣進一步拓展處理器性能。比如今年GTC大會上,英偉達推出了AI計算系統DGX H100,借助 NVLink 連接,DGX 使8塊H100成為了一個巨型GPU:擁有6400億個晶體管,具備32 PetaFLOPS的AI性能,具有640GB HBM3顯存以及24TB/s的顯存帶寬。
就像黃仁勛所宣稱的那樣,作為一家計算機平臺廠商,而非芯片企業,英偉達從來都不僅僅提供芯片,而是圍繞AI建立全棧的能力,其中芯片是關鍵基石,此外還有平臺、工具,并建立“樣板房”“樣板工廠”“樣板模型”。
目前英偉達正在構建首個AI工廠的 “樣板房”EOS。據介紹,該EOS搭載18 個DGX POD、576臺DGX H100、4608個H100 GPU。在傳統的科學計算領域,EOS的速度是275 PetaFLOPS,比 A100 驅動的美國速度最快的超級計算機Summit還快1.4倍。在AI方面,EOS的AI處理速度是18.4 ExaFLOPS,比全球最大的超級計算機——日本的Fugaku快4倍。
大模型也是近年英偉達大力投入的又一個維度。除了與微軟聯手研發大模型,最近,英偉達又聯手包括加州理工學院、伯克利實驗室在內的多家科研機構合作開發FourCastNet天氣預報AI模型。“傳統的數值模擬需要一年的時間,而現在只需要幾分鐘。”黃仁勛稱,它能夠預測颶風、極端降水等天氣事件。
布局“前量子計算”市場?
英偉達下狠心研發海量算力的GPU,H100將GPU的性能做到目前全球的頂配,陳春章認為其真正意圖正是搶占量子計算大規模流行前的需求市場,即“前量子計算市場”。目前看量子計算產業發展尚在早期,產業成熟或許還需5~10年,但市場需求已經存在。英特爾、IBM、谷歌、微軟等IT巨頭都在緊鑼密鼓進行量子計算的研究,布局未來計算的下一站。
具體來看,H100的技術性能能解決哪些重大問題?有哪些典型的應用場景?“第一是AI,第二是HPC。”陳春章表示。在AI方面,英偉達已經給出了它在訓練大模型方面的能效比,不再做討論,而HPC的典型場景包括基因序列、病毒的動態病理學研究,還包括自動駕駛、AR/VR、天氣預報、大飛機制造等。量子計算主要用在哪些場景?以IBM的量子計算為例,IBM將之用于計算化學、分子化學研究,解決藥物合成問題。H100的目標市場與量子計算市場高度重合。
本源量子公司總經理張輝說:“量子計算擅長兩類問題,一類是處理海量數據并行運算,另一類擅長模擬微觀體系下電子、原子、分子的運動規律。”張輝進一步表示,比如未來的新藥研制很可能不需要通過經驗合成,不用進行小白鼠、大型動物和人體一期、二期、三期的實驗并花費幾十年的研制周期,量子計算機模擬后可快速得出最優解決方案,極大地加速了新藥研制過程。
量子計算所擅長的場景與H100描述的典型應用場景高度一致。陳春章的判斷果然沒錯——7月12日,英偉達發布統一計算平臺NVIDIA量子優化設備架構(QODA)。英偉達稱,該平臺將加快人工智能、高性能計算、醫療、金融和其他學科的量子研發突破。
據介紹,QODA通過創建相干的混合量子經典編程模型,使量子計算更容易使用。QODA 是開放的、統一的環境,適用于當今一些最強大的計算機和量子處理器,提高了科學生產力,并使量子研究具有更大的規模。具體來看,HPC和AI領域的專家使用QODA能夠輕松地將量子計算添加至現有應用中。
此前,英偉達通過CUDA平臺+ NVIDIA GPU收割了AI市場第一茬紅利;現在英偉達希望通過QODA平臺+ NVIDIA GPU收割量子計算應用市場紅利。張輝說,量子計算機有可能還需要10年到20年才成熟,但這對于英偉達來說更是機會,“在用戶享用到量子計算之前,現在可以通過QODA平臺+NVIDIA GPU來滿足需求”。
英偉達高性能計算和量子計算產品總監Tim Costa說: “在短期內, 結合經典計算和量子計算的混合解決方案可能為科學研究帶來突破。”7月13日,英偉達在東京Q2B大會上透露,目前已經與量子硬件供應商、量子軟件供應商,以及一些國家的計算中心和實驗室就 QODA展開合作。
陳春章分析說:“英偉達公司收購Arm沒成,又沒有FPGA,果然,現在走了另外一條路線。”