來源:科技日報 發(fā)布時間:2022-1-27 9:37
當(dāng)下風(fēng)頭正勁的深度學(xué)習(xí),起源于真空管計算機的時代。1958年,美國康奈爾大學(xué)的弗蘭克·羅森布拉特受大腦神經(jīng)元的啟發(fā),設(shè)計了第一個人工神經(jīng)網(wǎng)絡(luò),這個人工神經(jīng)網(wǎng)絡(luò)被命名為“深度學(xué)習(xí)”。羅森布拉特知道,這項技術(shù)超越了當(dāng)時的計算能力,他惋惜地表示:“隨著神經(jīng)網(wǎng)絡(luò)連接節(jié)點的增加……傳統(tǒng)的數(shù)字計算機很快就會無法承擔(dān)計算量的負(fù)荷。”
幸運的是,計算機硬件在幾十年間快速升級,使計算速度提高了大約1000萬倍。因此,21世紀(jì)的研究人員得以實現(xiàn)具有更多連接的神經(jīng)網(wǎng)絡(luò),用來模擬更復(fù)雜的現(xiàn)象。如今深度學(xué)習(xí)已經(jīng)廣泛普及,被應(yīng)用于下圍棋、翻譯、預(yù)測蛋白質(zhì)折疊、分析醫(yī)學(xué)影像等多個領(lǐng)域。深度學(xué)習(xí)的崛起勢如破竹,但它的未來很可能是坎坷的。羅森布拉特所擔(dān)憂的計算量的限制,仍然是籠罩在深度學(xué)習(xí)領(lǐng)域之上的一片陰云。如今,深度學(xué)習(xí)正在逼近計算工具的極限。
巨大的計算成本
一個適用于所有統(tǒng)計學(xué)模型的規(guī)則是:要想使性能提高k倍,至少需要k2倍的數(shù)據(jù)來訓(xùn)練模型。又因為深度學(xué)習(xí)模型的過參數(shù)化,使性能提高k倍將需要至少k4倍的計算量。指數(shù)中的“4”意味著,增加10000倍計算量最多能帶來10倍的改進(jìn)。顯然,為了提高深度學(xué)習(xí)模型的性能,科學(xué)家需要構(gòu)建更大的模型,使用更多的數(shù)據(jù)對其進(jìn)行訓(xùn)練。但是計算成本會變得多昂貴呢?是否會高到我們無法負(fù)擔(dān),并因此阻礙該領(lǐng)域的發(fā)展?
為了探究這一問題,美國麻省理工學(xué)院的科學(xué)家收集了1000余篇深度學(xué)習(xí)研究論文的數(shù)據(jù),涉及圖像分類、目標(biāo)檢測、問答系統(tǒng)、命名實體識別和機器翻譯等。他們的研究顯示,深度學(xué)習(xí)正面臨嚴(yán)峻的挑戰(zhàn)。“如果不能在不增加計算負(fù)擔(dān)的前提下提高性能,計算量的限制就會使深度學(xué)習(xí)停滯不前”。芯片性能的提升是否跟上了深度學(xué)習(xí)的發(fā)展?并沒有。在NASNet-A增加的1000多倍的計算量中,只有6倍的提升來自于更好的硬件,其余都是通過使用更多的處理器或運行更長時間達(dá)到的,伴隨著更高的成本。理論告訴我們, 提高k倍的性能需要增加k4倍的計算量,但在實踐中,增加的計算量至少是k9倍。
根據(jù)研究人員估計的圖像識別領(lǐng)域“計算成本—性能”曲線,將錯誤率降到5%,需要進(jìn)行1028次浮點運算。另一項來自美國馬薩諸塞大學(xué)阿默斯特分校的研究顯示了計算負(fù)擔(dān)隱含的巨大經(jīng)濟和環(huán)境成本:訓(xùn)練一個錯誤率小于5%的圖像識別模型,將花費1000億美元,其消耗的電能產(chǎn)生的碳排放與紐約市一個月的碳排放量相當(dāng)。而想要訓(xùn)練錯誤率小于1%的圖像識別模型,成本就更是天價。
計算成本的重負(fù)在深度學(xué)習(xí)的前沿已經(jīng)變得顯而易見。機器學(xué)習(xí)智庫OpenAI斥資400多萬美元,設(shè)計并訓(xùn)練了深度學(xué)習(xí)語言系統(tǒng)GPT-3。盡管研究人員在操作中犯了一個錯誤,但他們并沒有修復(fù)它,僅僅在論文附錄中簡要解釋道:“由于高昂的訓(xùn)練成本,對模型重新訓(xùn)練是不現(xiàn)實的。”
企業(yè)也開始回避深度學(xué)習(xí)的計算成本。歐洲的一家大型連鎖超市最近放棄了一項基于深度學(xué)習(xí)預(yù)測哪些產(chǎn)品將被購買的系統(tǒng)。該公司的高管判斷,訓(xùn)練和運行該系統(tǒng)的成本過高。
深度學(xué)習(xí)路在何方
面對不斷上升的經(jīng)濟和環(huán)境成本,深度學(xué)習(xí)領(lǐng)域迫切地需要在計算量可控的前提下,提高性能的方法。研究人員為此進(jìn)行了大量研究。
一種策略是,使用為深度學(xué)習(xí)專門設(shè)計的處理器。在過去10年中, CPU讓位給了GPU、現(xiàn)場可編程門陣列和應(yīng)用于特定程序的集成電路。這些方法提高了專業(yè)化的效率,但犧牲了通用性,面臨收益遞減。長遠(yuǎn)看來,我們可能需要全新的硬件框架。 另一種減少計算負(fù)擔(dān)的策略是,使用更小的神經(jīng)網(wǎng)絡(luò)。這種策略降低了每次的使用成本,但通常會增加訓(xùn)練成本。二者如何權(quán)衡取決于具體情況。比如廣泛應(yīng)用的模型應(yīng)當(dāng)優(yōu)先考慮巨大的使用成本,而需要不斷訓(xùn)練的模型應(yīng)當(dāng)優(yōu)先考慮訓(xùn)練成本。元學(xué)習(xí)有望降低深度學(xué)習(xí)訓(xùn)練成本。其理念是,讓一個系統(tǒng)的學(xué)習(xí)成果應(yīng)用于多個領(lǐng)域。例如,與其分別建立識別狗、貓和汽車的系統(tǒng),不如訓(xùn)練一個識別系統(tǒng)并多次使用。但是研究發(fā)現(xiàn),一旦原始數(shù)據(jù)與實際應(yīng)用場景有微小的差異,元學(xué)習(xí)系統(tǒng)的性能就會嚴(yán)重降低。因此,全面的元學(xué)習(xí)系統(tǒng)可能需要巨大的數(shù)據(jù)量支撐。
一些尚未發(fā)現(xiàn)或被低估的機器學(xué)習(xí)類型也可能降低計算量。比如基于專家見解的機器學(xué)習(xí)系統(tǒng)更為高效,但如果專家不能辨別所有的影響因素,這樣的系統(tǒng)就無法與深度學(xué)習(xí)系統(tǒng)相媲美。仍在發(fā)展的神經(jīng)符號等技術(shù),有望將人類專家的知識和神經(jīng)網(wǎng)絡(luò)的推理能力更好地結(jié)合。正如羅森布拉特在神經(jīng)網(wǎng)絡(luò)誕生之初所感受到的困境,今天的深度學(xué)習(xí)研究者也開始面臨計算工具的限制。在經(jīng)濟和環(huán)境的雙重壓力下,如果我們不能改變深度學(xué)習(xí)的方式,就必須面對這個領(lǐng)域進(jìn)展緩慢的未來。我們期待一場算法或硬件的突破,讓靈活而強大的深度學(xué)習(xí)模型能繼續(xù)發(fā)展,并為我們所用。
(據(jù)《環(huán)球科學(xué)》 編譯:鄭昱虹)