美國對(duì)中國實(shí)施芯片制裁措施,正促使中國科技從業(yè)者加速研發(fā)不依賴最新美國芯片的先進(jìn)人工智能(AI)技術(shù)。
華爾街日?qǐng)?bào)檢驗(yàn)研究論文并采訪員工后發(fā)現(xiàn),中國從業(yè)者正在研究利用更少、性能沒那么強(qiáng)大的半導(dǎo)體,就能達(dá)成最先進(jìn)AI性能的技術(shù),同時(shí)也研究如何組合不同類型的芯片,避免只仰賴單一類型芯片。
包括華為、百度與阿里巴巴,都是想辦法從現(xiàn)有的電腦芯片中發(fā)掘更多用處的行業(yè)。
研究人員和分析師表示,利用這些變通的方法來追上美國AI領(lǐng)導(dǎo)者,實(shí)際上仍是一大挑戰(zhàn),但一些實(shí)驗(yàn)顯示,如果取得成功,這些研究可讓中國科技行業(yè)同時(shí)挺過美國的制裁措施,并且在面對(duì)未來的限制措施時(shí),自身將更具韌性。
華為和百度不愿回應(yīng)置評(píng),阿里巴巴則沒有理會(huì)置評(píng)。
隨著要將ChatGPT這類模型商業(yè)化的競(jìng)賽升溫,全球企業(yè)需要更多性能強(qiáng)大的芯片,同時(shí)還要想辦法竭力善用這些芯片,以便壓低這些飆高中的AI研發(fā)成本。
對(duì)中企來說,這是個(gè)極關(guān)鍵的問題,因?yàn)槊绹闹撇么胧o法使企業(yè)獲得像是英偉達(dá)(Nvidia)制的最先進(jìn)芯片,此外,員工、AI研究人員和產(chǎn)業(yè)分析師表示,中企已迅速消耗掉現(xiàn)有的美國芯片來打造與ChatGPT相類似的軟件。
臉書母公司Meta Platforms的AI基礎(chǔ)架構(gòu)與大型語言模型研究人員張?zhí)K珊(Susan Zhang,音譯)表示:「目前可以從字里行間看出他們?cè)噲D尋找世界上任何一種運(yùn)算方式來彌補(bǔ)先進(jìn)硬件的不足?!?/span>
北京最高決策機(jī)構(gòu)上月表示,中國應(yīng)鼓勵(lì)A(yù)I研發(fā)創(chuàng)新;美國拜登政府在去年10月全面限制向中國供應(yīng)芯片后,已明示未來可能進(jìn)一步實(shí)施限制措施。
中企現(xiàn)在無法獲得目前最受業(yè)界歡迎的AI開發(fā)芯片A100,以及3月推出的新一代版本、能提供更多算力的H100芯片。
不過,英偉達(dá)為中國市場(chǎng)創(chuàng)造出降級(jí)版的芯片,分別是A800與H800,兩款修改后的芯片降低芯片與芯片之間的溝通能力。這些產(chǎn)品可為開發(fā)小型AI模型提供有效的替代方法,這類小型AI模型就像是驅(qū)動(dòng)短視頻App抖音(TikTok)的推薦算法所使用的模型。不過,這類芯片無法用于發(fā)展大型AI模型,因?yàn)榇笮虯I模型需要數(shù)百或數(shù)千個(gè)芯片共同協(xié)力運(yùn)作,舉例來說,瑞銀分析師估計(jì)訓(xùn)練像ChatGPT的AI模型,需要5000至10000個(gè)A100芯片來進(jìn)行訓(xùn)練。
與政府有關(guān)的半導(dǎo)體產(chǎn)業(yè)協(xié)會(huì)的調(diào)查顯示,在中國境內(nèi)可用于訓(xùn)練大型AI模型的A100芯片大約有4萬個(gè)至5萬個(gè),顯示供應(yīng)吃緊。知情人士說,在美國制裁前就已囤積A100芯片的阿里巴巴與百度等行業(yè)都已嚴(yán)格限制內(nèi)部使用外國的先進(jìn)芯片,把這些芯片保留用于需要強(qiáng)力運(yùn)算的任務(wù)。
根據(jù)開源研究論文和知情人士透露,百度近年來一直尋求將海光信息的DCU、華為的AI訓(xùn)練芯片Ascend以及自家的昆侖芯片等國產(chǎn)芯片整合到AI研發(fā)中。一些知情人士說,許多國產(chǎn)芯片在訓(xùn)練大規(guī)模模型時(shí)仍然不可靠,因?yàn)槿菀装c瘓。
另據(jù)經(jīng)營AI基礎(chǔ)設(shè)施公司HPC-AI Tech的新加坡大學(xué)教授尤洋的說法,許多中企正試圖把三或四種不怎么先進(jìn)的芯片組合在一起,來模擬英偉達(dá)最先進(jìn)處理器的性能。
例如在4月,騰訊就公布了一套新的運(yùn)算群,即使用英偉達(dá)H800芯片進(jìn)行大型AI模型訓(xùn)練的一組連結(jié)芯片。
尤洋說,這種做法可能非常消耗成本,例如一家美企若需要1000個(gè)H100芯片來訓(xùn)練大型語言模型,那么一家中企便需要3000個(gè)以上的H800芯片來達(dá)成同樣成果。
雖然在全球研究圈中仍不太使用這類方法,而且難以實(shí)行,但中國研究人員目前已經(jīng)取得了一些進(jìn)展。例如華為研究人員在3月的一篇論文中展示如何只利用該公司的Ascend芯片、而不使用英偉達(dá)的芯片,來訓(xùn)練華為最新一代大型語言模型。盡管存在缺點(diǎn),但這個(gè)名為PanGu-Σ的模型已達(dá)到一些漢語任務(wù)的先進(jìn)性能表現(xiàn),包括閱讀理解和文法問題。