來源:博觀科技日期:2023-04-19 16:05:39
自2022年stable diffusion模型的進步推動AIGC的快速發(fā)展后,年底,ChatGPT以“破圈者”的姿態(tài),快速“吸粉”億萬,在全球范圍內掀起了一股AI浪潮,也促使了眾多海外巨頭競相發(fā)布屬于自己的大模型。
而在國內,實際上很久之前,阿里、華為、騰訊等公司便早已有所布局:2019年,阿里開始布局大模型研發(fā),去年9月發(fā)布“通義”大模型系列的眾多大模型;華為在2021年基于昇騰AI與鵬城實驗室聯(lián)合發(fā)布了鵬程盤古大模型;而騰訊的思路也與阿里相似,發(fā)布了混元AI大模型;第二梯隊的京東、網(wǎng)易、360、字節(jié)跳動等企業(yè),也紛紛官宣了自己在AI大模型方面的布局。
而進入2023年以來,隨著文心一言的發(fā)布,成為了中國第一個類ChatGPT產品后,各家的大模型也紛紛亮相,一時間,國內仿佛陷入了“大模型之戰(zhàn)”中。
截至目前,百度文心大模型、華為盤古大模型、商湯大模型、阿里大模型都已亮相,而后還有許多大模型正在準備粉墨登場。
那么,在這匆匆發(fā)布的背后,是真的技術成熟,還是魚龍混雜?各個大模型的實力又是怎樣?
一把手掛帥掌舵
撥開唇槍舌劍、劍拔弩張的背后,是各大廠一把手緊鑼密鼓的掛帥上陣的架勢。
目前,百度方面由李彥宏親自下場盯研發(fā),一名百度人士對時代周報記者表示,“文心一言發(fā)布會前以天為單位匯報進度,節(jié)奏非??臁D壳斑€是由CTO王海峰牽頭,副總裁吳甜直接負責大模型。研發(fā)大模型的主力是自然語言處理技術部門,吳甜則在2010年就進入該部門。”
華為盤古公開負責人是華為云人工智能領域首席科學家田奇;阿里方面的大模型研究一直放在阿里云的達摩院,由阿里云智能 CTO、 阿里云首席科學家周靖負責,阿里CEO張勇兼任阿里云CEO;騰訊混元助手項目則是由騰訊最高級(17 級)研究員、騰訊首席科學家張正友負責。
字節(jié)目前尚未發(fā)布自研大模型相關進度。但一名字節(jié)內部人士告訴時代周報記者“我們內部有一個娛樂性質的接口,不確定是自研發(fā)還是調用ChatGPT。涉及敏感問題比如內部架構,它都能回答得出來,且答案玄妙,結合了實際情況和民間流傳版本?!?/p>
各大廠一把手掛帥涌向AI,不難看出大廠管理層對大模型的重視。
事實上,這場人工智能取代人類的大風蓄力已久,從1950年的圖靈測試到今天,人工智能走了73年。百度、阿里、華為等公司最早在2019年開始研發(fā)自家大模型,如果從人工智能的投入開始計算,百度至少在2010年已經(jīng)布局。
大風背后,是更為龐大的應用場景和應用需求。
4月11日,藍色光標剛剛宣布獲得微軟云官方AI調用和訓練許可,相隔一天就有消息傳出。藍色光標管理層決定無限期全面停用文案外包。
阿里方面也宣布,未來阿里大模型將會包攬營銷圖案、產品介紹、產品描述等工作。去年已經(jīng)挑選部分商家使用該技術,原本預計花費數(shù)百萬廣告營銷圖案,可覆蓋40%的工作量。
騰訊混元AI大模型則覆蓋了自然語言處理、計算機視覺、多模態(tài)等基礎模型,且應用于騰訊微信搜索、騰訊廣告等自有業(yè)務場景??偛脛肫皆谀甓蓉攬髸显硎?,騰訊業(yè)務實際上聚焦于社交、通訊和游戲領域,這意味著大模型主要圍繞用戶間的互動,同時要求高質量的內容。
華為的盤古系列AI大模型包含NLP(自然語言處理)大模型、CV(機器視覺)大模型、科學計算大模型三大類型。CV大模型可應用于工業(yè)鐵路等行業(yè),NLP大模型應用于智能文檔搜索等領域;科學計算大模型可以應用于氣象預報、海浪預測等領域。其中,盤古CV大模型在鐵路故障檢測系中與傳統(tǒng)檢測方法相比,降低了人工成本,并且在故障樣本檢測中,識別率達到了99%以上。
可謂八仙過海,各顯神通。大廠們看中的可能不僅是AI可以提高工作效率,取代部分比較機械的工作,更重要的是這在未來可以衍生出各種需求。
Al大模型帶動算力需求增長
Al 大模型落地帶動海量算力需求。從 ChatGPT、文心一言到 BloombergGPT、DeepSpeed Chat, 近半年 AI 大模型持續(xù)推出,并在多場景廣泛深入地應用,大模型是人工智能發(fā)展的必然趨 勢,AI 大模型時代已來臨。算力是打造大模型生態(tài)的必備基礎,AI 大模型通過存儲更多的參 數(shù)來增加模型的深度和寬度,從而提高模型的表現(xiàn)能力,因此 AI 大模型的參數(shù)呈現(xiàn)指數(shù)規(guī) 模,CPT-3 的參數(shù)規(guī)模達 1750 億,PaLM-E 的參數(shù)規(guī)模更是達到了 5620 億。更多的參數(shù)意味 著需要更多的計算資源,Al 大模型在訓練和推理過程中需要消耗海量算力,AI 大模型開啟 了算力軍備賽,這帶動了算力需求的快速增長。
全球算力規(guī)模大幅增長,中國智能算力規(guī)模增速較快。2021 年全球計算設備算力總規(guī)模達到 615EFlops, 同比增長 44%。據(jù) IDC 與浪潮信息聯(lián)合發(fā)布的《2022-2023 中國人工智能計算力發(fā)展評估報 告》顯示,2021 年中國智能算力規(guī)模達 155.2EFLOPS,預計到 2026 年將達到 1271.4EFLOPS。 2021 年中國通用算力規(guī)模達 47.7EFLOPS,預計到 2026 年將達到 111.3EFLOPS。2021-2026 年 期間,預計中國智能算力規(guī)模年復合增長率達 52.3%,高于同期通用算力規(guī)模年復合增長率 18.5%。
算力在模型訓練、推理速度和數(shù)據(jù)處理等方面發(fā)揮著重要作用。(1)模型訓練:訓練一個復 雜的 AI 大模型需要大量的算力資源。在模型訓練過程中,計算機需要不斷地執(zhí)行矩陣運算、 優(yōu)化算法等操作,以調整模型的參數(shù),提高模型的準確性。較高的算力能夠加速模型訓練過 程,從而加快 AI 技術的研究和發(fā)展。(2)推理速度:在模型訓練完成后,AI 系統(tǒng)需要執(zhí)行 推理操作來處理新的數(shù)據(jù)。推理速度取決于計算機的算力和存儲速度。高效的推理速度可以 提高 AI 應用的響應速度和精度。(3)數(shù)據(jù)處理:AI 技術需要大量的數(shù)據(jù)進行訓練和推理。 計算機的算力和存儲能力可以決定 AI 系統(tǒng)能夠處理的數(shù)據(jù)量。如果計算機性能低下,AI 系 統(tǒng)可能無法處理大規(guī)模的數(shù)據(jù)集,從而限制了其準確性和性能。
AI 滲透千行百業(yè),算力在應用端同樣發(fā)揮重要作用。為實現(xiàn)業(yè)務增長、保持強大競爭力、占 據(jù)更大的市場份額,企業(yè)紛紛入局 AI 領域,各行各業(yè)的 AI 應用滲透度都呈不斷加深的態(tài)勢, 應用場景也越來越廣泛。據(jù) IDC 預計,人工智能行業(yè)應用滲透度排名 TOP5 的行業(yè)依次為互 聯(lián)網(wǎng)、金融、政府、電信和制造,到 2023 年年底,中國 50%的制造業(yè)供應鏈環(huán)節(jié)將采用人工 智能以提高效率。對于入局 AI 領域的企業(yè)來說,算力對于企業(yè)的發(fā)展非常重要,高效的計算 資源可以提高產品研發(fā)效率和產品性能,支持企業(yè)日常運營。
(1)提高產品研發(fā)效率:企業(yè) 需要不斷研發(fā)新的 AI 應用和產品,以滿足市場需求和提高企業(yè)競爭力。高效的算力資源可 以加速 AI 技術的研究和開發(fā),提高產品研發(fā)效率。(2)提高產品性能:AI 產品的性能直接 取決于算力的大小和效率。算力越高,產品性能越好,可以提供更快速、更準確的服務,從 而更好地滿足用戶的需求。(3)支持日常運營:AI 產品的日常運營過程中,用戶交互帶來的 數(shù)據(jù)處理需求同樣也需要大量的算力支持。
大模型背后的算力之爭,誰占先機?
縱觀國內發(fā)布的大模型,可以發(fā)現(xiàn),相對于國外尖端的AI企業(yè)來說,國內還像是蹣跚學步的孩童,在這條道路上剛剛起步。
而在大模型發(fā)展的道路上,最重要的實際上還是最基礎的算力資源的多少與怎樣利用算力的能力,那么國內頂尖大模型企業(yè)在算力上的儲備幾何?
首先是近日同樣發(fā)布了大模型的商湯科技,在前段時間的交流中,商湯科技內部的相關專家對公司的算力情況進行了交流。
國內能拿到最尖端的顯卡是來自英偉達的A100 GPU,商湯科技在美國對華禁售之前,便提前囤積了上萬張A100芯片,是國內算力資源比較充足的廠商。
除了來自英偉達的顯卡之外,商湯還在采購國內的GPU,并且專家表示,早在去年以前,就已經(jīng)在大裝置中適配了許多寒武紀與海光信息的GPU卡,但在當下商湯仍舊面臨著如何將國產GPU卡進行大模型訓練適配的問題。
在商湯之外,華為的盤古大模型也引起了眾人矚目,但在算力資源方面,華為卻略顯窘迫。
因為受到美國的長期制裁,華為只得使用全部國產的加速芯片,而目前昇騰系列最先進大幅使用的型號昇騰910,也只有A100 70%的性能,從長期來看,將會制約大模型的發(fā)展。
而算力的短缺也直接影響了華為的發(fā)展策略,選擇性地放棄了C端的發(fā)展,主攻B端工業(yè)大模型應用。
而說起算力資源儲備最多的企業(yè),莫過于云時代中獨占鰲頭的阿里。
但從阿里云上的角度來看,當前云上至少擁有上萬片的A100 GPU,從整體來說,阿里云的算力資源至少能夠達到10萬片以上。如果繼續(xù)抬眼,從整個集團的算力資源來說,將會是阿里云5倍的這樣的一個量級。
而在英偉達的芯片之外,阿里云也擁有眾多國產化的GPU芯片,而最近的項目中,便選擇了寒武紀MLU370,其性能基本過關(A100的60-70%),檢測合格,廠商態(tài)度積極,愿意與阿里對接,并且已經(jīng)用在了CV等小模型的訓練和推理上。
在2023年,阿里云算力資源的增速也將達到30%-50%。
得益于云時代的絕對領先,讓阿里擁有了遠超其他企業(yè)的算力資源,也讓其在AI時代里天生就占得了上風。
但是,動輒超千億參數(shù)的大模型研發(fā),并不能靠簡單堆積GPU就能實現(xiàn),這是囊括了底層算力、網(wǎng)絡、存儲、大數(shù)據(jù)、AI框架、AI模型等復雜技術的系統(tǒng)性工程,需要AI-云計算的全棧技術能力。
而阿里是全球少數(shù)在這幾個領域都有深度布局、長久積累的科技公司之一,也是為數(shù)不多擁有超萬億參數(shù)大模型研發(fā)經(jīng)驗的機構。
在AI算法方面,阿里達摩院是國內最早啟動大模型研究的機構之一,2019年便開始投入大模型研發(fā),在中文大模型領域一直處于引領地位,2021年阿里先后發(fā)布國內首個超百億參數(shù)的多模態(tài)大模型及語言大模型,此后還訓練實現(xiàn)了全球首個10萬億參數(shù)AI模型。
在智能算力方面,阿里建成了國內最大規(guī)模的智算中心“飛天智算平臺”,千卡并行效率達90%,自研網(wǎng)絡架構可對萬卡規(guī)模的AI集群提供無擁塞、高性能的集群通訊能力?;陲w天智算的阿里云深度學習平臺PAI,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍,覆蓋全鏈路AI開發(fā)工具與大數(shù)據(jù)服務,深度支持了通義大模型的研發(fā)。
阿里云全棧AI技術體系,更是從機器學習平臺、大模型即服務、產業(yè)智能三個層面,不斷豐富AI服務,并通過全棧技術驅動千行百業(yè)的AI發(fā)展與應用。
可以說,阿里在云時代的成功,在一定程度上延續(xù)到了AI時代,與那些算力資源相對不足的競爭者來說,阿里在算力與技術底座方面,有著無可比擬的巨大優(yōu)勢。
AI芯片價格暴漲,英偉達賺翻
隨著對訓練和部署人工智能軟件所需芯片的需求飆升,英偉達(Nvidia)最先進的顯卡在美國電商平臺eBay上的售價已經(jīng)超過4萬美元。
3D游戲先驅和前Meta首席技術顧問John Carmack在推特上注意到英偉達H100 處理器的價格。周五至少有8枚H100芯片在eBay上售賣,價格從39995美元到46000美元不等。一些零售商過去曾以3.6萬美元左右的價格出售這款產品。
據(jù)悉,去年發(fā)布的H100是英偉達最新的旗艦AI芯片,接替了A100,A100是一款被稱為AI應用“主力軍”的芯片,售價約為1萬美元。根據(jù)英偉達的說法,與A100相比,H100 的能效提高了3.5倍。
開發(fā)人員正在使用H100來構建所謂的大型語言模型(LLMs),這是OpenAI的ChatGPT等AI應用的核心。
這些AI模型對算力的要求極高。因此,訓練它們,尤其是像GPT這樣的大型模型,需要數(shù)百顆高端英偉達GPU協(xié)同工作。
正因如此,那些正進行AI競賽的科技巨頭們不惜斥巨資購買AI芯片。例如,微軟就斥資數(shù)億美元購買了數(shù)萬顆英偉達A100芯片,以幫助打造ChatGPT。
鄭州博觀電子科技有限公司是一家提供科技類物聯(lián)網(wǎng)開發(fā)軟硬件定制化方案服務商、也是中原地區(qū)領先的物聯(lián)網(wǎng)終端設備解決方案提供商。致力共享換電柜、智能充電樁、共享洗車機、物聯(lián)網(wǎng)軟硬件等服務平臺的方案開發(fā)與運維??偛课挥诤幽鲜∴嵵菔懈咝聟^(qū),已取得國家高新技術企業(yè)認證證書。經(jīng)過10多年的業(yè)務開拓,公司已經(jīng)形成了以中原地區(qū)為中心、業(yè)務遍布全國的經(jīng)營格局。
* 為了您的權益,您的一切信息將被嚴格保密