更新時間:2024-10-22 20:05:11作者:佚名
2024年6月14日,第六屆“北京智慧大會”在中關村展覽中心開幕。
北京智源大會是智源研究院主辦的“人工智能專家頂級盛會”。其以“全球視野、思想碰撞、前沿引領”為特色,匯聚國內(nèi)外研究人員,分享研究成果、探索前沿知識、交流實踐經(jīng)驗。 2024北京智源大會邀請了圖靈獎獲得者姚啟智,Meta、、UC等國際明星機構(gòu)和技術(shù)團隊代表,以及百度、零一物、百川智能、智普AI等國內(nèi)主流企業(yè)代表和面壁智能。模型公司CEO、CTO云集200余位頂尖人工智能學者和行業(yè)專家,圍繞人工智能關鍵技術(shù)路徑和應用場景進行精彩演講和高峰對話。
開幕式由致遠研究院院長黃鐵軍主持。
致遠研究院院長王忠元作2024年致遠研究院進展報告,匯報了致遠研究院在語言、多模態(tài)、體現(xiàn)、生物計算大模型、全棧等方面的前沿探索和研究進展大型模型迭代升級和布局布局的開源技術(shù)基礎。
王忠源表示,現(xiàn)階段大語言模型的發(fā)展已經(jīng)具備了通用人工智能非常核心的理解和推理能力,并形成了以大語言模型為核心,對齊和映射其他模態(tài)的技術(shù)路線,從而賦予模型初步的多模態(tài)理解和生成能力。但這并不是人工智能感知和理解物理世界的最終技術(shù)路線。相反,應該采用統(tǒng)一的模型范式,實現(xiàn)多模態(tài)輸入輸出,使模型具備原生的多模態(tài)擴展能力,并演化為世界模型。 。未來,大型模型將以數(shù)字代理的形式與智能硬件集成,并以具身智能的形式從數(shù)字世界進入物理世界。同時,大模型的技術(shù)手段可以為科學研究提供新的知識表達范式,加速人類進步。對微觀物理世界規(guī)律的探索和研究突破,正在不斷逼近通用人工智能的終極目標。
智慧語言大模型
全球首個低碳單體密集萬億語言模型Tele-FLM-1T
針對大模型訓練算力消耗高的問題,致遠研究院與中國電信人工智能研究院()聯(lián)合研發(fā)推出全球首個基于模型增長等關鍵技術(shù)的低碳單密萬億語言模型和損失預測。遠程 FLM-1T。該型號與百億級52B版本、千億級102B版本一起構(gòu)成Tele-FLM系列型號。
Tele-FLM系列機型實現(xiàn)了低碳增長。僅用業(yè)界通用訓練方案9%的計算資源,基于112臺A800服務器,耗時4個月完成3個模型總計200萬個模型的訓練,成功訓練萬億密集模型Tele-FLM-1T。整個模型訓練過程零調(diào)整、零重試,算力效率高,模型收斂性和穩(wěn)定性好。目前,該系列機型的52B版本已全面開源。核心技術(shù)(增長技術(shù)、最優(yōu)超參數(shù)預測)、訓練細節(jié)(損失曲線、最優(yōu)超參數(shù)、數(shù)據(jù)比例、Grad Norm等)均開源。我們希望開源技術(shù)能夠?qū)Υ笮湍P蜕鐓^(qū)產(chǎn)生有益的推動。 Tele-FLM-1T版本即將開源。希望能夠為社區(qū)訓練萬億密集模型提供優(yōu)良的初始參數(shù),避免萬億模型訓練收斂困難等問題。
Tele-FLM-52B版本開源地址
Tele-FLM-Chat試用版(純模型單輪對話版)地址
基礎型號性能方面:BPB顯示,就英語能力而言,Tele-FLM-52B接近-70B,優(yōu)于-70B和-8B;就漢化能力而言,Tele-FLM-52B是開源最強的,優(yōu)于-70B和-70B Qwen1.5-72B。對話模型性能方面:評估顯示Tele-FLM-Chat(52B)達到了GPT-4中文語言能力的96%,整體能力達到了GPT-4的80%。
通用語言向量模型BGE系列
針對大模型幻覺等問題,致遠研究院自主研發(fā)了BGE(BAAI)系列通用語義向量模型。基于檢索增強的RAG技術(shù),實現(xiàn)數(shù)據(jù)之間的精準語義匹配,支持大模型對外部知識的調(diào)用。自2023年8月以來,BGE模型系列已經(jīng)歷3次迭代,在中英文檢索、多語言檢索、精細化檢索三項任務上取得了業(yè)界最佳表現(xiàn),綜合能力明顯優(yōu)于同質(zhì)檢索機構(gòu)模型。目前,BGE模型系列下載總量位居國內(nèi)AI模型第一,并已被、、Llama Index等國際主流AI開發(fā)框架以及騰訊、華為、阿里巴巴等各大云服務商集成, Byte、微軟、亞馬遜,并提供給外界。商業(yè)服務。
2.智慧多模態(tài)大模型
原生多式聯(lián)運世界模型 Emu 3
業(yè)界現(xiàn)有的多模態(tài)大模型大多是針對不同任務訓練的專門模型,例如針對圖像繪圖、針對繪圖視頻繪圖、針對繪圖繪圖的 GPT-4V 等。每種類型的模型都有相應的架構(gòu)和方法。例如,對于視頻生成,業(yè)界普遍選擇基于Sora的DiT架構(gòu)。然而,現(xiàn)有模型的能力大多是單一分散的能力組合,而不是原生的統(tǒng)一能力。例如,Sora目前無法理解圖像和視頻。
為了實現(xiàn)多模態(tài)、統(tǒng)一、端到端的下一代大模型,智源研究院推出了Emu3原生多模態(tài)世界模型。 Emu3采用智智自研的多模態(tài)自回歸技術(shù)路徑,對圖像、視頻、文本進行聯(lián)合訓練,使模型具備原生多模態(tài)能力,實現(xiàn)圖像、視頻、文本的統(tǒng)一輸入輸出。 Emu3 旨在從模型訓練開始就實現(xiàn)統(tǒng)一的多模態(tài)生成和理解。目前已具備生成高質(zhì)量圖片和視頻、持續(xù)視頻、理解物理世界等多模態(tài)能力。簡單來說,Emu3不僅統(tǒng)一了視頻、圖像、文本,還統(tǒng)一了生成和理解。值得注意的是,Emu3將在持續(xù)訓練過程中經(jīng)過安全評估后逐步開源。
輕量級圖文多模態(tài)模型系列Bunny-3B/4B/8B
為了適應智能終端的應用,致遠研究院推出了輕量級圖文多模態(tài)模型系列Bunny-3B/4B/8B。該模型系列采用靈活的架構(gòu),可以支持多種視覺編碼器和語言庫。模型。多個榜單的綜合結(jié)果顯示,Bunny-8B的多模態(tài)能力可以達到GPT-4o性能的87%。目前,Bunny模型參數(shù)、訓練代碼、訓練數(shù)據(jù)均開源。
開源地址:
3.智能源體現(xiàn)大模型
致遠研究院具身智能創(chuàng)新中心在機器人廣義動作執(zhí)行、智能大小腦決策控制等領域取得多項世界級突破。
全球領先的廣義爬行技術(shù),真機實驗成功率超過95%
在體現(xiàn)智能通用抓取能力方面,致遠率先突破了95%的真機實驗成功率,解決了跨任意形狀和材質(zhì)的泛化問題,從而達到了全球領先的商業(yè)級動作執(zhí)行水平。借助這項技術(shù),即使在復雜的光透射和反射的情況下,我們的機器人仍然可以準確地感知透明和高反射物體的形狀和姿態(tài),并以很高的成功率預測抓取姿勢。
分層體現(xiàn)大模型系統(tǒng) SAGE,一種反射式、適應性強的鉸接式對象操縱大模型系統(tǒng)
在層次化體現(xiàn)大模型系統(tǒng)方面,致遠開發(fā)了SAGE,一個可以從失敗中重新思考和重試的鉸接式對象操縱大模型系統(tǒng)。該系統(tǒng)有效地將小型三維視覺模型的空間幾何的精確感知與大型通用圖形模型的通用對象操作知識結(jié)合起來,使得大型模型驅(qū)動的機器人能夠在任務執(zhí)行失敗時重新思考并嘗試新的交互方法。 ,實現(xiàn)傳統(tǒng)機器人技術(shù)無法比擬的智能性和魯棒性。
分層體現(xiàn)大模型系統(tǒng):全球首創(chuàng)開放式指令六自由度取放大模型系統(tǒng)
在分層體現(xiàn)大模型系統(tǒng)方面,致遠還開發(fā)了全球首個能夠?qū)崿F(xiàn)六自由度物體拾取和放置的開放命令控制的大模型系統(tǒng)。該系統(tǒng)不僅可以像 RT系列大型模型一樣按照自然語言指令的要求將物體放置在指定位置,還可以進一步微調(diào)物體的姿態(tài)。這項技術(shù)極大地增加了大型實體操縱模型的商業(yè)應用范圍和價值。
全球首個基于端到端視頻的多模態(tài)體現(xiàn)導航大模型NaVid
在科技終端端到端體現(xiàn)大模型層面,致遠發(fā)布了全球首個基于端到端視頻的多模態(tài)體現(xiàn)導航大模型NaVid。該模型可以直接將機器人視角的視頻和用戶的自然語言指令作為輸入,端到端輸出機器人的運動控制信號。與之前的機器人導航技術(shù)不同,NaVid 不需要映射,也不依賴其他傳感器信號,例如深度信息和里程表信息。相反,它完全依靠機器人攝像頭采集的單視點RGB視頻流,僅使用合成導航數(shù)據(jù)進行訓練的條件下,實現(xiàn)零鏡頭真實,是對前沿技術(shù)的勇敢而成功的探索。現(xiàn)實世界室內(nèi)場景甚至室外場景中的機器泛化。
智能心臟超聲機器人
致遠研究院聯(lián)合研發(fā)全球首款智能心臟超聲機器人,實現(xiàn)了全球首次對真人進行自主心臟超聲掃描。可以解決心臟B超醫(yī)生短缺、診斷準確率低、缺乏標準化的問題。效率低下的問題。智能心臟超聲機器人基于機械臂的超聲圖像和力信息,可以在高速動態(tài)環(huán)境下快速計算和提取心臟特征,達到相當于自動駕駛L2和L3級別的智能水平。臨床驗證結(jié)果表明,在準確性方面,智能心臟超聲機器人可以與資深醫(yī)生保持一致;在穩(wěn)定性方面,智能心臟超聲機器人更高;在舒適度方面,智能超聲機器人的強度可以控制在4N以內(nèi),更加舒適。在舒適度和效率方面,智能超聲機器人實驗機可以與人類醫(yī)生看齊。
通用計算機控制框架
為了實現(xiàn)通用計算機控制,致遠研究院提出了通用計算機控制框架,讓智能體可以像人一樣看著屏幕,通過鼠標和鍵盤完成計算機上的所有任務。由信息收集、自我反思、任務推理、技能管理、行動規(guī)劃、記憶模塊6大模塊組成,可進行“反思過去、總結(jié)現(xiàn)在、規(guī)劃未來”的強大決策推理。與業(yè)界其他方法不同,它無需依賴任何內(nèi)部 API 即可實現(xiàn)通用性。目前,致遠研究院與昆侖萬維研究院等單位合作開發(fā)了《荒野大鏢客》、《星露谷物語》、《城市天際線》、《當鋪生活》四款游戲,以及《飛鼠》、《飛書》、《美圖秀秀》、《切割5》等軟件,已通過驗證。 。智能體不僅可以根據(jù)提示自主學習玩游戲,還可以富有想象力地編輯圖片和視頻。
未來,致遠將依托多模態(tài)大模型技術(shù)的優(yōu)勢資源,與北大、清華、中科院等高校和機構(gòu),以及中科院等產(chǎn)業(yè)鏈上下游企業(yè)合作。 和 打造實體智能創(chuàng)新平臺,專注于數(shù)據(jù)和模型開發(fā)。 、場景驗證等研究,打造具身智能創(chuàng)新生態(tài)系統(tǒng)。
4.智慧生物計算大模型
全原子生物分子模型2
此外,致遠研究院還探索了生成人工智能在分子生物學中的應用。致遠研究院研發(fā)的全原子生物分子模型2是全球領先的大分子結(jié)構(gòu)預測模型,可有效預測蛋白質(zhì)、RNA、DNA、糖類、小分子等復合物。在生物分子結(jié)構(gòu)預測領域的國際競賽CAMEO(Model)中,連續(xù)兩年位列賽道第一,并榮獲CASP(for)15個RNA自動賽道預測冠軍。
圖2是基于全原子建模的生命分子基本模型。研究人員發(fā)現(xiàn),它不僅可以預測大分子的穩(wěn)定結(jié)構(gòu),還初步具備預測分子多種構(gòu)型和折疊過程的能力。基于這樣的能力,生命科學家可以進一步探索蛋白質(zhì)的生物學功能。目前,馳源已與研究伙伴共同開展多項重要疾病的研究,提供成藥性和分子機制研究。未來,基于我們的能力,我們有望開啟生命科學研究的新時代,為進一步揭示HIV病毒、神經(jīng)元等復雜生命機制提供新的可能。
全球首個實時雙心計算模型
致遠研究院構(gòu)建了全球首個實時雙心計算模型,在高精度的前提下可以實現(xiàn)生物時間/模擬時間比小于1,處于國際領先水平。
實時心臟計算模型是虛擬心臟科學研究的開始,也是雙心臨床應用的基礎。基于該模型,致遠將創(chuàng)新性地采用物理數(shù)據(jù)雙驅(qū)動模型,融合第一性原理和人工智能方法,從亞細胞層面、細胞層面、器官層面、軀干層面模擬一顆“透明心臟”。并可根據(jù)患者的臨床數(shù)據(jù),構(gòu)建反映患者個性化生理病理的雙心,從而開展藥物篩選、治療方案優(yōu)化、術(shù)前規(guī)劃等臨床應用。
目前,致遠與北京大學第一醫(yī)院聯(lián)合成立了“北京大學第一醫(yī)院-北京致遠人工智能研究院心臟AI聯(lián)合研究中心”,目前正在開展基于超聲影像的急性心肌梗死診斷、心力衰竭的病理模擬、腎動脈造影等課題,與安貞醫(yī)院合作開展室性心動過速疾病無創(chuàng)心外膜標測技術(shù)前沿研究,與思高電生理研究所合作開發(fā)應用藥物篩選平臺,與清華長庚合作紀念醫(yī)院與朝陽醫(yī)院就肥厚型心肌病課題進行合作。
作為創(chuàng)新型研究機構(gòu),致遠研究院引領人工智能前沿技術(shù)發(fā)展。它還利用第三方、中立、非營利組織的優(yōu)勢,構(gòu)建公共技術(shù)基礎,解決當前行業(yè)的痛點。
大模型開源技術(shù)庫2.0,模型、數(shù)據(jù)、算法、評估、系統(tǒng)五大布局全面升級。
為了幫助全球開發(fā)者一站式啟動大模型開發(fā)研究工作,致遠研究院推出了異構(gòu)芯片、支持多種框架的大模型全棧開源技術(shù)庫2.0。在1.0的基礎上,又進一步完善。它有模型、數(shù)據(jù)、算法、評估、系統(tǒng)五大布局,旨在打造大模型時代的Linux。
2.0可以支持多種芯片和多種深度學習框架。目前,全球開源模型下載總量超過4755萬次,共57個開源數(shù)據(jù)集下載量近9萬次,開源項目代碼下載量超過51萬次。
開源地址:
1、支持異構(gòu)算力集群的大模型“操作系統(tǒng)”
為了滿足日益增長的大型模型訓練和推理計算需求陳翔中文網(wǎng),應對大規(guī)模人工智能系統(tǒng)和平臺面臨的異構(gòu)計算、高速互聯(lián)、集群內(nèi)部或集群之間的彈性和穩(wěn)定性等技術(shù)挑戰(zhàn),智源研究院研究院針對大型模型推出了新的模型——支持多種異構(gòu)計算能力的智能計算集群軟件棧。集成了致遠深耕的多種AI芯片關鍵技術(shù),包括異構(gòu)算力智能調(diào)度與管理平臺九鼎、支持多種AI異構(gòu)算力的并行訓練與提升框架、支持多種AI異構(gòu)算力的高性能算子等。多種AI芯片架構(gòu)。庫和、集群診斷工具和AI芯片評估工具。就像一個“操作系統(tǒng)”,集成了異構(gòu)算力管理、算力自動遷移、并行訓練優(yōu)化、高性能算子等功能。向上支撐大模型訓練、推理、評估等重要任務,向下管理底層異構(gòu)算力、高速網(wǎng)絡、分布式存儲等。目前已支持超過50個團隊的大型模型研發(fā),支持8種芯片,管理超過4600張AI加速卡,已穩(wěn)定運行20個月,SLA超過99.5%,幫助用戶實現(xiàn)高效穩(wěn)定的集群管理、資源優(yōu)化、大模型開發(fā)。此次啟動將為我國新一代智能計算中心建設提供助力,顯著提升智能計算集群能力,加快大模型產(chǎn)業(yè)發(fā)展。
2.首批數(shù)千萬級高質(zhì)量開源指令微調(diào)數(shù)據(jù)集
高質(zhì)量的指令數(shù)據(jù)是大型模型表現(xiàn)的“養(yǎng)分”。致遠研究院發(fā)布了首個千萬級高質(zhì)量開源指令微調(diào)數(shù)據(jù)集的開源項目。第一階段已驗證的300萬條中英文教學數(shù)據(jù)的發(fā)布將于近期完成。完成千萬級指令數(shù)據(jù)的開源。致遠對現(xiàn)有開源數(shù)據(jù)進行領域分析貝語網(wǎng)校,確保類型分布合理;對大規(guī)模數(shù)據(jù)進行質(zhì)量篩選,保留高價值數(shù)據(jù);對開源數(shù)據(jù)缺乏的領域和任務進行數(shù)據(jù)增廣,結(jié)合人工標注進行改進數(shù)據(jù)質(zhì)量。控制以避免合成數(shù)據(jù)分布偏差。目前開源的300萬條指令的數(shù)據(jù)集已經(jīng)展現(xiàn)出超越等的SFT數(shù)據(jù)能力,我們預計升級到千萬級數(shù)據(jù)級別后,基礎模型將基于該指令進行訓練,對數(shù)據(jù)集進行微調(diào),對話模型能力將達到GPT-4級別。
3.全球最大的開源中英文多行業(yè)數(shù)據(jù)集
為了加速大模型技術(shù)的產(chǎn)業(yè)應用進程,致遠研究院構(gòu)建并開源了中英文多行業(yè)數(shù)據(jù)集,共3.4TB預訓練數(shù)據(jù)集,其中中文1TB,2.4TB英文版,涵蓋18類行業(yè),分類準確。率已達80%,未來計劃增加至30個品類。
致遠構(gòu)建多行業(yè)數(shù)據(jù)算子訓練行業(yè)分類和質(zhì)量過濾模型,實現(xiàn)高效、高質(zhì)量的預訓練數(shù)據(jù)處理流程,并提出一套提高微調(diào)數(shù)據(jù)集問題復雜度、解答思維鏈的方法,以及處理預訓練、SFT 和 RLHF 數(shù)據(jù)的多輪問答質(zhì)量過濾方法。
為了驗證行業(yè)數(shù)據(jù)集的性能,致遠訓練了醫(yī)療行業(yè)演示模型。與繼續(xù)預訓練之前的模型相比,總體客觀性能提高了20%。我們制作的醫(yī)學SFT數(shù)據(jù)集和DPO數(shù)據(jù)集經(jīng)過微調(diào),訓練后相比參考答案的主觀勝率達到82%,多輪對話能力5分制得分達到4.45。
行業(yè)預訓練數(shù)據(jù)集:
醫(yī)療示范模型地址:
醫(yī)學演示模型SFT數(shù)據(jù)集地址:
醫(yī)學演示模型DPO數(shù)據(jù)集地址:
4、支持多種AI異構(gòu)算力的并行訓練框架首次突破
首次實現(xiàn)了不同廠商的跨節(jié)點RDMA直連以及異構(gòu)集群上多種并行策略的高效混合訓練,成為業(yè)界首個同時支持多機上縱向和橫向擴展兩階段增長模型的訓練框架。異構(gòu)人工智能芯片。
支持語言和多模態(tài)模型的密集和稀疏訓練,可實現(xiàn)1M長序列的大規(guī)模穩(wěn)定訓練和推理;支持基于國產(chǎn)算力的8x16B千億參數(shù)MoE大語言模型1024卡40天以上穩(wěn)定訓練,實現(xiàn)終端端到端的訓練、微調(diào)和推理部署;支持不同架構(gòu)的多個芯片的組合池訓練。基于業(yè)界領先的異構(gòu)并行策略,可達到85%以上的混合訓練性能上限,與同構(gòu)芯片的模型訓練效果一致。 ;適配8種不同的國內(nèi)外芯片,可以在不同集群中進行大規(guī)模訓練和驗證,實現(xiàn)損失和收斂曲線一點一滴的嚴格對齊。
5.大型模型的開源算子庫
為了更好地支持多種AI芯片的統(tǒng)一生態(tài)發(fā)展,致遠研究院推出了開源大模型算子庫,包括首個通用算子庫和大型模型專用算子庫,可以基于統(tǒng)一的算子庫開源編程語言。提高算子開發(fā)效率,同時實現(xiàn)多芯片共享算子庫。
目前主流語言和多模態(tài)模型所需的127個算子中,通用算子庫已覆蓋66個,預計2024年底實現(xiàn)全覆蓋。大型模型專用算子庫包含6個最新算子經(jīng)常使用并且遵循算法的前沿。它為用戶提供了編程示例和可定制的運算符。
它采用了專為類別運營商設計的自動代碼生成技術(shù)。用戶可以通過簡潔的計算邏輯描述自動生成高效的代碼。該技術(shù)已應用于31類算子,占整個算子庫的47%。同時,基于運行時優(yōu)化技術(shù),算子運行速度提升70%,保證算子的高性能。
6、大模型評測全面升級
打造一把衡量大模型能力巔峰的“尺子”,是一個充滿挑戰(zhàn)的科學研究問題。致遠堅持科學、權(quán)威、公平、公開的原則,不斷推動評估工具和方法的迭代優(yōu)化。自2023年發(fā)布以來,大模型評測已從主要語言模型擴展到視頻、語音、多模態(tài)模型,實現(xiàn)多領域全覆蓋。采用主客觀相結(jié)合、開卷和閉卷綜合檢查方式。首次與權(quán)威教育部門聯(lián)合開展。大模特K12科目測試,并與中國傳媒大學合作構(gòu)建文科視頻模特主觀評價體系。致遠研究院與全國10余所高校和機構(gòu)合作構(gòu)建評估方法和工具,探索基于人工智能的輔助評估模型,為大型模型新能力創(chuàng)建具有挑戰(zhàn)性的評估集,其中包括與北京大學聯(lián)合打造的評估集,與北京師范大學共建的CMMU多模態(tài)評估集、多語言跨模態(tài)評估集MG18、復雜代碼評估集TACO、長視頻理解評估MLVU等。大學是目前世界上最大的大學。對話場景中最大的幻覺評估集,超過18,000輪對話,超過140,000個答案。
致遠研究院牽頭成立IEEE大模型評測標準組P3419,與人臉社區(qū)合作發(fā)布多個榜單陳翔中文網(wǎng),與新加坡IMDA合作,共同為AI貢獻先進的評測數(shù)據(jù)和裁判模型,推動大模型評測。方法和工具的國際合作。
大型模型先驅(qū)齊聚,探索AGI之路
在2024北京智能源大會開幕式上,Sora與DALL·E團隊負責人、紐約大學助理教授謝賽寧就多模態(tài)模型的技術(shù)路徑和未來演進方向進行了觀點碰撞。
在致遠研究院董事長黃鐵軍主持的聊天中,01王CEO李開復和中國工程院院士、清華大學智能產(chǎn)業(yè)研究院院長張亞勤分別分享了自己的判斷。通用人工智能技術(shù)的發(fā)展趨勢。 。
百度CTO王海峰分享了《大模型帶來通用人工智能的曙光》報告。
在通向AGI的巔峰對話中,致遠研究院王中原、百川智能CEO王小川、智普AICEO張鵬、月之暗面CEO楊志林、長城CEO李大海——面向智能,暢談大模型的技術(shù)路徑依賴與突破,對開放生態(tài)與封閉研究、商業(yè)模式探索等熱點話題進行深入探討。
未來,致遠研究院將繼續(xù)堅持原始技術(shù)創(chuàng)新,在前沿方向探索路線,廣泛鏈接學術(shù)生態(tài),賦能產(chǎn)業(yè)發(fā)展。
編輯:陳翔