項目名稱:???AI訓(xùn)練服務(wù)器???項目編號:???HITBX-******67
公告開始日期:???2025-08-21 09:11:24???公告截止日期:???2025-08-26 10:00:00
采購單位:******大學(xué)???付款方式:???款到付貨
簽約時間要求:???成交后3個工作日內(nèi)到貨時間要求:???簽約后7個工作日內(nèi)
預(yù)算總價:???¥498600.00
收貨地址:???科創(chuàng)大廈K1301
采購清單采購商品:???AI訓(xùn)練服務(wù)器???采購數(shù)量:???1???計量單位:???臺???所屬分類:???服務(wù)器
預(yù)算單價:???¥498600.00
技術(shù)參數(shù)及配置要求:???采用Intel CPU,配置兩顆Intel Xeon Sapphire Rapids8558處理器,主頻≥2.1GHz,單處理器最高擁有48個內(nèi)核及96線程,L3 Cache≥260MB配置16根64GB ECC DDR5 5600MT/s RDIMM內(nèi)存,內(nèi)存槽位最大支持32個配置2塊960GB SSD硬盤;支持 2*M.2 SATA或NVME SSD,尺寸2280/22110;支持硬RAID1,支持熱插拔配置2塊7.68TB NVMeSSD硬盤,9塊16TB SATA硬盤;硬盤擴展能力: 最多可配置12個3.5英寸SAS/SATA硬盤本次配置不少于8塊異構(gòu)計算加速卡,單卡顯存≥48GB,支持FP16/BF16/INT8運算,F(xiàn)P32峰值性能59.8 TFLOPS,CUDA核心:11776個,RT Core:92個光線追蹤核心RAID/12Gb/s/3108/SAS/8643/RAID 0,1,5,6,10,50,60,JBODRAID級別/1G1個4*GE網(wǎng)卡,2個10GE網(wǎng)卡(含光模塊)前置2 個USB3.0 接口,前置1 個UID 指示燈/按鈕 ,前置1 個OCP 網(wǎng)卡以太網(wǎng)接口指示燈 ,前置1 個Health 指示燈 ,前置1 個開機/待機按鈕和系統(tǒng)電源指示燈 前置1 個VGA 接口(選配) ,前置1 個RJ45 BMC 專用管理接口(選配) ,前置1 個Type-C 專用管理接口(選配) 后置1 個VGA 接口 ,后置1 個RJ45 BMC 專用管理接口 ,后置1 個Type-C 專用管理接口 ,后置2 個USB3.0 接口 ,后置1 個UID 指示燈/按鈕 內(nèi)置 1 個USB2.0 接口可選配OCP3.0 網(wǎng)卡,支持1 個OCP3.0 網(wǎng)卡集成BMC管理芯片AST2600,支持IPMI2.0、Redfish、SOL、KVM、虛擬媒介等功能配置4個2600W白金電源,支持N+N冗余支持6個熱插拔對旋風(fēng)扇,支持N+1冗余常用服務(wù)器操作系統(tǒng)計算平臺軟件技術(shù)參數(shù):平臺總體要求:提供擁有軟件著作權(quán)的商業(yè)版本管理軟件,不接受開源產(chǎn)品。提供本次項目所有節(jié)點授權(quán),以及原有節(jié)點授權(quán),兼容原有計算管理平臺,提供廠商授權(quán)承諾函在國內(nèi)設(shè)有研發(fā)機構(gòu),能根據(jù)用戶的需求或使用習(xí)慣進行定制化開發(fā)。提供產(chǎn)品應(yīng)用于大規(guī)模CPU集群(單一系統(tǒng)節(jié)點數(shù)>150臺)和GPU集群(單一系統(tǒng)內(nèi)GPU數(shù)量>400塊)生產(chǎn)環(huán)境的成功案例及用戶證明。所有管理軟件必須基于B/S架構(gòu)。支持通過主流WEB瀏覽器管理和使用平臺資源。平臺架構(gòu)和系統(tǒng)支持:同時支持兩類資源虛擬化技術(shù),包括虛擬機虛擬化和容器虛擬化技術(shù)。支持各種常見的操作系統(tǒng)發(fā)行版(Windows各版本、Linux各版本)并提供部署模板。支持x86、ARM等架構(gòu)服務(wù)器,支持多種國產(chǎn)CPU如海光、鯤鵬等,支持NVIDIA GPU、FPGA、Acsend NPU, DCU, MLU 等多種計算加速設(shè)備,支持異構(gòu)服務(wù)器混合部署,支持Infiniband和ROCE RDMA網(wǎng)絡(luò),支持至少3個硬件廠家存儲設(shè)備,以上硬件資源均有項目案例。平臺系統(tǒng)管理要求:通過界面統(tǒng)一管理平臺用戶,支持與外部LDAP服務(wù)器或Windows AD域控集成,支持與現(xiàn)有統(tǒng)一身份認(rèn)證系統(tǒng)對接。在使用平臺的上的容器環(huán)境、HPC集群環(huán)境、Hadoop集群環(huán)境和AI訓(xùn)練集群環(huán)境時,環(huán)境登錄用戶自動對接到統(tǒng)一身份認(rèn)證,一套用戶全環(huán)境使用。提供不少于三種角色,包括系統(tǒng)管理員、群組管理員和普通用戶;支持群組管理員和普通用戶創(chuàng)建群組并邀請其他用戶加入(提供截圖證明材料)。支持對用戶的資源使用量進行限額,便于管理員合理分配集群資源,可以修改每個用戶或用戶組的最大可用CPU核數(shù)、GPU個數(shù)、內(nèi)存使用量、存儲空間、實例數(shù)等(提供截圖證明材料)。支持管理員對應(yīng)用運行時所需環(huán)境的配置修改,參數(shù)包含所屬資源池、CPU、內(nèi)存、GPU、塊存儲等信息(提供截圖證明材料)。支持設(shè)置用戶虛擬機實例、容器實例的使用周期,到期自動回收資源并提前自動通知用戶。支持到期前手動延長使用周期。支持應(yīng)用的可見性權(quán)限設(shè)置,配置用戶能訪問的應(yīng)用。支持不同的資源池配置不同的應(yīng)用策略,應(yīng)用策略包括實例關(guān)閉資源自動釋放和實例關(guān)閉資源不釋放等。支持回收站功能。實例釋放后自動進入回收站中,可通過回收站對實例進行恢復(fù)或徹底刪除。平臺支持通過WEB頁面對GUI類應(yīng)用進行訪問和操作,支持遠程桌面交互、字符界面交互、網(wǎng)頁界面在線交互式編程等模式。平臺數(shù)據(jù)管理要求:平臺提供數(shù)據(jù)集統(tǒng)一管理的功能,數(shù)據(jù)綁定用戶,不與節(jié)點綁定。提供同一用戶的不同計算實例之間的數(shù)據(jù)共享功能,提供不同計算實例中的程序可以同時對用戶數(shù)據(jù)目錄進行讀寫訪問的功能。平臺提供用戶目錄,項目目錄,共享群組目錄等數(shù)據(jù)管理的功能,在項目組中,用戶可以通過共享目錄進行數(shù)據(jù)共享,也可以在項目組中有自己私有的數(shù)據(jù)目錄。(提供截圖證明材料)平臺提供通過瀏覽器上傳計算配置文件和下載計算結(jié)果以及斷點續(xù)傳等功能,支持用戶本地掛載平臺數(shù)據(jù)目錄,實現(xiàn)用戶本地、平臺和實例環(huán)境的數(shù)據(jù)同步,支持用戶本地是Windows操作的數(shù)據(jù)掛載。(提供截圖證明材料)臺容器場景功能要求:平臺支持多套環(huán)境資源之間靈活調(diào)度,不需要重啟物理機器,即可實現(xiàn)HPC集群的資源調(diào)度到AI集群中進行使用,支持多套HPC集群共存,如x86 HPC集群,ARM HPC集群等,支持普通用戶在平臺上創(chuàng)建自己項目組內(nèi)的私有HPC集群,HPC集群的性能多節(jié)點并行Linpack值與物理機的比相差1%以內(nèi)。(提供證明材料)容器中支持普通用戶以虛擬超級用戶權(quán)限對系統(tǒng)修改,進行系統(tǒng)更新操作或安裝軟件。支持以透傳的方式實現(xiàn)容器對物理GPU的訪問,支持單機單卡和單機多卡的單容器環(huán)境,支持多機多卡容器化分布式GPU訓(xùn)練集群。支持基于ARM架構(gòu)的容器場景。支持GPU共享,支持在1塊GPU卡上,同時運行多個GPU容器環(huán)境,分配GPU可以按照0.1塊、0.2塊分配。支持通過軟件倉庫一鍵創(chuàng)建完整獨立的容器環(huán)境,包括桌面可視化環(huán)境、Slurm集群環(huán)境、Torque集群環(huán)境、hadoop環(huán)境、Jupyter在線web交互環(huán)境等。(提供截圖證明材料)。平臺虛擬化場景功能要求:支持以透傳的方式實現(xiàn)虛擬機對物理GPU的訪問,并設(shè)置每臺虛擬機可使用的GPU數(shù),在該環(huán)境內(nèi),用戶有root權(quán)限,可自行安裝和配置環(huán)境。支持基于ARM架構(gòu)的虛擬化場景。支持通過網(wǎng)頁界面生成和恢復(fù)虛擬機快照;支持windows系統(tǒng)的遠程桌面可視化操作,以及對系統(tǒng)實現(xiàn)硬盤擴容等功能。(提供截圖證明材料)支持通過軟件倉庫一鍵創(chuàng)建完整獨立的虛擬化環(huán)境,包括完整的linux操作系統(tǒng)環(huán)境、Windows桌面環(huán)境等。(提供截圖證明材料)平臺集群場景功能要求:支持主流的HPC作業(yè)調(diào)度軟件,支持至少2種調(diào)度器并存。系統(tǒng)支持同時運行和管理多個容器虛擬集群環(huán)境,每個集群可采用獨立的調(diào)度器,虛擬集群之間互相隔離,不受影響。支持普通用戶手動調(diào)整自己的容器虛擬集群的規(guī)模。支持通過作業(yè)模板方式在Web頁面提交作業(yè);支持用戶創(chuàng)建個人作業(yè)模板;支持管理員創(chuàng)建全局作業(yè)模板。支持查看每個作業(yè)的運行資源使用情況。支持同一用戶在不同獨立集群中進行任務(wù)提交,并可以查看自己提交的任務(wù)在不同集群中的狀態(tài)。支持多數(shù)據(jù)中心集群資源統(tǒng)一管理,支持直接對接公有云和超算中心資源。平臺大數(shù)據(jù)場景功能要求:支持通過Web可視化的形式管理Hadoop組件,支持在線直接安裝、管理和運維Hadoop集群。支持HDFS、Spark、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。支持Hadoop集群的多角色用戶管理,角色包括普通用戶、服務(wù)運維員、服務(wù)管理員、集群運維員、集群管理員等。支持大數(shù)據(jù)的集群監(jiān)控,支持監(jiān)控CPU、內(nèi)存、節(jié)點狀態(tài)、HDFS狀態(tài)等信息,并通過可視化的形式展示出來。支持大數(shù)據(jù)的告警功能,支持WEB、Port、Metric、Aggregate 和 Script等類型,支持自定義報警信息,支持OK 、Warning、Critical、Unknown、None等多種報警狀態(tài),支持配置報警的檢測時間間隔、類型、以及閾值等。平臺資源統(tǒng)計功能要求:平臺提供集群運行情況監(jiān)控功能,包含集群數(shù)量、集群應(yīng)用軟件類型、正在運行的用戶等,支持統(tǒng)計應(yīng)用鏡像的使用數(shù)量。支持分別根據(jù)CPU、GPU、內(nèi)存等資源采用不同的費率標(biāo)準(zhǔn)進行分類計費,支持在系統(tǒng)管理中設(shè)置默認(rèn)權(quán)值。(提供截圖證明材料)。支持不同的節(jié)點、不同的資源池設(shè)定不同的費用,可以單獨配置每一個硬件資源的費用。(提供截圖證明材料)。支持用戶充值和透支額度設(shè)置,支持項目透支額度設(shè)置,支持用戶轉(zhuǎn)賬自己剩余點數(shù)到任意一個自己的項目中,在項目中的其他用戶可以使用該項目的點數(shù)進行扣費,支持對項目中用戶使用點數(shù)查看和設(shè)定限額。(提供截圖證明材料)。支持對個人資源使用和團隊資源使用計費;支持對團隊中個人使用費用的統(tǒng)計(提供截圖證明材料)。支持對從不同維度(CPU資源、GPU資源、用戶、應(yīng)用等)對平臺的歷史數(shù)據(jù)進行自定義查詢、過濾和可視化展示。知識庫和用戶論壇功能要求:在平臺上提供知識庫和用戶論壇功能,論壇用戶與平臺用戶對接,無需單獨注冊即可直接使用。知識庫可以發(fā)布平臺的資源信息、平臺功能操作指南和應(yīng)用軟件使用指南等,方便普通用戶使用。論壇提供多類型版塊,包括公告、入門、系統(tǒng)、存儲、網(wǎng)絡(luò)、監(jiān)控、調(diào)度、應(yīng)用、數(shù)據(jù)、性能和開發(fā)等,在不同的版塊可以發(fā)布屬于該版塊類型的帖子。支持管理員審核用戶發(fā)帖內(nèi)容,審核通過后方可正常發(fā)布,也同時支持免審核發(fā)帖。支持帖子發(fā)布者在回復(fù)的帖子中選擇最佳答案和刪除帖子,支持論壇內(nèi)主題和內(nèi)容搜索。每個用戶都有自己的主頁,查看發(fā)布的主題,回復(fù)的內(nèi)容,上次的信息等。軟件環(huán)境要求:應(yīng)用商店,管理員可一鍵安裝各種HPC和AI應(yīng)用。GNU C/C++/F77/F90編譯器、Java、Intel C/C++/Fortran編譯器Intel MKL、BLAS、LAPACK、FFTW等數(shù)學(xué)庫并行編程消息庫如Intel MPI、OpenMPI等預(yù)置常見的操作系統(tǒng)鏡像和常用開源計算應(yīng)用鏡像。支持容器化數(shù)據(jù)分析工具,支持Python, Anaconda, R等,并支持用戶自定義軟件包安裝。支持容器化大數(shù)據(jù)處理框架,如Cloudera CDH等。支持容器化GPU多機多卡分布式訓(xùn)練框架,包括Tensorflow,Pytorch等,支持分布式訓(xùn)練框架與作業(yè)調(diào)度系統(tǒng)集成。在線運維:完成對高性能計算集群遠程在線監(jiān)控、異常告警通知等工作。在線運維服務(wù)監(jiān)控采購方高性能集群服務(wù)器、網(wǎng)絡(luò)等相關(guān)資源狀態(tài)信息,如發(fā)現(xiàn)異常信息、故障信息,則將此類信息第一時間通知用戶方,并采取相關(guān)措施??蛻籼峁┑纳虡I(yè)軟件的安裝及調(diào)度集成客戶所需開源軟件的安裝、編譯及優(yōu)化應(yīng)用軟件作業(yè)模板的定制及優(yōu)化應(yīng)用軟件的容器模板制作應(yīng)用軟件的虛擬機模板制作平臺應(yīng)用商店內(nèi)軟件的升級和更新系統(tǒng)GPU驅(qū)動/CUDA版本的持續(xù)更新和升級平臺內(nèi)部組件的持續(xù)升級平臺新版本功能更新的持續(xù)安裝平臺硬件環(huán)境的運維監(jiān)控系統(tǒng)報警、平臺故障的實施處理平臺資源使用情況的監(jiān)控及使用報告調(diào)度策略的持續(xù)優(yōu)化和調(diào)整用戶配額和QOS的持續(xù)優(yōu)化用戶微信群進行實時問題解答和使用幫助
售后服務(wù):???電 話 支 持 :7x24 小時;質(zhì) 保 期 :3年; 服務(wù)時限:報修 后 12 小時;商品承諾: 原廠全新未拆封 正品;提供培訓(xùn)方案;
附件下載:附件下載