作家: 郑栩彤
存储“卡住”GPU(图形处理单元)的脖子,这并不夸张。
昔日一年间,大模子带来的算力需求爆发,使英伟达GPU更加依赖HBM(高带宽存储器)的高带宽。这颗由多个DRAM(动态迅速存储器)堆叠而成的芯片,旨在责罚传统冯·诺依曼架构中处理器与内存之间的数据传输问题,在大算力场景险些无可替代。
这也意味着,AI需求也在带动存储芯片行情回暖。阅历疫情扰动下长达两年的下行周期,DRAM被HBM领先带动复苏,DRAM“三巨头”SK海力士、三星、好意思光进入新一轮HBM竞赛。
第一财经记者了解到,AI对存储芯片阛阓的影响不啻于此。DRAM责罚的主若是计算时数据传输的问题,巨量数据保存则需依靠NAND Flash(一种非易失性存储介质)制成的SSD(固态硬盘)、镶嵌式存储等。两种存储介质共同占据90%以上存储芯片阛阓,NAND Flash近期也闻风而动。
“数据集巨量增长,呈指数级态势,GPT-4上万亿参数,大模子使用的许多照旧爬虫数据库,这种语料库三四个星期更新一次。”近日闪存阛阓峰会上,SSD厂商Solidigm亚太区销售副总裁倪锦峰说起数据存储对AI的迫切性时暗意。一些原厂前期锁住产能的情况下,大为创芯销售总监徐志文向第一财经记者暗意,他对AI伺服器和AI相关的内存条、企业级SSD需求较为看好,目下扫数这个词阛阓有些居品也曾供不应求。
记者从多名存储业内东说念主士处了解到,NAND Flash适配AI需求的样貌,包括增大容量和镌汰功耗。业内深广以为AI还会赓续提拉DRAM和NAND Flash的需求,但AI还在走向普惠的经由,业内对AI的提拉速率和力度有不同观点。
此外,针对AI大模子磨砺推理的需求,云厂商近期也在云存储居品层面效率。
AI催化?
在最新发布的Blackwell芯片上,英伟达便弃取HBM决策,其HBM3e芯片由SK海力士提供。HBM是多颗DRAM 3D堆叠并与GPU一齐封装的存储芯片,主要用于缓解处理器和主存间的通讯瓶颈,应酬大算力场景下的“内存墙”问题。天然业内早已有厂商探索HBM,但直到AI需求爆发,HBM才成为惹人注目的本事。
近期好意思光炫耀,本年其HBM产能销售一空,来岁绝大多数产能已被预订,SK海力士也炫耀,2024年其HBM坐褥配额也曾售罄。
据阛阓拜访机构Yole数据,HBM本年以来平均售价是世俗DRAM的5倍。此前有GPU业内东说念主士向媒体先容HBM本钱“差未几1GB要20好意思元”。若以1GB HBM 20好意思元计算,参考好意思国金融机构Raymond James客岁预估的英伟达H100本钱3320好意思元,H100的80GB HBM约莫需要1600好意思元,占该AI芯片本钱近半。
AI对HBM的需求,正在更正存储芯片产业结构。据阛阓调研机构集邦相关统计,客岁HBM占DRAM产业营收的8.4%,本年将达20.1%。
为霸占这一增量阛阓,三大DRAM厂商SK海力士、三星、好意思光开启了本事竞赛。据集邦相关分析,三家目下仅SK海力士有HBM3e居品量产,展望三星HBM3e本年第二季度厚爱出货,三星正逐步挤进英伟达供应链,展望本年SK海力士和三星的HBM市占率均为47%~49%,好意思光则是3%~5%。价钱方面,AI需求带动下,本年第一季度DRAM合约价季增约20%。
“HBM占据极大利润空间,亦然原厂必争之地,据各原厂筹算,本年将厚爱进入HBM3e量产。” 深圳市闪存阛阓资讯有限公司总司理邰炜暗意,AI做事器中搭载高容量HBM,对DDR5容量需求也达世俗做事器的2~4倍。本年DRAM展望达2370亿GB单量,同比增长15%,未来5年AI做事器展望驱动DRAM需求大增。
近日第一财经记者与多名存储芯片行业东说念主士相通了解到,即便不是HBM,业界预判其他DRAM居品也有望受益于AI对其容量条目栽植。徐志文向记者暗意,PC内置生成式AI条目运算速率快,使AI PC对内存和固态硬盘的容量条目栽植,后续AI PC内存条容量将在6GB致使32GB以上,高容量颗粒后续将成为主流。邰炜则展望,生成式AI带动下本年手机平均容量将超200G,DRAM则超7G,16G DRAM将是AI手机最低标配。
此外,多名业界东说念主士以为AI也将影响NAND Flash需求,原因是AI磨砺和推理需要大量数据,这些数据需存在NAND Flash制成的SSD或镶嵌式存储里。比拟DRAM与AI算力相关,NAND Flash更与AI所需数据的存力相关。
“AI相关做事器中,NAND和DRAM共同被使用,因GPU高速运算对应的数据高速传输主若是DRAM在复旧,DRAM更老成。但从合座阛阓看,AI对IT行业酿成推动,相关的不同应用需求会进一步增多,也会带动NAND需求。” NAND Flash厂商铠侠相关负责东说念主告诉记者,企业级阛阓及数据中心做事器需求展望2024年下半年阛阓有回暖迹象。从结尾销售量看,数码居品或数字电子消费品莫得畸形大的成长,但单机搭载存储容量有明显增长,对铠侠这么的NAND厂商而言是成长契机。
邰炜也展望,本年NAND Flash总产量将超8000亿GB单量,同比栽植20%。
复苏将至?
天然AI本年有望助力DRAM和NAND Flash总产量栽植,但阅历了前一轮疫情扰动下的半导体下行周期,如今存储芯片价钱从谷底回升的力度是否强盛,业内观点不一,一些从业者以为AI催化下存储芯片行情复苏将是渐进的。
集邦相关近日暗意,天然DRAM供应商库存已镌汰,但尚未回到健康水位,DRAM第二季度合约价涨幅将料理至3%~8%。前期减产控价布景下,第一季度NAND Flash原厂除铠侠和西部数据,其他供应商好像保管低投产战术,NAND Flash合约价季增涨幅将从第一季度的23%~28%料理至第二季度的13%~18%。
“生成式AI需求一定会增长,但现今问题是不仅生成式AI在预磨砺的AI模子运算算力本钱很高,落地应用的AI模子运算本钱也不低,许多公司、组织机构、教育单元念念要导入生成式AI助理,但苦于无恰当的责罚决策。除非有填塞苍生化的GenAI运算决策出现才会快速提拉需求。”群联电子践诺长潘健告诉记者。
空洞NAND合座阛阓需求,潘健以为NAND Flash价钱若一直上升将会出现泡沫,展望价钱不会合手续涨到来岁。
对于存储芯片行情回升的动能,别称作念DRAM和NAND Flash居品的厂商本事负责东说念主则向第一财经记者暗意,如果莫得如今AI带来的新应用和内存容量增高趋势,本年存储行情揣摸起不来。
也有SSD厂商负责东说念主告诉记者,AI做事器的开采对GPU参加格外大,但SSD相较扫数这个词做事器合座价值而言并不高,他以为AI为SSD带来的机遇相对还不够明晰。
存储如何安妥AI?
算力和存力细腻相关,畸形是在数据、算力、算法驱动的大模子磨砺经由中。这一轮AI算力需求栽植也在更正存储居品花式:除了DRAM厂商开启HBM竞赛外,NAND Flash或SSD厂商也开动在容量和功耗上安妥AI磨砺和推理的需求。
“目下GPU很贵,要若何通过数据存储层面(作念优化)来提高GPU诈欺率,变得越来越迫切。无意候花了钱也得不到更好的GPU,是以不但愿因数据恭候存储反应,导致GPU出现问题。”倪锦峰暗意,做事器中的存储占到功耗的35%傍边,需要弃取高密度存储或其他决策镌汰存储功耗。据他先容,近段时分,北好意思客户在关怀32TB、64TB乃至128TB SSD需求时,已清楚出了功耗等方面的担忧。
“咱们要按捺推广存储蒙眬量和容量,以跟上按捺增多的数据数目,此外,需要灵验推广容量和蒙眬量,最大截止去栽植GPU的诈欺率,减少计算本钱开支。SSD不错匡助AI集群在磨砺中保合手GPU高速运转。” 倪锦峰暗意。
铠侠相关负责东说念主告诉记者,AI应用最大功耗照旧来自GPU、CPU和HBM三大件,它们亦然产生热量的地点,算作SSD,永久而言铠侠在推动大容量的同期也会发力低功耗、省电。针对各应用中AI的功能,比如AI加快、推理对NAND的具体应用,铠侠也已参加研发,此前曾推出针对图像分类系统的AI加快本事。
“作念存储第一要务是数据安全。此外,AI对动力的耗尽太横暴了,存储居品满足性能需求前提下,功耗能省少量是少量,不仅是省电,亦然省散热的预算。少少量热量,GPU就能多一些功率去作念计算,更快计算出收尾。同期,还要把密度作念上去,密度越高居品就不错越小,用户就越有空间去部署GPU,咱们还会伙同客户作念性能优化,比如数据径直从SSD到达GPU,而不经过CPU内存。” 对于AI时期要如何作念好存储,企业级SSD厂商忆恒创源CEO张泰乐告诉记者。
SK海力士践诺副总裁、NAND-Solution开采部负责东说念主安炫则暗意,SK海力士在发力的CXL接口本事将会回答海量的AI数据需求等,相关决策能通过计算型存储减少数据买卖于GPU间的出动,其计算型内存责罚决策CXL2.0在特定使命负载环境下能节俭20%使命能耗。
记者了解到,算作非易失性存储,NAND Flash制成的SSD等存储居品,还承担了实时保存大模子运算骨子的任务,这条目SSD存入大量数据的速率填塞快。
硬件除外,软件层面的存储基础架构也在安妥AI时期的条目。不少大模子磨砺和数据存储在云做事器上进行,云存储厂商的对象存储、文献存储等本事正在针对AI磨砺进行调换,相通责罚大模子磨砺效率和宕机保存问题。
记者从腾讯云获悉,数据存储约占大模子磨砺合座工程量的20%~30%。在大模子数据清洗阶段,模子数据量可达PB乃至EB级,对存储淡薄多左券支合手、高性能、大带宽需求。大模子磨砺阶段则波及磨砺恶果保存,需要镌汰存储耗时。
“模子磨砺阶段短则数周,长则数月,任何一个GPU阶段掉线齐会导致磨砺前功尽弃,需要容错法度,即每2~4小时暂停GPU磨砺、保存每个GPU Checkpoint(搜检点)。” 腾讯云存储总司理马文霜告诉记者,Checkpoint时分要格外短,不然GPU磨砺效率会被拉低,存储因此需要有高写入带宽。为此,腾讯云将并行文献存储CFS Turbo读写速率从100GB栽植至1TB,减少Checkpoint写入耗时,并在数据清洗阶段通过升级数据加快器GooseFS减少单次清洗任务耗时。
腾讯云存储总司理陈峥告诉记者,从文生文、文生图到文生视频,数据爆发式增长,这个经由对存储责罚决策的条目越来越高,云存储团队对各业务场景已在预研未来2~3年的存储底座。马文霜以为,AI应用爆发式增长,但还没到旺盛的阶段,当下存储需要责罚高性能、高性价比、高速的问题,后续应用于数据审核、数据治理的智能存储也将是一个迫切标的。
(实习生郝梓竹对此文亦有孝顺)
海量资讯、精确解读,尽在新浪财经APP背负裁剪:王许宁