在文生视频的SORA引爆全球各界后,相关的算法、算力被频频提起。但是,大多数组织却不约而同地忽略了AI大模型落地于实际业务中最为基础和关键的一点——你的企业级存储,是否还“能用”?
这里的“能用”,当然不仅仅是指存储拥有足够大的容量,也更是指存储的性能、数据处理的速度等能否达到AI大模型训练的极高要求。在这场抢占AI先机的竞赛中,一个“不能用”的企业级存储不仅会大大增加大模型训练的整体成本,甚至还会导致大模型被迫“夭折于襁褓中”。
一个“不能用”的存储,将如何掣肘AI?
在AI领域,有一句俗语可以很好地概括数据与模型之间的关系:“Garbage in, Garbage out”,顾名思义,数据的输入质量决定着最终模型的输出质量。如果没有高质量、大规模的数据输入,无论多么先进的算法、多么庞大的算力,都无法带来接近人类真实思维的大模型。
而这,就对数据的处理和存储提出了更多挑战——
根据国际知名分析机构IDC的分析,AIGC 的能力决定了它需要大量的非结构化数据进行应用,这将导致集体的过滤数据量很容易达到 PB 级,随着应用场景的深入,推理要求将对数据基础设施的性能提出更高要求。
比如,在最初期的数据采集和处理阶段。训练者为了避免大模型幻觉*,往往需要更广来源、更多样的数据支撑训练(比如 OpenAI训练GPT-4的参数量达到了1万亿级别),存在多个来源同时输入、统一输出到集中存储池管理的情况,假如存储的读写性能和处理速度非常一般,将很可能缺失甚至丢失数据,将直接影响模型训练的正确率。(*大模型“幻觉”指模型生成不正确、无意义或不真实的文本的现象。)
又比如,在训练阶段,往往需要高性能的GPU或者加速器等来执行一系列的数学运算,对计算和存储资源要求非常高。越庞大的模型训练,越有可能频繁发生读写延迟、训练中断等故障,对存储底座的稳定性和性能有极高的要求。
因此,一个“不能用”的存储,将会在大模型训练的方方面面掣肘AI落地,不仅直接影响到了模型训练的周期、命中率等,也大大增加了包括时间在内的总体训练成本。
为AI而生,向真正“可用好用”的存储进发
AI大模型涉及的数据采集、标注、训练、推理、归档等场景,带来了数据基础设施在异构数据融合、持续低延迟与高带宽和EB级大容量存储等方面的新需求。
一个真正在AI场景下“可用好用”的存储,不仅仅需要以“一套统一的数据存储底座”来满足AI大模型采、标、训、推、归档全过程的需求,以及多业务部门、多环境的存储需求,也要在性能、稳定性上有卓越的表现。
一个“可用好用”的企业级存储能为AI大模型训练带来更流畅、更高效的体验,越来越多的用户乐意为此“买单”。IDC报告显示,未来五年中国“软件所定义的市场”将以 8.3% 的复合年增长率增长;在 2027 年市场容量预计接近 38 亿美元。IDC强调,AI风口将推动企业级存储市场增长,业界整体保持平稳增速。
目前,部分AI领域的探索者们已经先行开启了面向AI的未来存储实践。例如清华大学智能产业研究院已经率先在AI训练的工作中使用了一款专门为AI大模型打造的统一存储平台——深信服EDS 520 版本。在清华大学智能产业研究院日常开展AI训练工作过程中,数据规模常常高达数十亿,并且还在不断增长,出现了数据调阅延时高、GPU训练效率大打折扣等问题。在采用深信服EDS存储后,AI训练数据命中率达到90%,小文件读写时延降低到us级,百亿规模样本数据可以极速处理,有效保障AI训练过程中访问数据的效率,并大幅缩短了科研中的AI训练时间。
AI未来已至,如果不想做“繁花”时代的旁观者,不如从打造面向AI的未来存储开始,一步步成为Game changer!