随着大数据和人工智能的迅猛发展,对存储解决方案的需求也日益增长。尤其是以AI为首的创新技术,对存储容量及耐用度提出了更高要求。 为满足这些需求,慧荣科技在2024年开放计算项目(Open Compute Project, OCP)全球峰会上分享了最新的研究成果,由慧荣科技SSD固件架构师David Wang于灵活数据放置 (FDP) 讨论小组中进行了《在面向人工智能的高容量 QLC SSD中启用FDP所面临的挑战》内容分享。 慧荣科技SSD固件架构师David Wang QLC以其大容量和高能耗比等特点,成为当前读取密集应用场景的重要选择。但在AI服务器中,数据处理包含采集、准备、训练及推理等过程,在这一流程中存在着存取类型多样(如顺序读写与随机存取)、操作类型复杂(读、写、更新)、存取大小不一(小块数据与大文件混合)以及并发性等特征。 正因为此,在读取密集应用场景下如鱼得水的QLC SSD,在AI服务器中正面临着以下难题: 性能下降: 在写入操作较多的情况下,QLC SSD容易出现较高的写放大因子(WAF),进而降低了IOPS和吞吐量。 耐久性不足: QLC NAND闪存的编程/擦除周期(PE cycle)通常较低,这导致了较低的每日全盘写次数(DWPD),从而影响了SSD的整体寿命。 为解决以上问题,慧荣科技提出灵活数据放置(Flexible Data Placement, FDP)作为增强QLC性能和耐用度的理想解决方案。 降低写放大因子(WAF): FDP能够显著减少不必要的写入操作,从而大幅降低WAF。测试数据显示,在启用FDP后,WAF从5.5降至1,同时IOPS从120K提升至725K。 改善每日全盘写次数(DWPD): 同样地,FDP有助于增加DWPD,SSD可以在特定条件下达到0.96的DWPD。 最大化性能,最小化负面影响: FDP不仅提高了性能指标,还减少了低PE周期QLC介质对整体性能的影响,确保了长期稳定运行。 考虑到现代数据中心对高效能存储解决方案的需求,特别是在支持AI训练和推理方面,慧荣科技还特别提出了以下几个设计要点以确保最佳用户体验: 1 减少DRAM使用以控制成本 采用可配置的IU (Indirection Unit)设计,如16K IU适用于大容量驱动器。 利用硬件辅助的位打包L2P条目进一步节省L2P表空间。例如,使用 33 位条目(而不是 40 位)来寻址 8G IU,可进一步将 L2P 的大小减少到 17.5%。 减少大 IU 上小写入造成的 WAF,支持 4K IU 的 RUH 和 16K IU 的 RUH。应用程序可将小规模写入放在 4K IU 的 RUH 上。 2 多命名空间下的QoS和性能一致性 通过双态令牌桶算法(PerformaShape)调整每个命名空间的读写性能,降低noise neighbors和资源竞争导致各个租户之间的性能不稳定。 实际测试表明,启用性能整形后,读写一致性的提升分别为21%和31%。 随着这一创新方案的应用推广,我们有理由相信未来的数据中心将变得更加高效且经济实惠,从而更好地服务于快速增长的数据需求。慧荣科技将继续致力于推动存储技术的进步,为各行各业带来更加强大的数据处理能力。
我的评论
最新评论