首页 > IT业界 > 正文

元核云发布存储产品新特性,结合AI算法助力慢盘智能化检测

2020-09-08 09:59:03  来源:互联网

摘要:AI时代来临,让许多工作变得智能化、自动化,节省了大量的人力和物力,其实存储也不例外。
关键词: 元核云
AI时代来临,让许多工作变得智能化、自动化,节省了大量的人力和物力,其实存储也不例外。

01技术背景

众所周知在分布式存储系统集群运行环境下,硬盘是数量最多且故障率最高的硬件之一,目前,一般硬盘不加电、不工作等故障,普遍能做到及时发现并快速隔离处理。但有些时候硬盘故障会表现为工作的同时性能变得缓慢。

具体表现为两方面

1. 随着时间推移性能相对其他硬盘逐渐变慢

2. 突发性缓慢,一段时间后恢复正常

判断一块硬盘是否已出现缓慢症状是相对复杂的过程,影响因素众多,如:IO大小,IO延迟,IO数量,IO类型,IO分布等等,同时在不同运行环境下其表现也不相同。

所以及时准确地找出缓慢硬盘,并将其实施隔离,是存储系统性能稳定保证的关键。

02技术说明

10年磨炼,5年精耕,元核云技术团队紧跟最新技术发展动向和发展方向,不断钻研,小步快跑快速迭代,结合AI算法助力慢盘智能化检测,实现智能存储新特性

通过建立延迟数据AI预测模型,定期不断训练,将实际延迟数据与预测延迟数据实时比对,将数据差异较大的硬盘标记为缓慢故障盘,并执行自动隔离操作。

 

具体流程如下

1 基于实际环境硬盘负载及其对应延迟数据,训练出基于硬盘负载的延迟预测AI模型

2 获取运行环境的实时硬盘负载和延迟,基于负载可预测出正常延迟范围

3 实际延迟频繁高于预测延迟范围的硬盘,即被标记为慢盘

4 自动化运维平台在保障数据安全可靠前提下,将标记的慢盘踢出集群

03技术效果

数据来源:某客户生产环境下采集一套集群48小时的硬盘性能数据。

硬盘类型:7.2K企业级机械盘。

完成数据训练后,随机选择了2000个数据采样点进行预测延迟与实际延迟趋势对比,详见下图:

注:蓝色为预测延迟数据,绿色为实际延迟数据

从图中数据中可以看出,两组数据成相似轨迹波动,符合预期。将两组数据取差值,可以看到2000个测试样本,差距基本在正负10毫秒以内,详见下图:

 

04展现效果

 支持手动重置模型:若长时间运行业务环境需增加其他业务场景,或其他长期场景导致集群性能压力变化较大情况下,可重置模型。重新基于变化后环境进行预测且

测模型参数可调,包括“检测周期”“采样频率”“慢盘敏感度”。适应不同压力业务环境下的训练模型,使预测更准确且更具针对性。

☑ 预测到持续性慢盘后,根据疑似慢盘处理可以实现“仅产生预警”“、”仅产生告警”、“告警并隔离”,根据告警/预警准确定位故障磁盘位置,并自动点亮磁盘灯,提醒运维人员查验并更换。

☑ 若选择“告警并隔离”,其会自动将慢盘从存储集群中剔除,使后续业务更加稳定。

☑ 根据预测的延迟偏离趋势分析预测准确度:偏离趋势持续下降则说明预测越来越准确,偏离趋势持续上升即需要对预测模型参数做调整,从而实现准确预测效果。

近几年,随着人工智能、云计算、大数据的迅猛发展与互相融合,存储系统的需求将越来越复杂,如何利用新技术优化提升存储的性能以满足多样的存储需求越发的重要。

元核云,精于存储,专于数据,勇于突破,竭诚服务。坚持以产品研发和客户服务为核心,愿携手广大合作伙伴,彼此赋能、深度耦合,共生态,同发展!


第三十六届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:chenjian

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。