本文来自微信公众号 “光锥智能”,作者:王圆珍,纷传经授权发布。
04
存储架构发展趋势:从集中式架构向分布式架构不断演进
存储市场按照存储架构可以分为传统企业级存储(TESS)、软件定义存储(SDS)、超融合基础架构(HCI)。
随着数据量增长及数据分析需求爆发,存储架构从传统的集中式存储向分布式演进,分布式存储的主要形式分为软件定义与超融合。
(一)传统企业级存储
DAS(直接连接存储):存储设备是通过电缆(通常是SCSI接口电缆)直接连到服务器的,I/O请求直接发送到存储设备。
应用场景:网络规模较小、数据存储量小、组网简单的小型网络,在中小型企业中广泛使用。
特点:架构连接简单,集成在服务器内部,为点到点的连接,具有安装技术要求低,成本较低优势。
DAS劣势明显:
DAS架构的可扩展性较差,SCSI总线支持的距离最大为25米,支持的设备数量最多为15个,服务器/计算机配备固定容量的DAS存储。
如果容量不足、存储空间太小,那就很难从内部进行弹性扩展(外部扩展容量也有缺点)。
如果存储空间太大也会导致资源浪费,尤其是在服务器领域很明显,直接制约了其可扩展性。
直连存储无法共享,因此经常出现的情况是某台服务器的存储空间不足,而其他一些服务器却有大量的存储空间处于闲置状态却无法利用。
DAS结构下的数据保护流程复杂,如果做网络备份,那么每台服务器都必须单独进行备份,而且所有的数据流都要通过网络传输。
如果不做网络备份,那么就要为每台服务器都配一套备份软件和磁带设备,备份流程的复杂度和备份成本会大大增加。
(二)NAS网络连接存储
NAS方式则全面改进了以前低效的DAS存储方式。
它采用独立于服务器,使用网络连接存储专用文件服务器来连接存储设备,自形成一个网络。
这样数据存储就不再是服务器的附属,而是作为独立网络节点而存在于网络之中,可由所有的网络用户共享。
优势:NAS是独立的存储节点存在于网络之中,与用户的操作系统平台无关。
可以做到真正的即插即用,同时NAS还具有资源易于共享、部署简单且扩展性较好等优势。
劣势:存储性能较低,可靠性差。
(三)SAN存储区域网络(Storage Area Network)
SAN是一个用在服务器和存储资源之间的、专用的、高性能的网络体系。它为实现大量原始数据的传输而进行了专门的优化。
1991年,IBM公司在S/390服务器中推出了ESCON技术。
它是基于光纤介质,最大传输速率达17MB/s的服务器访问存储器的一种连接方式。
用光纤通道构建的SAN由以下三个部分组成:
存储和备份设备:包括磁带、磁盘和光盘库等;
光纤通道网络连接部件:包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器;
应用和管理软件:包括备份软件、存储资源管理软件和存储设备管理软件。
SAN的优势如下:
网络部署容易;
易于存储和备份;
高性能:因为SAN采用了光纤通道技术,所以它具有更高的存储带宽,存储性能明显提高;
非常好的扩展性:由于SAN采用了网络结构,扩展能力更强。
光纤接口提供了10公里的连接距离,这使得实现物理上分离、不在本地机房的存储变得非常容易。
三种方式对比:
(四)传统集中式存储架构总结
传统SAN/NAS存储的硬件架构采用“控制器+硬盘柜”的方式。中高端存储支持多个控制器,以保障高可用并提高性能。
多控制器为紧耦合,通过PCIE总线或Infiniband网络互连,共享磁盘阵列,共享缓存。
BBU:内置BBU电池,进行掉电保护。
控制器其他功能:双活、容灾、CDP等技术保障业务系统的连续性和数据安全性。
传统集中式存储的特性适合作为金融/医疗等核心业务系统的数据库存储。
传统架构中,存储厂商一般自研硬件,核心目的主要有:
提高磁盘的IO性能,存储厂商需要自己研制面向IO的存储硬件。
比如说在一台存储服务器中需要扩展很多的SATA/SAS接口、扩展硬件RAID功能,如果是高性能的存储设备,还需要扩展控制器之间的专用互连网络接口。
应对存储的IO密集型读写,低端存储甚至可以采用计算性能比较差的CPU进行设计。
提高存储的高可靠性,传统存储往往追求硬件设计的可靠与稳定,通过提高硬件的可靠性来达到存储可靠的目的。
在这种传统存储的思路下,存储的设计主要分成存储硬件和存储软件设计两大部分。
传统存储的问题:硬件绑定;总拥有成本高(资本支出+运营支出);可扩展性差;数据孤岛。
硬件绑定:专用存储硬件是各个厂商独立开发的,具有封闭性,容易绑定客户,进行持续的扩容销售、运维和提供服务。
同时对于客户来说,由于数据迁移的风险和费用很高,客户一旦选择某一厂商存储,后续就需要持续复购;
所以存在软件定义存储的发展趋势,用户急需能够对现有存储进行统一整合并且能兼容其他厂商设备的存储管理软件。
软件定义存储的理念就是将硬件归一化,而把之前通过专用存储硬件实现的提升IO性能和可靠性等功能都由软件来实现。
传统集中式存储在成本、可扩展性等方面存在劣势。
传统集中式存储采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。
传统存储采购和运维成本高,效率低下。
传统集中式存储最大的弱势在于只能凭借在系统中增加大量磁盘驱动器来实现较高的性能,而这种方式必然带来昂贵的开支和营运费用。
存储厂商通过在混合结构中增加闪存,尽力克服磁盘阵列局限性,但是旧有基础架构并不能真正发挥闪存的效率,发挥其最高性能。
而且,混合阵列也不能轻易地跨多个系统进行共享,这样就导致效率低下。
数据孤岛问题严重,资源闲置率高。
引入SAN技术之前,存储采购的目标主要是阵列的嵌入式特性/功能和物理硬件属性,如可扩展性和可靠性。
一旦SAN 被广泛地采用,用户面临的就是各种各样的型号和品牌。
因此他们只能根据具体的项目需求建设一套又一套的存储设备,这在很大程度上使不同的存储设备在用户的系统中是一个个孤岛。
这就造成了不同业务系统的存储资源无法均衡并且维护成本居高不下。
(五)分布式存储系统成为存储发展主流
分布式存储是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷。
利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
软件定义存储:
将存储硬件中的存储控制器功能抽出来放到软件上,包括卷管理、RAID、数据保护、快照和复制等等。
虚拟化和虚拟化和云技术的发展和成熟转变了数据中心的设计、建造、管理和运维方式,这种变革使软件定义存储越来越有吸引力。
根据分布式存储系统的设计理念,软件和硬件解耦,存储的很多功能比如可靠性和性能增强都由软件提供。
但是并不意味着硬件不重要,但是实际中进行分布式系统集成时,除了考虑合适的分布式存储技术意外,还需要考虑底层硬件兼容的问题。
分布式存储系统的产品形态一般有:软硬件一体机、硬件OEM、软件+标准硬件。
优势:
灵活部署:控制器的功能不仅仅局限在单一设备,如果存储控制器功能被抽离出来,该功能就可以放在基础架构的任何一部分。
它可以运行在特定的硬件上,在hypervisor内部,或者与虚机并行,形成真正的融合架构。
存储系统整体性能的大幅提升。分布式架构提升了系统整体的聚合性能,可以在不改变硬件配置下进一步降低访问延迟。
中立:软硬解耦、易于扩展、自动化、基于策略或者应用的驱动。就业务应用来说,即不限制上层应用,不绑定下层硬件;
除了提供块存储,也可以在同一平台提供文件、对象、HDFS等存储服务,实现非结构化数据的协议互通;
同时应具备完善的监控能力,实现应用感知。
允许用户不必从特定厂商采购存储控制器硬件如硬盘、闪存等存储介质,硬件归一,软件价值凸显。
开放性+水平扩展。开放化意味着接口标准化、服务原子化。
保证客户的应用系统能够以最顺畅的方式对接基础存储设施,可微调解决方案细节,达成高质量的服务。
水平扩展则是云计算弹性环境的必然要求,在移动互联网环境下,业务应用的负载量是突发式、潮汐式、难以精确预测的。
应用要求存储的容量和性能都必须能够线性扩展以满足上层应用需求。
采购成本和总体拥有成本降低。如超融合系统,在使用成本方面,服务器+超融合软件(或超融合一体机)的采购成本有大幅度的降低。
除采购成本外,超融合系统在总体拥有成本上有更大的优势。
SmartX在某证券客户的支撑案例中,超融合解决方案协助客户提升15%的资源利用率、降低60%的运维工作量、同时每年的IT采购成本降低50%。
影响现有存储格局:未来软件领先并且具有持续研发能力的厂商将打破现有存储格局,降低新厂商的准入门槛,为全行业带来更多可能;
所以,未来市场可能存在由集中度高的市场格局演变为更加分散的市场。
(六)超融合架构
1.超融合定义
软件定义的IT基础架构,可以虚拟化常见“硬件定义”系统系统的所有元素,对传统存储设备进行统一管理、池化。
然后映射给上层主机使用;
把应用程序存储与物理的数据存储基础设施分离;这将实现存储资源的“灵活”分配、重新分配或不分配。
存储虚拟化提供一种把存储服务从存储包中分离出来的方法,即使基本的硬件和互连被变更,仍然能提供卷的持续性。
超融合基础架构除对计算、存储、网络等基础元素进行虚拟化外。
通常还包括诸多IT架构管理功能多个单元设备可以通过网络聚合起来,实现模块的无缝横向扩展,形成统一资源池。
超融合基础架构图示:
资料来源:志凌海纳
4大优点:更好性能、更高可靠性、更加敏捷、易于维护,企业可以降低IT基础设施的总体拥有成本。
解决传统存储“烟囱式”扩容的弊病,充分利用用户已有的存储设备。
实现多厂家设备的异构、数据的迁移、容灾和统一管理,充分实现客户存储硬件的投资价值。
解决被单一存储厂商绑定的问题。
虚拟化技术可用于跨多个系统灵活分配存储空间,通过使用缓存系统来发挥闪存的优势。
2. 存储虚拟化实现方式
基于主机的虚拟化在主机服务器上实现;基于存储网络的虚拟化,需要在SAN网络中添加虚拟化网关的支持来实现;
基于存储设备、存储子系统的虚拟化,依赖于提供相关功能的存储模块或第三方的虚拟软件来实现。
(1)基于主机的虚拟化
一般由操作系统下的逻辑卷管理软件完成(安装客户端软件);优点是支持异构的存储系统,缺点是占用主机资源,降低性能;
存在操作系统和应用的兼容性;导致主机升级、维护、扩展复杂,容易造成系统不稳定;数据迁移过程复杂,影响业务连续性。
(2)存储网络虚拟化的实现设备-虚拟化网关
优点:不占用主机资源;支持主机、异构存储设备;不同设备的数据管理功能统一;可扩展性好。
缺点:占用交换机资源;成熟度低。
虚拟化网关价格高,市场规模看起来并不大;——降低存储系统新厂商准入门槛,SAN开始面临公平竞争,有利于行业推陈出新。
资料来源:百度
(3)基于存储设备、子系统的虚拟化
在存储控制器上添加虚拟化功能,常见于中高端存储设备。
优点:不占用主机资源,数据管理功能丰富。
缺点:一般只能实现对本系列设备内磁盘的虚拟化;不同厂商间的数据管理功能不能互操作;
多套存储设备需配置多套数据管理软件,成本高。
05
分布式存储市场广阔,增长可期
(一)整体市场规模
存储市场全景
据IDC的预测,2021年中国企业级存储市场空间55亿美元,2020-2024年中国企业级存储市场将保持7.16%的年复合增长率。
到2024年中国企业级存储市场空间将达到65.9亿美元。
SDS和HCI的增速远远超过TESS,其中SDS未来四年复合增长率12.8%,HCI未来四年复合增长率13.0%。
从行业角度看,在电信和制造业中,SDS产品的市场需求增加。
预期将支持电信和制造业中许多新的在线工作负载,以支持边缘计算工作负载(如环境监测或制造设计等)中非结构化数据的捕获和分析。
(二)全球软件定义存储市场规模
据Transparency Market Research发布的《Software Defined Storage Market》表明。
从2019年到2027年,全球软件定义存储市场年复合增长率达到25%,市场规模将达到536亿美金。
北美和欧洲的存储市场受到政策引导和资金扶持,将持续保持高速增长,其中北美仍是软件定义存储的主要市场。
全行业都呈现软件定义存储的发展趋势。
根据Gartner 2020年存储战略路线图预测,到2024年,全球存储容量的50%将作为SDS部署在本地或公共云上。
与2020年相比,2024年的大型企业将会存储在本地,边缘或公共云的文件或对象存储的非结构化数据将增加两倍。
据IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2020年第四季度》报告显示。
2020年软件定义存储与2019年相比增长了51.7%,超融合存储系统增长了36.5%。
新应用场景成为推动分布式存储发展的有力抓手。
从新应用场景角度来看,金融行业出现了如“远程柜台”、“人脸/指纹识别”等新型金融应用。
实现了结构化数据向非结构化、多类型数据的转变;
教育行业积极部署信息化和网络辅助教育,教学模式多样化如“线上教学”、“混合式教学”等形式对存储容量要求也不断提高。
针对多类型数据混合存储带来的存储性能问题,分布式存储系统能够有效解决。
国内某运营商为例,2019年分布式存储集采达到600PB以上,并且计划未来5年将传统存储数量减少70%。
06
技术走向场景,厂商发展各具特色
(一)竞争格局:大厂/初创厂商
主要的厂商列举:
中国厂商:在传统存储阵列领域,当前市场份额较大的厂商包括华为、新华三、浪潮、曙光等;
在分布式存储领域,华为、曙光、新华三、XSKY等厂商占有较大市场份额。
而在云存储领域,阿里云国内领先的云存储厂商。属于技术与市场壁垒双高的领域。
软件定义存储:行业集中度极高,top前五占据70%+;2018年到2021年,前五的市场份额在缓慢下降。
华为市场份额同比减少2.6%至39.1%;收入为27亿元;
曙光增加0.3%至13.5%;收入为12.8亿元;
新华三减少3%至10.2%;收入为9.7亿元;
浪潮猛增4.6%至9.2%,跃居第四位;收入为8.7亿元;
XSKY增加0.55%至8.1%,降至第五位;收入为7.7亿元。
备注:以上数据可作为简单参考,因为统计口径与硬件占比等,可能与实际情况有一定差异。
(二)华为
华为认为软件定义存储并非普世良药,基于软硬结合的方式才是合适的路径。
分布式存储2023年将占据企业存储市场的35%以上,云化、设备整合、设备联网是推动力,不再是趋势,已经是现实。
丰富协议类型,对象、块、大数据存储等,2019年推出大数据存储。
基于传统企业存储持续打造企业级分布式存储的能力,2020年底全球客户数3000+,中国区市场份额第一。
融合+智能理念,自研存算传管芯片,提供专用硬件服务。
存算分离、大数据虚拟化、对象资源池、视频云等五大解决方案。
未来战略:软件+硬件的双轮驱动,基于软硬结合推动产业;客户需求出发,面向业务的创新,追求稳定性、效率与成本。
(三)中科曙光
公司分布式存储市场份额国内前三。公司分布式存储包括分布式存储系ParaStor300S、分布式块存储系统XStor1000、区块链存储系统ChainStor等。
根据IDC数据,2021年,中科曙光分布式存储以11.3%的市场份额位列国内软件定义存储市场第三位。
其中,曙光ParaStor以20.6%的市场份额,位列中国分布式文件存储市场份额前二,公司连续第8年获得此殊荣。
主营高端计算机业务的协同作用。
市场对计算和存储的需求具备明显的相关性,随着公司向客户销售的高端计算机规模扩大,相同客户对存储产品的需求有望同步同步增长。
预计2022-2024年,存储产品收入分别为12.93、15.78、19.30 亿元,增速分别为21.5%、22.1%、22.3%。
(四)新华三
新华三拥有计算、存储、网络、安全等全方位的数字化基础设施整体能力。
提供云计算、大数据、智能联接、信息安全、新安防、物联网、边缘计算、人工智能、5G 等在内的一站式数字化解决方案,以及端到端的技术服务。
同时,新华三也是 HPE®服务器、存储和技术服务的中国独家提供商。
面向全闪的H3C ONEStor 5.0是H3C与英特尔携手打造的全栈优化产品,关键优化技术包括DCache加速、重删压缩加速、固态盘耐用性提升等多个方面。
资料来源:新华三
新华三UIS超融合占据国内主导地位IDC发布《中国软件定义存储及超融合存储系统市场季度跟踪报告,2021Q4》。
报告显示,2021年二季度至四季度,紫光股份旗下新华三集团在超融合存储系统市场连续三个季度保持市场第一。
并以全年21.9%的市场占有率问鼎中国超融合市场。
新华三UIS超融合架构具备“全域云”的能力,为企业数字化转型提供核心能力,备受市场认可。
(五)杉岩数据
海量非结构化数据存-管-用一体化的解决方案,国家级“专精特新”小巨人企业。
全分布式架构,基于通用服务器硬件线性扩展,提供EB级容量,支持百亿级文件存储;支持EC机制,降低存储成本。
(1)更快的IO、高并发、大容量、副本+纠删(节点故障会触发系统自愈、成本可控)。
智能缓存技术低成本,可以高效加速数据访问性能。
高性能介质缓存热数据,低性能介质保存温冷数据,保障高优先级业务性能,有效降低整体硬件成本。
技术特性:多级缓存加速;数据类型智能感知;大块数据透传。
特性优势:元数据/高优先级数据优先缓存;低优先级的数据全不缓存;中优先级的数据自动冷热分层;基于优先级在线调整,不影响业务。
海量小文件合并技术实现百亿文件性能平稳
支持未来湖仓一体建设
接口支持全:100%兼容POSIX、HDFS、S3三大主流访问协议,能对接大数据和AI训练的主流访问协议,能对接大数据和AI训练的主流应用;对于Hadoop生态的上层应用完美兼容,不需要做任何改动。
元数据支持分离部署:性能和扩展性强,大数据分析场景的Listing、Rename操作响应速度快。
支持数据智能缓存、数据预读、并发读:在大数据场景下的Parquet和ORC数据格式分析场景性能有保证。
Kubernetes CSI支持:支持容器共享,便于K8S调度。
数据来源:杉岩数据官网
面向行业的应用需求延展-机器视觉质检数据存储解决方案,智能分析和挖掘数据价值:
为多个生产线的机器视觉设备提供统一的图片、日志数据采集、存储、和管理平台。
存储底座采用全分布式架构,存储的性能可随节点数量线性增长,能满足众多机器视觉设备同时保存高清晰度图片的需求,并确保多并发、高带宽和低时延读写;
针对不同工序产生的图片、日志数据的保存时间和访问性能的要求。
通过数据自动分层功能,让数据在合适的时间存储在合适的介质中,并根据管理策略将历史数据自动归档至蓝光存储或公有云,实现低成本长期留存。
数据来源:杉岩数据官网
(六)XSKY 星辰天合
根据IDC等第三方权威报告,XSKY星辰天合在SDS中国市场整体份额中,位居前五,是 TOP 5中仅有的一家专业软件定义存储厂商。
其中,对象存储细分市场排名第二,仅次于华为,在专业软件定义存储厂商中已经连续4年排名第一,在块存储细分市场,排名第四。
产品
(1)整体产品架构:
(2)针对结构化数据的解决方案:
资料来源:XSKY星辰天合
优势:针对x86和新的服务器生态,支持跨生态数据的无缝迁移。
xmotion:纳管热迁移技术-Zstack、OpenStack、CloudStack等云平台。
提供面向虚拟机和租户的存储计算一体化迁移方案。
支持存储在线热迁移,业务无需终端。
(3)针对非结构化数据的产品方案:
资料来源:星辰天合
X3DS:立体数据管理系统,支持非结构化数据的复制、迁移、备份、归档。
支持跨厂商文件和对象存储之间数据相互移动。
支持跨云的数据上云和下云。
(七)SMARTX志凌海纳-超融合基础架构
主要价值:
以简洁的架构提供高可用方案。超融合由于其融合部署架构,可有效协调虚拟化和存储高可用联动的问题。
从而以非常简洁的架构提供不同级别的高可用方案。
产品架构图示:
SMTX OS包括:
SMTX ELF VM Service(计算)虚拟化管理平台~·
SMTX ZBS Distributed Block Storage分布式块存储系统
SMTX Fisheye Web Console超融合管理平台
SMTX MultiActive Cluster双活
SMTX Backup异地容灾备份
资料来源:志凌海纳
SMARTX场景:交易系统、MES系统、HIS系统等核心场景。
优势:高性能的超融合存储软件,软件升级促进系统性能提升;核心系统需要迁移到超融合系统,硬件和软件协同优化。