大数据平台分布式存储池场景

业务需求

在谈大数据的时候,首先谈到的就是大数据的4v特性,即来源和类型多样、海量,快速和时效性、价值发现。在有了4v的概念后,就很容易简化的来理解大数据的核心,即大数据的总体架构一般包括三层:数据存储,数据处理和数据分析。

类型多样和海量两个要求由数据存储层来解决,快速和时效性要求由数据处理层来解决,价值发现则由数据分析层来解决。


数据类型多样是指数据既有结构化、半结构化、非结构化之分;也有元数据、主数据、业务数据之分;还可以分为GIS、视频、图像、语音、业务交易数据之分;等等。传统的结构化数据库已经无法满足数据多样性的存储要求,因此在关系型数据库基础上增加了两种类型,一种是hdfs可以直接应用于非结构化文件存储,一种是nosql类数据库,可以应用于结构化和半结构化数据存储。这就需要支撑大数据系统运行的底层存储系统必须能够同时支持块存储、文件存储和对象存储三种类型的存储要求。


海量数据是指PB甚至EB级的数据量,所以需要底层存储必须具备很强的横向扩展能力,即存储性能必须随着容量扩展而线性扩展,不能存在瓶颈。


快速性,则要求底层存储的读能力要十分强大,如果数据的副本越多,则读效率必然越好。同时大容量分布式缓存(比如SSD)的大量使用加上好的算法也能大大提高读效率。

  • 大量

  • 高速

  • 多样

  • 价值

解决方案架构图

鉴于以上的需求,从存储层的搭建来说,关系型数据库,nosql数据库和hdfs分布式文件系统三种存储方式都需要。业务应用根据实际的情况选择不同的存储模式,但是为了业务的存储和读取方便性,必须对存储层进一步的封装,形成一个统一的共享存储服务层,简化这种操作。


从用户来讲并不关心底层存储细节,只关心数据的存储和读取的方便性,通过共享数据存储层可以实现在存储上的应用和存储基础设置的彻底解耦。这些恰恰都是Server SAN的用武之地。

方案优势

  • 高性能

    分布式哈希数据路由,数据分散存放,实现全局负载均衡,不存在集中的数据热点和大容量分布式缓存。

  • 高可靠

    采用集群管理方式,不存在单点故障,灵活配置多数据副本,不同数据副本存放在不同的机架、服务器和硬盘上,单个物理设备故障不影响业务的使用,系统检测到设备故障后可以自动重建数据副本。

  • 高扩展

    没有集中式机头,支持平滑扩容,容量几乎不受限制。

  • 易管理

    存储软件直接部署在服务器上,没有单独的存储专用硬件设备,通过Web UI的方式进行软件管理,配置简单。