首页 > 资讯 > 海略观点 > Emc技术顾问康锦荣：横向扩展的数据湖架构

Emc技术顾问康锦荣：横向扩展的数据湖架构

2015-08-21 14:54:00 来源：中国大数据产业观察网

主持人：谢谢王磊的分享。下一位嘉宾有请Emc的康锦荣先生演讲，他这个标题我是觉得很神秘，横向扩展的数据湖架构，我对大数据技术还是比较外行的，请专家上来给大家讲讲，这个技术用了以后能提升什么。有请！

康锦荣：大家好！我先自我介绍一下，我是来自Emc的技术顾问，我叫康锦荣。

今天给大家介绍的题目看似跟大数据没有关系，但是数据湖的架构就是基于大数据这个概念下提出来的。今天我给大家分享一下，大家都知道我们Emc是专门专注于基础架构的一家厂商，其实最近业界一直有很多的变化，比如IDC提出第三平台的迈进，比如IT的革新，比如一系列的大数据社交网络等等这些概念的提出，我们Emc内部也有一些比较大的变化，一会儿会给大家分享一下。

我们看看这张PPT是现在比较热的一个话题，这个特斯拉公司本身看似像是一家汽车行业的厂商，但是他从根本上颠覆了这个汽车行业，他不单单是从销售角度，从汽车整体的设计理念，包括汽车的维护维修，包括用户对汽车的操作等等，都是基于互联网所定义的。可以看到用户完全可以根据APP去控制自己的汽车，厂商可以根据数据得到这个汽车的运行状态，包括用户在购买的时候也可以在网站上或APP上自己下单，按需采购自己的配置。所以这家公司没有出现的时候，不光是我们用户，包括汽车行业这些其他厂商也是不敢想象的。

现在每个行业都面临着数据架构的转变，我们从数据的角度去探讨这个问题。

Emc技术顾问康锦荣：横向扩展的数据湖架构

比如GE提出了工业2.0的概念，这些企业是比较成功定义了他们自己的架构，他们转型比较成功。举其中一个例子，比如一家保险公司，他们不单单是像咱们说从互联网下单，去采购自己的保险，他们做的别的同行不敢想象的一个动作，他们可以在线理赔自己的保险，极大优化了他们的工作流程。同时他们把这些数据收集过来再循环利用，比如他们可以留住自己的客户，促进自己的商业销售等等。

有些老牌的行业客户没有留住自己的这些客户，在市场上倒下去了，有些大家比较熟悉，今天不是咱们的重点。

一个企业要做大做强，在固定的市场份额下，你不考虑做大，有可能就会缩小，怎么利用好数据，怎么利用好大数据带来的冲击，把它转变为有用的价值，是每个企业都要去深思的问题。

在IDC预测报告里，在未来数据增长量是非常大，将近EB的量级。未来大家可以看一下增长的比例，其中非结构化数据，就是咱们常说的图片、文本或者其他一些格式，我们统称为非结构化数据，它的增长比例非常大。怎么把这些数据利用起来，这些数据如何被利用起来是很关键的问题。

我们再看一下数据架构的演变过程，在80年代一般都是数据向计算靠近的架构，我们每一套业务系统周边围绕自己的主业去获得一些数据，产生一些数据，这些数据多半是一些自己应用内部为主的，往往它的特征，我们归结为一些结构化数据为主。现在可以想象一下，一套大的业务系统，在线的电商，在线的应用举例，比如我这个系统可能有多个入口，除了智能设备，有可能有网站，有B2B的入口。

他们产生不同渠道的数据，怎么把它融会贯通起来，做一些分析，做一些利用。这个大的数据架构就提出来了，看到现在这样一个转变，计算向数据靠齐，各个入口的数据怎么把它融会贯通，在我们大数据的今天，有人就提出了数据湖这个数据架构概念。

大数据这种特点，最近两天各位专家介绍非常详细，有很多三维四维的特性。总结几个点，这些数据没法做到融会贯通，没法统一的存储，存储在一起的时候，这些数据有可能要做很多复杂的数据流动。

这个数据湖概念的提出，我就引用一位数据专家概括的两个数据湖比较简洁的一个特点，他提的特点之一，这个数据湖是用来存储大数据的，首先它是基于一个分布式的文件系统来实现。第二个特点，这些数据湖里的数据要很方便的拿来能做数据分析，同时它要具备一个特点，这些数据不需要签来签去，不需要做复杂的数据流动，这就是数据湖的一个理念。

我们看一下今天传统的IT架构，比如我们传统的大的应用系统可能有对外提供的文件共享，同时有可能有主流的高性能计算等等应用，同时有数据库的导出，归档备份，同时提供一些结构化和非结构化数据的数据分析。现在往往都是基于一个一个的数据孤岛来去构建的，这样的话，可能就会带来各种各样的问题。

首先我的数据平台会出现热点，同时我的数据平台可能分布不均，我们需要引用数据湖的架构，把数据纳入到一起，这是我们分布实现的一个理想状态。围绕这个数据湖，我们一定要打造一些企业级的功能。比如最关键的就是我们数据如何达到一个好的保护级别，在这套数据湖里最高可以达到N 4的保护级别。在数据湖架构下可以区分成三种不同的QS的等级，比如最高的类似IO密集型的应用，还有归档性的存储应用，我们可以把它区分出来。

良好的数据管理是很有必要的，这些在数据热点的时候可以放在高一级的存储里，一旦过了在线访问的周期之后，我们可能要转到老数据里，进行数据挖掘。数据安全也是我们比较关注的一个问题，像一些关键的客户他们要给政府做一些数据分析，同时提供一些服务。这些数据不能被更改，这个数据一旦写到存储里，谁都没有办法去更改的。

我介绍了半天，OneFS有几个特点，它是一个横向扩展的一个存储平台，每个节点都有自己的CPU，有内存，也有对外服务的端口，相当于每增加一个控制器，分布式文件系统都有获得容量，这就是横向扩展的一个优势。

我们这回带来一些什么新的东西呢？

首先分布式文件系统最早2000年就有，在今年7月份我们发布了最新的硬件平台和最新的文件系统平台。它的性能已经比2011年我们在公测网站上发布的那个值翻了两倍，同时它提供了更多的访问协议。我下面还会介绍我今天来的时候，我们Emc内部发生了哪些改变。

刚才提到数据湖这个架构，数据湖里的数据一定要拿来做分析，现在Hadoop是一个比较好的实现途径。我们具体看一下它的方案实现，首先我们看一下如何来打造一个企业级的Hadoop架构，传统的Hadoop是由传统的X86服务器搭建的，每一台Hadoop节点里，既要承载计算任务，也要承载Hadoop文件系统的数据存储任务。同时大家可以看到我标红的NN那个点，相当于Hadoop服务器，同时有一些隐患存在。

看看我们的设计理念，是把这个计算跟存储分离，这样的话，利用当前高速的计算交换网络，可以达到一些好的效果。大家可以看到首先我们的存储在Hadoop里不需要再复制多份，大家知道Hadoop默认的话，数据在文件系统里要复制三份。这样的话，往往存储利用效率会很低。

它的存储挪到ONEfs系统里面，ONEfs扮演一个角色，数据不需要再存储多份，只需要用保护机制来做就可以了，从管理上也有很大的好处，可以搭建我们企业级Hadoop架构。

来看一套应用系统在数据湖下面是一个什么样的架构，比如举一个例子，我们应用系统有多个入口，入到里面，我们可以把一些我们的日志，我们的非结构化数据可以放到数据湖里，统一把这些数据做一些数据的挖掘。刚才提到把计算和存储分离的这种Hadoop架构有一些什么样的管理优势呢，对于我们传统的Hadoop，如果计算和存储没有分离的话，可能会有一些问题。

我这个时候有可能我只需要一些性能，但这时候我的存储还空余很多，但是没办法，由于没有分离，我只能同步去扩展，没法达到一个独立扩展的优势。对于这种计算和存储分离的架构，可以看到我们需要计算资源，我们可以选择成本更低的一些刀片用来做计算，需要扩存储扩建，我们单独扩存储节点，这样极大的优化了我们的管理。

除此之外，Hadoop另外一个缺点，它只能基于HDFS来访问，你做一些可视化的图表的查看，你得导出来看。对于这种架构，我们是可以支持一个多协议访问的数据湖，所以数据在里面是互通的。同时这个架构可以支持多个版本的Hadoop，包括开源的还有其他三个商用版的Hadoop提供商。最关键的一点，大家可以看到Hadoop还有一个架构，由VMR提出来的，我们可以把计算完全虚拟化，这也是一个比较大的优点。

我今天数据湖架构的介绍就到这里，谢谢大家！

整理人：付睿

校对人：王斐