虽说大数据是当下的热词,但数据的价值真正被发挥出来了吗?而不是仅停留在字面意思“大”上。
要回答这个问题,恐怕还真得打一个问号。
来自华为全球产业展望(GIV)报告显示,全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。但企业生产活动产生的数据中只有不到2%被保存,而其中得到分析利用的不足10%。由此可以看出,在我们人人都提大数据的今天,数据的价值还远远没有释放。
为什么会产生这一状态?原因有很多,例如从数据本身来说,数据源日益增多,越来越多的数据孤岛被立起,越来越难以进行有效的数据治理;从技术角度来说,Hadoop、Spark,MPP、NoSQL、kafka、机器学习、深度学习不断发展,不同技术解决不同问题,如何进行异构融合是一个瓶颈。
总结看来,大数据运营之难可以概括为三个方面。
数据价值实现之难
数据接入难、分析难、消费难是实现数据价值的三大挑战,多样性的业务、多样性的系统、多样性的数据,导致数据在以往的数据平台中无法被有效利用,无论是数据仓库还是Hadoop大数据平台,比较容易形成数据孤岛和“数据沼泽”。
具体说来,1个财经数据往往涉及30+系统,1个开发流程涉及400+系统,再加上数据接口协议不统一,所以也就导致数据接入难的问题;数据存储、大数据处理平台组件众多,使得数据分析链路变长,多系统集成难度大,也就导致数据融合分析难;数据消费方面,以某企业IT系统举例,数据源有130+万张表,数据平台有14+万张表,而可消费的只有5000张表,要从130+万张表中寻找目标数据如大海捞针般需耗时30天左右,进一步将目标数据加工成业务可使用数据也要耗时7天左右,找数难、取数难尤为严重。
怎么解决这些难题,华为给出的答案是:从数据接入、数据处理和数据使能三个层面,重定义数据基础设施。
FusionData:罗马,高斯与大禹
6月5日,华为发布智能数据解决方案FusionData,以多样性算力为依托,其包括了数据接入、数据存储、数据处理、数据使能等关键部件,从而打通全域数据连接、建立统一的数据平台、提升实时数据服务能力。
FusionData支持智能的数据全生命周期管理,华为希望引领多样性数据连接,重定义存储架构,重定义数据处理平台,引领数据使能。如何重定义数据基础设施,释放数据价值?FusionData有三个关键“角色”支撑。
ROMA:条条大路通罗马。应对数据接入难题,智能数据连接部件ROMA支持1100多种应用和异构数据源接入,通过开放式数据接入框架可灵活接入第三方数据源。并且其支持分布式消息和API的路由统一配置管理,以及数据多通道传输,从而让数据自由流动起来。
GaussDB:如高斯般的数据分析天赋。华为上个月刚刚发布的分布式数据库GaussDB是FusionData智能数据处理部件的核心组成。GaussDB是一个企业级AI-Native分布式数据库,它将AI能力植入到数据库内核的架构和算法中,可以提供更高性能、更高可用、更多算力支持的分布式数据库。
在实现对多样数据源的“罗马”式数据接入基础之上,FusionData智能数据处理部件解决数据融合分析难题。其中还包括此前与GaussDB一同发布的智能分布式存储FusionStorage 8.0,以及大数据平台FusionInsight等,通过多类型数据融合存储、融合分析引擎等技术实现从单一处理到智能融合处理,加速实现数据价值。
DAYU:如大禹治水般进行数据使能。其对下承接智能数据处理能力,对上使能数据的行业应用。智能数据使能部件DAYU通过智能元数据感知和OneQuery Turbo技术构建数据处理与业务创新的桥梁。一方面,自动感知和采集多个系统的元数据,并进行智能化分级分类,支撑数据寻找秒级响应;另一方面,提供统一的数据访问接口,使得数据获取速度提升10倍以上。
FusionData:提供数据湖能力
由此可以看出,FusionData解决了各方数据的汇聚统一接入问题,并提供了‘采-存-算-管-用’全生命周期管理能力,让数据存得下、流得动、算得快、用得好,从而真正将数据资源转变为数据资产。
通过将存储与计算分离,存储结构化、非结构化和半结构化数据,并通过统一视图提供开放访问,FusionData俨然成为一个“数据湖”。
事实上,华为构建智能数据解决方案的目的就是为用户打造数据湖(Data Lake)能力。这一概念最早由Pentaho的CTO James Dixon 提出:“如果数据集市是一个商店的瓶装水,数据被过滤包装结构化以供使用——数据湖则是在更自然状态下的大量的水。数据湖中的数据来源于不同地方,用户可以进入数据湖中按需提取所需要的数据”。
也就是说,所有的数据本质上为上层应用调用,数据形成湖。数据湖不迁移,不随硬件而动,通过数据使能,甚至让上层应用对下面数据无感知,最终“悄无声息”释放数据价值,这就是FusionData的目标。
一家企业一个数据湖,一座城市一个数据湖,数据助推的行业智能化由此而来。
加速构建“数据+智能”生态
“数据成为新生产资料,智能成为新生产力”。这是华为的判断,也是业内的共识,这背后代表着新的数字经济时代。“数据+智能”改变各行各业,并创造新的产业价值和社会价值。
华为更希望构建开放、合作、共赢的生态环境,这也是重定义数据基础设施过程中所必走的一步。通过联合客户和合作伙伴,从行业应用、平台工具、标准组织和社区三个层面完善产业生态,这其中已经有众多的用户和产业伙伴加入进来。也只有如此,才能更快呈现“智能”这个新生产力的力量。