著名大数据专家张青锋畅谈大数据技术前沿发展

2021-03-02 00:00 出处:其他 作者:佚名 责任编辑:侯宪勇

在互联网和大数据时代,人类所有行为包括思想都会被记录下来并存储成数据,它是真实世界和虚拟世界之间的映射,构成了另一个世界。数据是灵性和理性的结合,在当今世界海量数据是第一位资源,对于数据的发展和规划,反映出国家、行业和思想界的路径方法。从中央政府最近发布的《促进大数据发展行动纲要》来看,大数据的发展战略已被纳入到国家级和经济策略级的发展中,也被看做以市场作为资源配置的决定性因素,数据技术、产业发展必将促进中国从IT到DT的发展,加速中国经济转型的过程。

上图为辰星网科创始人兼CTO张青锋

从IT到DT,技术的发展使人类真正有了预测未来的基础能力。中国数据分析技术的市场据预测将从2015年的45亿美元增长到2022年的368.6亿美元。在行业应用分布上,政府、银行、零售业是大数据分析市场最大的用户 。

全球科技创新趋势正在发生巨变。大数据是人类社会的第一资源,对这一资源的有效利用和加工再生产,必将会对社会经济发展起到极大的推动作用,进而使人类可以更理性地分析世界、预知世界、应对未来。那么目前大数据技术架构的最新发展衍进的主要关注点有那些,在大数据基础研发领域仍面临那些最主要的技术挑战和问题是什么?

基于以上背景和问题,我们对辰星网科公司创始人兼CTO张青锋进行了专访,就大数据技术的最新发展衍进等相关话题进行了深入的探讨。

张青锋认为,目前大数据技术栈的最新发展趋势主要体现在存算分离架构、云原生、虚拟数据湖、湖仓一体等方面。

存算分离架构的发展是大数据架构技术架构的重要发展方向,从最早的计算引擎(MapReduce/Hive)于HDFS紧密耦合的同置架构,到集群中更多计算引擎(Spak/Preosto)与DFS解耦部署,再到更多的混合架构部署(体现在更多位置的不同数据中心、私有云、混合云、Spark、Flink、Tensorflow、PyTorch等计算框架、更多的存储系统等)。

存算分离架构带来了计算和存储层自主扩展的灵活性,但也带来了部分由于缺少数据本地性及网络开销的计算层性能下降问题。

云原生技术应用是大数据技术架构发展衍进的另一个主要方向。目前,传动的大数据计算引擎(Spark)及资源调度框架(Yarn)都再逐渐转向基于K8s等容器化技术进行云原生部署资源控制。传统的大数据存储系统(例如HDFS)也再进行面向云原生的对象存储架构改造(例如大数据对象存储Ozone),并出现了各种基于对象存储支持HDFS/HCFS接口的技术产品。

云原生改造提升了系统的扩展性和资源调度弹性,降低了大数据集群的整体物理资源成本,但也存在对象存储的性能局限性问题,以及跨多云及不同异构存储的统一数据访问问题等。

虚拟数据湖、云原生数据库、湖仓一体架构的衍进代表了大数据最新技术发展的另一个重要方向。虚拟数据湖可以通过数据虚拟化、数据编排等技术,在物理数据不移动的情况下形成虚拟数据视图。以AWS、TiDB为代表的云原生数据库等新的数据库引擎层出不穷,不断地在数据规模、ACID支持,查询引擎效率方面进行改善,也都在进一步的拥抱存算分离架构 + 对象存储支持 + 容器化/K8s部署。湖仓一体架构基于HDFS/对象等数据湖存储,利用Iceberg/Hudi 等湖表格式,支持流批一体、OLAP分析、AI/ML等更广泛的分析场景;基于数据仓库的引擎能力,对接更多的数据湖存储,并最终支持更广泛的分析场景。

这些云原生、存算分离趋势下的云原生数据库、数据湖、湖仓一体技术实现了资源弹性,湖仓一体进一步实现了统一元数据、统一存储,减少数据冗余的目标,但介于存储/计算的中间层设计带来性能损失,仍需要统一的缓存加速层、统一接口支持等功能。

最新的大数据技术架构发展已经更多的和当下AI/ML的场景结合起来,面向LLM模型训练、GAI数据访问等业务提供高性能、统一接口的底层数据存储和访问基础平台,代表了大数据技术框架的最新发展方向。

文章页底部微信二维码