您的位置:首页 >综合 >

大数据Flink进阶(二):数据架构的演变

2023-03-19 04:15:13    来源:腾讯云

数据架构的演变

近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等,伴随这些技术的发展与普及, 促使企业数据架构的演进——从传统的关系型数据存储架构逐步演化为分布式处理和存储的架构。我们通过数据架构的演变角度来了解下为什么今天Flink实时计算引擎会爆火起来。

一、业务处理-单体架构

传统单体架构最大的特点是集中式数据存储,一个企业中可能有很多业务系统,例如:订单系统、CRM系统、ERP系统等,这些系统的数据一般存储在关系型数据库中,这些存储的数据一般反应当前的业务状态,也就是存储的是支撑业务正常运转的事务数据,例如:系统订单交易量、网站活跃用户数、每个用户在线的状态等,针对这些数据库的操作也主要是增删改查操作,单体架构如下:


(资料图)

单体架构初期的效率很高,但是随着时间的推移,业务越来越多,业务系统逐渐变得庞大,越来越难维护与升级,并且不同的业务系统之间可能有一些共同的业务模块,并且一单业务系统依赖的数据库有问题会导致整个业务系统变的不可用,为了解决以上问题,企业开始逐渐采用微服务架构作为企业业务系统的架构体系。

二、业务处理-微服务架构

微服务架构的核心思想是一个应用由多个小的、相互独立的微服务组成,这些服务运行在自己的进程中,开发和发布都没有依赖,不同的服务能依据不同的业务需求,构建不同的技术架构之上,组成不同的业务系统应用。

微服务架构将系统拆解成不同独立的服务模块,每个模块分别使用各自独立的数据库,这种模式解决了业务系统的扩展问题,也带来了新的问题——业务交易数据过于分散在不同的系统中,很难将数据进行集中化管理。微服务架构如下:

无论是单体架构还是微服务架构主要针对的还是企业的业务系统,也就是业务平台,对应的数据库存储的数据也是增删改查的事务型数据,这些业务系统上主要进行的也是OLTP业务操作,对于企业内部进行数据分析(OLAP分析)或者数据挖掘之类的应用,则需要通过从不同的数据库中进行数据抽取,将数据从不同的数据库中进行周期性同步到数据仓库中,然后在数据仓库中进行统一规范的清洗分析处理,最终结果提供给不同的数据集市和应用。

三、数据分析-大数据Lambda架构

最初很多公司构建分析系统对应的数据仓库都是基于关系型数据库之上,例如:MySQL、Oracle数据库,但是随着企业数据量的增长,关系型数据库已经无法支撑海量数据集的存储与分析,这时随着大数据相关技术的兴起,很多企业基于大数据相关技术构建数据分析对应的数据仓库,例如: Hadoop中的HDFS 、Hive。

基于大数据平台构建数据仓库的过程,数据往往都是周期性的从业务系统中同步到大数据平台,完成一系列ETL转换操作后,最终形成报表数据提供给数据集市展示使用,这就是通常我们说的离线数据分析。但是对于一些实时性要求比较高的应用,例如:实时报表系统,则必须有非常低的延时展示统计结果,这就是我们说的实时数据分析。企业中这个时期采用Lambda架构来处理离线数据和实时数据的分析,大数据Lambda架构如下:

Lambda架构在一定程度上解决了不同计算场景问题,但是带来的问题是框架太多导致平台复杂度过高、运维成本高,例如,在这个时期要完成离线计算需要使用Hive、MapReduce离线计算框架,完成实时计算需要使用Storm实时计算框架,对相应的开发和维度带来很高的成本。

后来随着Apache Spark分布式计算框架的出现,Spark可以处理离线数据,同时可以将实时数据作为微批处理来应对实时处理场景,总之,Spark可以让Lambda架构使用一套计算框架完成批处理和实时处理计算,但是Spark本身是基于批数据处理模式处理流式数据,并不能完美高效的处理实时要求非常高的场景。

关于大数据分析架构演变过程中在大数据中除了有Lambda架构之外,还有Kappa架构、混合架构及湖仓一体架构,以上各个架构都是在大数据不同时期针对公司业务数据分析场景提出的,都是解决企业数据分析过程中业务痛点问题的架构。

四、有状态流计算架构

Lambda架构中针对实时数据处理我们可以使用Spark计算框架进行分析,Spark针对实时数据进行分析本质是将实时流数据看成微批进行处理,数据产生的本质是一条条真实的事件,这种处理实际上针对实时流事件分析有一定的延迟,很难在实时计算过程中进行实时计算并直接产生统计结果,因为这需要计算框架满足高性能、高吞吐、低延时等目标。随着有状态流计算架构的提出,从一定程度上满足了企业对实时流数据处理的高性能、高吞吐、低延时目标,企业可以基于实时的流式数据,维护所有计算过程的状态,所谓状态就是计算过程中产生的中间计算结果,每次计算新的数据进入到流式系统中都是基于中间状态结果的基础上进行运算,最终产生正确的统计结果。

基于有状态计算的方式最大的优势是不需要将原始数据重新从外部存储中拿出来,从而进行全量计算,因为这种计算方式的代价可能是非常高的。从另一个角度讲,用户无须通过调度和协调各种批量计算工具,从数据仓库中获取数据统计结果,然后再落地存储,这些操作全部都可以基于流式计算完成,可以极大地减轻系统对其他框架的依赖,减少数据计算过程中的时间损耗以及硬件存储。有状态计算架构如下:

可以看出有状态流计算架构将会逐步成为企业作为构建数据平台的架构模式,Apache Flink 就是有状态的流计算架构,通过实现Google Dataflow流式计算模型实现了高吞吐、低延迟、高性能兼具的实时流式计算框架,同时Flink支持高度容错的状态管理,防止状态在计算过程中因为系统异常而 出现数据丢失,Flink周期性地通过分布式快照技术Checkpoints实现状态的持久化维护,即使在系统停机或者异常情况下都能正确的计算出来结果。

标签:

相关阅读

精彩放送

鸠兹古镇门票价格是多少?鸠兹古镇景点有哪些?

信息:当职场女性有了娃,如何让“软肋”成为“铠甲”

胜泰电力顺利通过中国电子商务信用认证平台的综合评估

华威兆能积极与绿色企业合作

滚动:临河区:服务有温度 办事“不折腾”

【全球时快讯】兴安盟全面推进百万亩高标准农田建设

【环球快播报】龙湖集团2022年新增运营15座商业项目

购物新体验!3.18果蔬好转型会员制商店,不变的是品质和服务!

【聚看点】中沙首笔人民币贷款合作,会影响什么?

最资讯丨工信部:查处315晚会曝光的APP违法违规收集用户信息行为

天天速递!当职场女性有了娃,如何让“软肋”成为“铠甲”

规范安装卸载、加强权限管理、严格上架审核 APP治理有了“合规操作指南”

观天下!消费券来了!多地发放消费券提振消费活力

每日快报!四川雅安市宝兴县发生3.2级地震 震源深度8千米

视焦点讯!抓党建 整作风 强素质 树形象 | 临河区拘留所组织开展“法制大讲堂”活动

【新视野】商务部回应荷兰限制半导体技术出口:望恪守国际经贸规则

当前滚动:中通去年收入353.77亿元 市场份额扩大1.5个百分点至22.1%

天天即时看!外资最新持股动向浮出水面 QFII持仓宁德时代市值超130亿元

干部热衷组局喝酒、打牌掼蛋,可扫码举报!

世界热点!新疆北部将有雨雪和大风降温天气 南方地区将有新一轮降水过程

热议:探访锁阳城遗址

3年8折换购,0首付!想省钱又保值还得是传祺GS3·影速

打造史无前“利”钜惠!传祺以“价格”与“价值”突出重围

“健康童乐园”10000户落成 促进乡村儿童身心智全面健康成长

让水族馆成为保护繁育水生野生动物重要基地 ——中国水生野生动植物保护论坛暨第四届中...

【环球热闻】科学家首次阐明进食行为全过程的精细神经调控 小孩“边吃边玩”原因找到了

资讯推荐:警犬“云一”,被奖“鸡腿花环”!

最新消息:华北地区花粉浓度升高 专家提示注意区分过敏和流感

每日热闻!从小吃到大的腌菜竟由“垃圾堆”生产?被315暴击的进来洗洗眼→

环球速看:这种App竟是“窃听器”!工信部回应了:立即查处!

短讯!林良铭连场进球,孙国文传射建功,中国男足热身赛两连胜

世界观热点:保障女性就业公平 破除生娃与职场间的选择困境

中国将建设国家储备林3600万亩以上

患者、医院、城市三方共赢!今年北京将推进中心城14个优质医疗卫生机构向外布局

最新资讯:三元生物的巅峰启示

全球看热讯:赛特+撕掉百货标签

快资讯:瑞信的“存亡之秋”

全球热资讯!西固区:从细微处入手 创建“节约型机关”

世界微头条丨国家林草局:“十四五”期间我国建设国家储备林3600万亩以上

省级春耕化肥下摆到位进度超八成

当前报道:河南:为粮食生产提供“直通式”气象保障

未来15年,北京城市副中心预计累计投资2-3万亿元

环球最新:河北承德:万名农机手蓄势待发 为春耕按“快进键”

【世界快播报】农业农村部发布春耕期间东北地区秸秆科学还田指导意见

当前头条:2023年3月16日浙江省PBT价格最新行情预测

又有高比例减持!澳华内镜多股东拟合计减持不超过13.79%公司股份

上海银行业绩快报:2022年实现归母净利222.8亿元,同比增长1.08%

大家保险设立50亿元健康养老私募股权投资基金

素菜1斤65元 拿渡麻辣香锅因价格引发热议

科大讯飞智能录音笔满足会议场景录音需求,大大提升用户体验水平

A股上市险企前2月保费扫描:寿险分化明显,财险持续苏醒

全球实时:北京西城椿树街道举办2023年首场线下招聘会

世界速讯:创新工场李开复:AI 2.0将推动“个性化医学”的到来

环球快报:中行北京分行沉浸式消保体验中心走进北京大学

天天速讯:河南多地飘“桃花雪” 三门峡等地暴雪蓝色预警

全球通讯!日本连续19个月贸易逆差 能源进口显著增加

长江海事局公布长江干线船舶十大常见违法行为

世界讯息:1月北京共43部电影剧本(梗概)备案立项

【环球时快讯】三环内老商场重生记|赛特回归 在“+”中找出路

速递!商务部回应荷兰限制半导体技术出口:希望荷方不滥用出口限制措施

环球讯息:托起山里娃的“足球梦”

环球消息!证监会对大华所出具行政处罚决定书 合计罚没367.92万元

线束行业市场规模将破千亿,国产替代成为趋势

当前视讯!直击业绩会 |中国平安管理层回应寿险改革、房地产投资、公司股价等热点

焦点速讯:商务部:正针对地方和企业需求研究稳外贸政策

行业认证!金可儿315再获“全国家具行业质量领先品牌”

环球实时:生态环境部将采取常态化防控和应急处理结合的模式处理医疗污水

汉印照片打印机CP2100:随心所印,留存美好

北京八维学校通过哪些方法如何帮学生实现人生目标?

夸爆!这个CY(承影)包包也太法式轻奢了!

食用番荔枝有很多禁忌有哪些?番荔枝种子怎么种?

消毒水使用方法是什么?消毒水有哪些使用禁忌?

环球观察:迅雷app学习版无限制2023 v7.14.1.7282手机版

番荔枝的功效和作用有哪些?番荔枝吃法有什么?

焦点关注:发布《国家宝藏》定制罐,王老吉加码多元发展

消毒水包含哪些种类?消毒水对人体有哪些危害?

全职太太会面临哪些问题?全职太太在家里如何赚钱?

车辆出入地下车库有哪些注意事项?地下车库购买车位有哪些技巧?

如何选择榨汁机?使用榨汁机有哪些注意事项?

过敏性哮喘有哪些注意事项?面部拔筋后有哪些注意事项?

全球即时:新秀丽2022年收入上涨超42%

当前要闻:股市三点钟|三大股指均跌逾1% 逾4300股下跌

焦点报道:没有收入社保也能办贷款?严打!

全球观速讯丨我国即将发射爱因斯坦探针!

国家网信办:从严惩处涉网暴账号2.2万个

同城Live:致力于打造本地生活数字权益平台 省钱省力省心

普融花全国客服电话大全已2023已更新(每日/推荐)

谁说国产车不耐撞,真实案例告诉你艾瑞泽8的安全不是盖的

北京银保监局发布风险提示 老年消费者应警惕“以房养老”“投资理财”等骗局

北京市园林绿化局:今年将再建设改造不少于20处“无界公园”

综合航运服务新势力-洲际船务

聚焦“一老一少一新” 国任保险开展3.15系列活动

全球观焦点:中国平安陈心颖谈ChatGPT:内部推出了AskBob智能机器人

湖北有哪些好玩的地方?济南近郊一日游去哪?

攀枝花一日游哪里好玩?从化自驾一日游景点有哪些?

青木川旅游景点有哪些?上海金泽古镇景点有哪些?

湖南常德适合一日游的地方有哪些?大理的旅游景点有哪些?

成都武侯祠旅游景点有哪些?新疆新源县旅游景点有哪些?

天天视点!中国平安陈心颖:寿险渠道改革有三大亮点,包括代理人团队、其他渠道、保险+服务

乐山周边游的旅游景点有哪些?济南大明湖景点有哪些?