|
|
51CTO旗下网站
|
|
移动端

1.3.3 大数据环境

《智能运维:从0搭建大规模分布式AIOps系统》第1篇开门见山:运维发展史,本篇主要展现运维的发展历史和经历的不同历史阶段,以及运维工作的现状。本节为大家介绍大数据环境。

作者:彭冬/朱伟/刘俊来源:电子工业出版社|2018-11-27 12:21

1.3.3 大数据环境

随着大数据政策环境和技术手段的不断完善,大数据行业应用持续升温,中国企业级大数据市场进入了快速发展时期。互联网、电信、金融等开始实际部署大数据平台并付诸实践,带动了软件、硬件和服务市场的快速发展。

中国信息通信研究院公布的《中国大数据发展调查报告(2017)》显示,2016年约70%的企业拥有的数据资源总量在50~500TB之间,18.4%的企业数据量在500TB以上,与2015年相比,企业资源总量呈增长趋势。

数据规模的增大,一方面反映了系统的复杂程度;另一方面也反映了监控系统、自动化系统等运维平台的复杂程度。在大数据场景下,运维面临的主要挑战有以下几个方面。

1.数据采集

数据采集是大数据分析处理的基石,其核心一是要保证数据的完整性;二是要保证数据的准确性;三是要保证数据的实效性。数据完整性要求采集系统能够尽可能搜集到足够多和完整的信息,在采集过程及预处理过程中都不能丢数据。数据准确性要求在数据采集过程中,不能因为预处理而导致数据不一致,影响后续的分析和决策。数据实效性一方面要求数据采集要做到实时或者准实时,采集系统导致的延时率尽可能低,性能尽可能高;另一方面要求在数据预处理阶段,保留数据尤其是时序数据时间效应。这里的时序数据时间效应是指某个指标以某个固定时间间隔的波动变化情况,这个波动在一定程度上反映出系统的运行状态,数据采集器要在系统承载能力允许的前提下缩小时间间隔。比如对于请求量的走势,采集器可以1秒、5秒、15秒甚至1分钟采集一次数据,这样的时间间隔会带来不同的计算误差,最理想的情况是时间间隔越小越好,但带来的问题是数据规模的成倍增长,以及对后续数据分析的极大挑战。

2.数据存储

目前大数据的原始数据及数据仓库存储介质一般在HDFS上,为了提升数据分析能力,部分数据也存储在HBase、Hive、Redis等集群上。

各个业务系统不断在产生和制造大量的数据,数据被分析和处理再加工再存储,在每个环节数据都会被复制,一般情况下,原始数据规模最大,越接近数据业务分析层,数据规模越小。

如表1-6所示是微博广告某产品线2016年数据仓库各层的存储规模。

表1-6 微博广告某产品线2016年数据仓库各层的存储规模

如表1-7所示是微博广告某产品线存储1.5年总体数据规模。

表1-7 微博广告某产品线存储1.5年总体数据规模

续表

可以看出,数据存储规模是一个非常大的挑战。其中为了保证数据的可用性,一般都会有至少3个数据副本(设置HDFS副本数是为了保证数据可用性),同时为了节约存储资源,通常采用特定的数据压缩算法来降低存储量。

3.分析和建模

数据分析和建模体现在数据集的大规模计算上,模型的训练是非常消耗资源的,数据需要在不同的计算节点之间进行复制和传播,都要耗用存储资源和网络带宽,而对数据的处理则需要耗用CPU和内存资源。


喜欢的朋友可以添加我们的微信账号:

51CTO读书频道二维码


51CTO读书会第9群:808517103

【责任编辑:book TEL:(010)68476606】

回书目   上一节   下一节
点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

网络工程师考试考前冲刺预测卷及考点解析

本书依据2018送彩金白菜网大全版《网络工程师考试大纲》的考核要求,深入研究了历年网络工程师考试试题的命题风格和试题结构,对考查的知识点进行了提炼,并...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
博聚网