新闻中心
数据中心如何应对数据海啸
2018-03-09
阅读()
来源:互联数据

        数据中心建设规模在不断扩大,增长速度长期不减,这和数据量的高速增长密不可分。如今,全球数据总量每十八个月就能翻番,这样的增长速度是一件“可怕”的事情,远超大家想象。若按照IDC的预测,到2025年,全球将会有163个ZB的数据,这个量相当于四个大西洋的海水,全球数据中心流量将增长3.3倍。数据量增长的速度有如一场海啸,迅速地吞噬着全球数据中心的各种存储设备和器件,数据中心耗费巨资不断购入大量存储设备,以便尽量去满足不断增长的数据量存储需求,这给数据中心带来了极大的成本压力,降低了数据中心的盈利水平。数据海啸已经成为每个数据中心不能回避的问题,数据中心必须做出有效对策,才能不被数据海啸打倒。那么如何有效应对数据海啸呢?本文给出了一些对症良方。

数据海啸服务器

删除无用数据

表面上看数据量在高速增长,但很多数据从某些方面来讲都是重复的、无用的,没有利用价值,完全可以丢弃不用。在对数据进行存储时,一定要进行过滤,阻止垃圾数据进入存储设备。很多数据还具有高度重复性,也许每个人都会收藏一部经典的电影《人鬼情未了》,并将这部电影放到数据中心里个人的存储空间保存着,以便想看的时候直接登录上去播放看就可以了,这个电影绝大部分时间都是在数据中心的存储设备里静静地存着,毫无意义还占用巨大存储空间。

所以,数据中心可以只存储一份这部电影,然后存储无数个人用户的数据链接,当人们需要看这部电影时,表面上看是点击了这部电影播放,后台实际上只是一个数据链接,然后将存储的一份电影向其播放,这将极大地减少数据的存储空间,对于其它重复性的数据也可以如此实现。我们知道,一般一个应用软件的使用时间在二十年,很多软件其实已经很少有人访问,存留下来的大量数据都变成了无用数据,数据中心要及时将这些数据清理掉,让出存储空间来,节约存储设备使用,数据中心的存储资源是有限的,迟早有用完的这一天,这一天来得越晚,就越能给数据中心节省成本,带来的是数据中心的优越竞争力。一些中间计算数据也占用了临时存储空间,要及时清理掉。

还有,对于这个数据中心来说,数据可能是有用的,通过大数据技术分析可以得到一些有用的东西,而这些数据中心对其它的数据来说可能是无用的,再怎么分析也得不到有益结果,这些数据不妨直接删除,不要再占用数据中心存储空间。其实,数据中心里百分之九十的数据都可以说是无用数据,应及时清除。


利用压缩技术

众所周知,数据是可以压缩的。我们在将数据保存到存储设备之前,可以对数据进行压缩,尽量减少占用空间。数据压缩技术在不断进步,压缩比越来越高,减缓了数据对存储空间的消耗。压缩技术有无损压缩和有损压缩,无损压缩主要是一些编码算法,比如子带编码,差分编码,哈夫曼编码等算法;有损压缩主要是一些量化算法,比如a率、u率、lloyds最优量化算法。对于一些不重要的音频、视频资源,适当地使用一些有损压缩技术,对数据的使用并没有影响,还可以大大提升压缩效果。

对于一些本文文件,即便是使用无损压缩,也可以将文件缩减几十倍,甚至上百倍。压缩技术的普及使用,可以有效缓解数据存储的压力,要在数据中心里推广使用。当然,对那些访问实时性较高的数据,并不适宜采用压缩存储,因为数据的解压是需要时间的,压缩比越高的数据解压起来更加耗时,这样在访问这样的压缩数据时,需要更多的等待时间,降低了访问效率,对于这样的访问不适合使用压缩算法保存数据。压缩技术也在不断进步,解压时间也在不断缩短,这样就能不断扩大压缩技术使用的广泛性。


扩容网络带宽

数据量越大,需要占用的网络带宽就越多。正是因为数据量的不断攀升,我们就需要更高的带宽,有些时候,甚至网络带宽的高低已成为了影响数据中心业务部署发展最为关键的因素。网络带宽越高,数据传输得越快,就可避免网络出现堵塞情况,影响到数据中心业务运行。数据中心网络设计要从简,网络层级要少,设计扁平化的网络,从接入到核心出口一般就设计两级,这样网络中出现拥塞的点就少。

网络流量模型不要设计成茶壶型的,口小肚大。要设计成圆筒形,出入口要大,这样向数据中心里装的数据才够快。扩容网络带宽并不仅指网络出入口的地方,还要从网络整体上来进行规划设计,包括连接服务器和存储侧都要考虑,提高数据中心内架顶式交换机与服务器网卡、存储设备之间的速度,避免出现大马拉小车或者小马拉大车的情况出现。

随着海量数据的到来,现有的数据中心存储能力是远远不足的。


数据中心要从多方面去迎接这次数据海啸的到来。至少近十年,全球数据依然会保持高位增长态势,数据海啸给数据中心带来了极大的存储压力。海量数据一直在高速增长,我们必须想办法将其控制下来,未来的数据中心会在怎样缩小海量数据上下功夫,不会任由数据海啸扩张。数据中心除了从以上三个方面狙击数据海啸,还可以在提升存储使用率、优化存储资源分配、无效数据甄别能力、云计算和大数据的应用等方面加大投入。这些都是应对数据海啸很好的方法,需要在未来的数据中心中去应用和实践。

相关阅读