重复数据删除技术

发布: 2008-11-18 10:36 | 作者: brian | 来源: 《深圳赛佛莱特科技有限公司》技术版

问:什么是重复数据删除技术?


  答:一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。高度冗余的数据集(例如备份数据)从数据重复删除技术的获益极大;用户可以实现10比1至50比1的缩减比。而且,重复数据删除技术可以允许用户的不同站点之间进行高效,经济的备份数据复制。

问:我听说基于硬件的重复数据删除产品中有In-band和Out-of-band两种功能,请问这两种功能的区别,哪种更好了?

  答:首先,让我讲讲基于硬件的重复数据删除产品的好处:基于硬件的重复数据删除产品能减轻与基于软件的重复数据删除产品相关的处理负担。重复数据删除功能还被融合到其它数据保护硬件中,如备份平台、虚拟磁带库(VTL)系统甚至通用存储系统像网络附加存储(NAS)等。通常这种方法并不旨在缩小备份窗口或恢复目标,但是一般而言,用户能借此达到最高的压缩级别,从而创造最大的可用存储空间。
  至于你提到的In-band和Out-of-band两种更能哪种更好,只能说各有各的优点。下面是这两种功能的区别和各自的优点:
  in-band重复数据删除在数据写入存储器时削减数据。尽管进程处理需要额外的处理能力从而可能扩大备份窗口的大小,但是in-band重复删除是有效率的,因为它只执行一次。
  out-of-band重复数据删除是在数据存储完之后执行。这种方法不会影响备份窗口的大小,并且能缓解对CPU进程处理的关注,从而避免在备份服务器和存储器之间产生瓶颈。然而,out-of-band重复数据删除在执行过程中使用稍微多一点的磁盘空间。还有,out-of-band重复数据删除需要花费的时间可能要比实际的备份窗口长。磁盘竞争是另一个问题,因为用户在重复数据删除过程期间尝试访问存储器,从而降低了磁盘性能。

问:关于重复数据删除产品,我想问的是基于软件的重复数据删除和基于硬件的重复数据删除哪个更好了,它们各自的优缺点是什么了?

  答:基于软件的重复数据删除旨在消除源的冗余,而基于硬件的重复数据删除强调存储系统本身的数据削减。虽然基于硬件的重复数据删除无法提供带宽补偿,而在源中进行重复数据删除中有可能获得带宽补偿,但是基于硬件的重复数据删除的压缩级别通常会更高,并且基于硬件的重复数据删除产品需要的维护更少。
  硬件重复数据删除设备以它们的高性能、可扩展性以及相对不间断的部署而备受关注。正常情况下,备份软件会将专用设备看作是一种一般的“磁盘系统”,并且完全不会发觉其内部正在进行的重复数据删除进程。小型企业或远程办公通常会避免使用设备,因为这些设备的费用要比用软件来实现重复数据删除的费用高,但是,它们确实是企业级部署的理想选择。
  基于硬件的重复数据删除也可能融合到其它存储(目标)平台上。例如,重复数据删除经常是VTL系统的一项功能之一。VTL系统通过使用磁盘而不是磁带进行存储,从而提高备份任务的速度,而且,添加重复数据删除使VTL磁盘使用率达到最大。在很多情况下,VTL重复数据删除是作为一种out-of-band进程来执行的。这是其一项优势,因为所有VTL的内容都可以通过重复数据删除技术以达到很好的压缩比率。不好之处在于重复数据删除不是实时的。然而,一些VTL系统在接收到备份服务器的数据之后,引入了in-band重复备份数据删除的处理能力。