大家好,重复数据删除是近年来存储业内较热的底层技术之一,广泛用于近线存储与备份领域。关于重复数据删除不知道大家是否有什么疑问,可以在楼下跟贴提出,2月20日,CU合作伙伴IT168邀请了昆腾公司的资深技术专家做访谈视频,为大家解答有关重复数据删除的疑问。有任何关于昆腾公司的问题也欢迎大家提出。
大家的问题,到时会通过访谈视频解答,并会整理放到网上。
为了方便专家更详细地解决大家的问题,欢迎在此提前跟帖提问,多谢支持!
[color=Red][2月20日最新更新]:[/color]
以下为视频访谈全文:
IT168网站存储频道李隽:
各位网友大家好,重复数据删除是近年来业内涌现的又一新兴技术,以其突出的经济效益备受大家青睐,有关重复数据删除的应用相信大家也还有诸多疑问。本周三(2月20日)下午,我们邀请到了昆腾的资深技术专家为大家解答有关重复数据删除应用方面的疑问。
欢迎各位点击下面参与讨论的链接,到论坛与大家共同讨论重复数据删除技术。
主持人:重复数据删除是存储业内近年来比较热门的概念之一,那么相信对付重复数据删除,有很多网友有这样那样的疑问,今天我们非常我们非常有幸请来昆腾公司的王刚先生,为大家对重复数据删除做进一步的阐释,很多网友提了很多这方面的问题,我们选择了一些有价值的问题,在访谈当中王刚先生会针对这些问题做一些回答。首先我们还是希望王刚先生介绍一下重复数据删除概念。
王刚:好的,重复数据删除实际上是最近几年比较热门的一个话题。那么重复数据删除在大家的印象之中,首先考虑到的是数据删除,所以说比较回避这个话题,觉得这数据删除第一个是安不安全,或者说这个数据删除到底实现的模式是什么样子。实际上来讲重复数据删除在市面上有很多叫法,比如说容量优化,还有一个就是基于复本删除技术,这些技术实际上总体的原理是一样的,它要做到什么原理呢,就是用户在存储和备份数据的时候,已经存在的数据,比如说昨天或者前天,有同样一份数据,那么今天再往用户的虚拟带库,或者是磁盘上存的时候,这些数据还要不要重复的存上去,如果这个数据继续存上去的话,这个容量空间占有会不会大,这就是重复数据删除由来的原因之一。
我们可以简单的分析一下,很多的想法,重复数据删除和压缩之间,如果搞清楚的话,很多的想法就比较清楚了。那么在重复数据删除里面它部分借鉴了压缩的模式,压缩和重复数据删除不一样的地方在哪儿呢?压缩大家知道,我们的磁带机在做压缩的时候,这个功能是打开的,压缩一般是挑选数据类型的,什么意思呢,就是压缩是认数据类型的,比如说视频文件,这些压缩过的数据对压缩来讲效率就不高,而对于数据库和文本文件,这些文本的数据文件,压缩的效果一般能达到2比 1以上,而重复数据删除就不是这样的,重复数据删除对数据进行一些算法的处理。比如说把数据切割成一块一块,比如说4K,或者是16K,32K,然后进行比对,比对完了以后只有变化过的,唯一的数据块才存到真正的磁盘空间上去,这是基本的原理,如果这样理解了的话,就会发现可以把这个叫做复本删除,或者是容量优化,但是主要的就是用户的数据原来没有发生重复数据删除的话,这个数据会几倍几倍的往磁盘空间上增加,而采取了数据删除以后,这个增加的是唯一的数据块。
主持人:现在各个厂商都有重复数据删除的产品,昆腾也是其中一家,您介绍一下这些种类,和不同技术带来的优势和劣势。
王刚:可以,重复数据删除的产品很多,但是我们看这些产品,或者是在挑选这些产品的时候,要搞清楚的一点是,这个重复数据删除是基于哪种技术的,这一般分三种技术。第一基于字符块的,数据文件在进入重复数据删除设备,或者软件的时候,这个引擎会对这个文件进行字符块的分块,比如说4K,16K,32K,然后把这个输入到一个函数里面得出唯一的值,然后以这个值为比较,如果在函数列表里面发现同一个值的话,那就表明这个数据块是唯一的,这是一种模式。
还有一种就是这个文件先输入到重复数据删除的引擎里面,这时候是对这个文件进行一次扫描,扫描以后有可能对文件进行逐个字节的对比,这是第二种模式。
第三种也是对数据进行分块的分割,但是很明显这个分割的时候,这个字符块大小是不是固定的,如果是固定的,这个效率肯定会影响重复数据删除的效率。什么是固定不固定呢,不固定的是分割的时候先扫描一下,看看这些块根据哪一个模式,多少长度分割出来以后,这个重复率是最高的,然后它会在这个位置切割下来,然后产生一个唯一的列表值,如果是固定的话,不管这文件输入进来以后,怎么一个重复率都是固定的,这样从技术上来看就是两大流行,一个就是基于文件的,还有就是把文件切割成一块一块的,如果这两个主流定下来以后,我们会发现挑这个设备或者是应用这个设备的时候,有一个比较大的关系,就是重复数据删除发生在哪个位置,重复数据删除发生在什么位置,跟用户选取一个产品,或者说应用模式有关系。
比如说目前来讲的话,重复数据删除发生在三个位置,第一个就是用户的服务器上,一般的来讲用户的服务器在备份领域就是介质服务器,如果发生在介质服务器上的话,我们会发现这种重复数据删除是软件,这个优点很明显,比如说往后端的磁盘上传输数据的时候,一定是经过重复数据删除过的数据块,这时候数据产生的空间是最小的,还有一个优点就是这样子来讲的话,用户不用对它后端的磁盘阵列和虚拟带库修改了。缺点就是,如果是基于软件的话,那一定要和用户的备份软件密切结合的,还有一点就是它的CPU占用率,和内存占用率,由于这两方面的占用,在做重复数据删除的时候,会不会影响使用性,所以一般来讲用户选择的时候,最好查一下用户的列表,当前用的备份软件是什么,主机平台是什么,这样来讲的话,才能和使用环境切合起来。
第二种就是重复数据删除发生在VTL上,也就是我们现在的产品虚拟带库,除了虚拟带库正常的功能以外,还有重复数据删除的功能,这样来讲的话,重复数据删除发生在VTL,我们把这种产品叫做硬件的VTL,这一类产品有一个简单的区别,这一类产品可以分两种类型,重复数据删除发生在VTL接收数据的过程中,我们叫In line,还有一种是前事处理和后事处理,这种工作模式可以分成两种,第一种In line前事处理,就是这个意思,用户从Minder serves,在内存里面,重复数据删除以后才存,这是前事处理。后事处理是数据先进入VTL的磁盘组,然后引擎会发出一个重复数据删除的指令,一般来讲或者用命令行,或者是定制一些策略,这个时候有另外一个模式,也就是数据会再读出来,或者是空闲的时候,把重复数据删除的工作做完,然后再把原先占用的空间清理掉,这样重复数据删除分成前事处理和后处处理,还有和软件的产品,还有和虚拟带库结合的产品,还有基于字符块的分割模式,还有基于文件扫描的模式,所以它的实现方式很多,它的技术方式也很多,那么昆腾在这上面有什么独道的优势呢?
目前来看不光是前事处理,还是后事处理,一般来讲的话,如果产品推出来以后,或者技术推出来以后,能不能有一个产品让用户选,就像今天我想用先事处理的模式,那么有一天我觉得这种模式不是适合我今天的业务模式,或者是今天的环境,我能不能把它改成后事模式,所以说能不能有一个产品或者是技术,这个前事处理,或者是后事处理让用户选择。能不能给用户多一点选择,我想这以后会多一些。
主持人:其实刚才听了王先生给我们介绍这么多种重复数据删除,包括前事处理,后事处,跨数据级的,那么昆腾在其中究竟是属于哪一种呢?
王刚:我们先分析一下先事处理的工作流和工作方式。前事处理备份Server发数据文件,我们不要考虑这些数据是什么,前事处理的时候数据流或者是文件流一定是进入VTL的内存里面,内存不会立刻把这个数据放到正页上,因为这是没有进行重复数据删除的数据基,这时候重复数据删除的引擎会把这个数据集截留成一块一块,这个我刚才讲过了,是根据哪些地方重复率最高是随意切割的,这是可变的字符块模式。切割完了以后比对,比对完了以后才真正的往后台上存。那么这时候就会发现实际上80%的工作在做什么呢?前事处理的VTL带有重复数据删除这个VTL,80%的工作是在内存做重复数据删除的对比,而只有20%的工作是把变化过的,唯一的数据块放到用户的Read正页上去。
主持人:这会耗用一定的虚拟带库内存?
王刚:可以说80%的会被重复数据删除的工作占用了,所以说衡量这个产品先不先进,技术先不先进,还要看这个本身的处理能力够不够强大,内存是不是给大, CPU是不是双核的芯片以上,这样来讲有什么好处呢,能够消除基于前事处理重复数据删除这个瓶颈在于内存和CPU的消耗上,所以前事处理的产品,虽然可能会影响性能,但是如果这个产品和CPU算法不是很优的话,大家会想到在服务器上大量的数据流过来的时候,来不及处理,虽然后端的阵列带宽很高,但是这个瓶颈在这个机头上,所以这个时候如果机器够强大的话,它的优势很明显,如果把缺点内能够弥补的话,这个产品还是很好的。
我们看一下后事处理,这是什么意思呢,就是数据到重复数据删除的VTL的时候,这个数据不是在内存里面堆积,它是先写到阵列组上,写完了以后实际上一般来讲的话,某几盘磁带,这个引擎就会触发,先对这个磁带进行重复数据删除,这时候有一个动作就是回读,就是把这个数据重新读回到内存里,这时候大家发现后事处理这种模式虽然不影响当时备份时候的性能,但是它的IO一定是占用最高的,什么意思呢,Read阵列一定是最忙的。
这样子来讲的话它有多次读写过程,有一个问题,今天晚上数据很多,这时候正在做重复数据删除,用户发出备份页,这时候有一个问题,就是第一能不能处理过来,第二有些磁带已经在重复数据删除过程之中,那么如果用户再发起一个备份的话,原先这个磁带是没有满的,所以这个技术来讲的话,考虑的因素更复杂一些,那么至于前事处理好还是后事处理好,这两个是没有区别的,实际上是没有区别的,也就是说这两个功能对用户来讲它觉得前事处理好,还是后事处理好,完全和环境是有关系的,你的备份量,比如说总共只有几十兆每秒一次,不管是前事处理还是后事处理都是没有问题的,如果用户对带宽的要求很高,那么一般来讲的话,前事处理不是太合适。因为毕竟这个CPU和内存能配到多大,能配到多高,如果这样多多少少有影响,所以一般来讲前事处理的性能比不上后事处理。但是如果前事处理的设备比较强大,这基本上就没有什么问题。
主持人:实际上我们也看到了前事处理和后事处理对备份性能都有影响,这两个技术各有好处和坏处,网友比较关心重复数据删除使用的安全性问题,还有就是它的压缩比率可以达到多少?从您的角度来看,您觉得用户如果应用重复数据删除应该怎么样评估这个应用效果呢?
王刚:这个问题分两个方面,一个是安全性问题,所有网友,包括很多用户在实际选购这些产品的时候,包括虚拟带库,或者说带有重复数据删除这些产品过程当中,他们经常问的问题就是你这个产品,你这个技术,本来我在做备份的时候会有多个备份级,什么意思呢,就是今天做一次全备,三天以后又做一次,那么对用户来讲的话,这两次全备,如果有一次丢了的话,还有一次备份,但是重复数据删除就不是这样,它只有变化的唯一的数据块才存到阵列上去,而且跟它对应的还有很多闪列的,也就是一些索引指针,不光是索引指针,还是唯一的数据块这个词,对于我们来讲的话,我们都在Read阵列上,所以我们不管是普通的VTL,还是单个备份级,还是多个备份级,如果是底层的针坏了的话,这个数据还是丢了,因为写数据的时候,并不是把这一个备份级放在这块硬盘上,把那些备份级放在那块硬盘上,它是基于read组的条带模式,所以一旦出现问题的话,不管几个备份级,数据都会丢,所以不用担心数据块在VTL上的安全问题,它是由Read阵列的安全保护机制来工作。这样来讲的话,实际上Read阵列的工作模式是很成熟的,所以如果真担心Read“罢工”的话,那么这个会有安全的补充和保护,我们一会儿有机会也可以交流一下,物理带库和虚拟带库之间的互补和沟通。
那么除了安全的问题,还有一个问题,就是很多的用户和工程师担心,这个产品和技术在宣称,有的是300比1,有的是20比1,有的是50比1,或者是10 比1,那么影响重复数据删除效果的一些因素,或者说到底有哪些,或者用户到底应该怎么考虑呢,实际上一个从技术,一个从习惯上考虑,什么叫技术呢?我能做到300比1,或者是20比1,比如说基于数据块,这种重复数据删除技术,那么它是颗粒度越细,它重复数据删除的效率越高,那么如果基于文件级呢,这个文件哪怕被用户动过两个字节,哪怕改过一个字,那么这两个就是不同的文件了,那么这个存的时候要存两份不同文件的,如果基于数据块进行切割,进行扫描,进行存储,重复数据删除技术来讲,它只存储修改过的几个字节,所以这是影响他的因素。也就是说重复数据删除采取的技术不一样,影响用户使用时候的效率,还有一个更多的是习惯问题,什么是习惯问题呢?
重复数据删除在用的时候,比如说举一个简单例子,用户有100GB的数据,这数据可能是视频问题,大家知道视频问题是经过很高的压缩以后,已经是压缩过的文件,那这个文件如果在使用重复数据删除这个VTL,或者其他一些模式在进行备份,或者是存储的过程之中,并不是说对它进行压缩,所以我刚才讲过了,影响他的因素是不要把它和压缩考虑在一起,很多人问的时候,说我这个数据已经是压缩过的,这个重复数据删除是不是对它还有没有用呢?它和压缩是不一样的,它会把你这个文件进行切割,切割以后比对不同的数据块,切割的时候它并不考虑你这个数据文件是压缩过的,还是没压缩过的,它只是把这个切割出函数得出一个唯一值,所以很容易理解,影响重复数据删除的效果,最主要的就是用户使用的备份策略。
比如说你今天做一次全备,过两天又做一次,一周要做三次,这时候大量的数据就是重复的,这时候对于重复数据删除设备来讲,它的重复数据删除的比率就上去了,也就是用户备份策略的使用习惯,决定了重复数据删除这个效率,但是前提是这个重复数据删除的技术采用的是基于文件级别,还是基于可变长的Blog级别。这是要考虑的因素,如果没有重复数据删除这个功能,普通的VTL在备份一周做三次全备的时候,每次是100G,三次就400多G,所以如果这部分文件保留期限是三个月,每一个月做4次全备,那就是10万次,我想它的重复比不会低于15比1,所以有些产品宣称的是20比1,有些是300比1,这要看怎么用,这并不是和技术有多先进有关系。
主持人:因为现在有很多企业部署重复数据删除技术,昆腾从不能从自身的角度,为用户做一些建议,在选择重复数据删除的时候需要注意哪些问题?
王刚:这个很有必要的,我觉得。因为重复数据删除是最近兴起的一个技术,尤其是国内企业在使用最新技术的时候,实际上还是要胆子大,同时还要考虑调研的详细一些。影响这些因素实际上最简单的一点就是第一产品有没有先进程度,这个先进程度实际上并不是说你这个大厂出来的就一定是先进,或者小厂的产品就一定不合格。考虑这些因素的时候我觉得有一些关键因素还要考虑得到,第一就是这个产品是不是这个厂家本身确实掌握比较好的产品,或者说这个产品是OEM别的技术的,但是OEM的时候,自己厂家的人是不是搞清楚了,或者在使用过程中维护方面能不能有能力做到,这是一个方面的问题。
还有一个方面问题就是使用这些产品的时候,那么它的维护性,它的可靠性,还有一个就是易用性,实际上对我们这些产品,对我们这些国内的用户来讲的话,易用性还是比较关键的。一个产品具有很高的技术价值,还有一个就是他的性能很先进,但是如果到现场的时候,你一会儿要敲一些命令,一会儿又说增加补丁,还有就是HBL卡,或者是其他一些模式的模块不匹配,那么这样对用户来讲用起来就很难受,还有就是远程管理的模式,这些都要考虑。当然对于国内用户选取这些产品的过程之中,实际上要参考一些有些产品的成功案例,因为如果有成功案例的话,对用户来讲始终是明显能见到的一些模板。因为在新技术投入大批量成功使用之前,我们能见到的大部分都是一些白皮书上见到的,或者是用品的产品彩页上的,那么真正成熟度是多少,它用的时候方不方便,是不是和他们宣传的是一样的,这些东西一般来讲是跟成功案例,或者说沟通一下,或者说我们在用的时候跟相关供应商的技术顾问反复沟通是有必要的,也就是说用这些产品的时候,并不是一拍脑袋就用的。实际上就是看总体的解决模式。
主持人:有没有这种情况,比如说用户可能采购了一个VTL产品,可能是某一个厂商的,他可能会单独采购一个备份软件,是不是可以这样考虑,重复数据删除需不需要与用户原有的备份环境,或者是它打算采用这个备份环境做比较好的融合?
王刚:有这个说法,如果用户已经有备份环境的话,那么如果在选用重复数据删除,或者选取重复数据删除这个技术的时候,你如果选取软件品牌的话,什么叫软件产品呢,这个重复数据删除是发生在用户服务器上的,这时候一定要慎重,什么意思呢,就是你这个软件,因为从重复数据删除是最近几年才起来的,也就说以前用的软件允不允许升级,能不能满足重复数据删除的要求,如果这些都满足的话,还有一点就是本身这些服务器我多大的负载空间和能力,来叫给重复数据删除用,这些问题比如说一张纸上的一些问题,都没有问题了,就大胆的选用这些基于软件的重复数据删除产品。
那反过来讲,用户新建设备份环境,或者以前已经存在的备份环境,那么现在有需求想上VTL,或者是带有重复数据删除的VTL,那么这个时候对于硬件产品,我这里讲的是对硬件产品来讲是透明的,什么是透明呢,它给用户的一个工作界面,这实际上就是一台真正的物理带库,什么意思呢,备份软件识别这种VTL的时候,跟识别真正的物理带库道理是一样的,这是一个硬件的解决方案,硬件解决方案我们看一下各厂家的匹配列表就发现,它一些备份软件会时时更新,以前只有物理带库,现在会支持说昆腾的,或者说HDS之类的,这种具有重复数据删除的VTL,所以说如果挑选硬件的时候大家可以看一下匹配列表,如果挑选软件的时候就要看当前的备份软件和这个VTL的软件之间的匹配关系,是不是必须说当前这个VTL上的备份软件一定要换成人家支持的软件,或者说一定要换成人家支持的平台,这都是很关键的,也就是说挑选软件比挑选硬件要复杂一些。
主持人:您刚才也谈到了在选购重复数据删除的时候,其实成功案例是比较有参考价值的,您能介绍一下昆腾现在有哪些国内的成功案例吗?
王刚:成功案例来讲的话,昆腾在国内的成功案例比如像安踏国际,它是做运动鞋的,它的数据量一开始不是很大,他们在用原来低端物理带库的时候,经常会卡带,工作不正常等等,那么他们就想有没有一种产品,它的容量又比较大及它能比较适合备份策略,维护起来比较简单,我们在安踏国际就是用3500这个型号的,这样比较好的解决了他们的问题,我们还为电厂做了,他们目前的应用模式实际上来讲还是比较在中低端的,它们的数据安全性,或者是可靠性,或者是对性能的要求,没有像银行,移动通信,电信行业要求高。那么重复数据删除我想接下来的发展模式和历程一定会用在高端用户上。这个技术再经过一年左右的推广和发展的话,高端用户的需求和应用会越来越多。
主持人:按照你的理解,在高端的大型企业和一些中小企业,在应用特点上有什么不一样吗?
王刚:有,这个不一样的地方应该是比较大的。像中小企业在应用重复数据删除这个产品的时候,它首先是考虑到这个产品的接口丰不丰富,什么意思呢,就是说中小型企业不一定配有PBI卡,中小型企业不一定备份软件就买的是最新的,或者是最高档的,中小型企业可能连备份软件都没有,所以这时候这个重复数据删除的接口能不能让用户感觉很丰富,什么意思呢,就是你想用VTL的话,我有VTL接口,你想用什么就有什么接口,所以这样用户在软件选择上非常丰富,所以这样就优化了用户投资的性价比,这是比较关键的因素。
还有一个因素就是中小型企业IT维护能力,始终和大型企业不一样,它们可能就是一些应用业务部门的人员兼职在IT部门,所以这些产品在中小型企业用的时候,要考虑可靠性,什么是可靠性呢,就是这个产品投入到中小型企业的时候会不会三天两头出问题,第二个就是用户用起来简不简单,要不要敲一堆命令,要不要一些很复杂的配制,是不是通过一些简单的浏览器界面就可以直接做好,还有就是用带有重复数据删除产品的时候,是不是还要对这上面的Read阵列进行特别的设置,是不是还要装一些特殊的软件,所以说中小型企业在选用具有重复数据删除的产品的时候,一个是这个产品是不是说通过一些web界面,只要有浏览器的地方就可以查看等等,还有就是接口丰不丰富,我想这是中小型企业考虑的。
那么大型企业呢,一般来讲首先要满足性能,也就是这个带宽足不足,备份带宽足不足,不要因为带有重复数据删除功能之后会带来很大的影响,这些都满足之后,就要看这个设备的冗余可靠性怎么样。不要因为使用了重复数据删除之后,这个冗余质量下来了,所以大型企业在选购重复数据删除产品的时候,技术一定是很关键的,但是一定要满足原先对VTL的要求,一个是速度方面,还有一个就是可靠性方面,这是一个比较重要的原因。
所以两种不同的企业,或者不同类型的企业,在选这些产品的时候出发点不一样,所以在国内目前这些厂家,或者VTL厂家之内,能不能提供真正企业级的,为用户使用的,具有重复数据删除的VTL,是比较关键的一个因素。并不是说企业级在应用的时候把这个适合中小型企业的VTL通过串联,通过堆叠就拿去给大型企业用,这是不合适的。
比如说中小型企业要40个T,那么大型企业要80个T,那你把几个不同的VTL堆叠在一起提供给他们,这肯定是不行的,因为但点故障率太高,风险也太高。
主持人:很多网友对性能很有顾虑,现在重复数据删除已经解决了这些问题,有一个网友的问题是比较具体的问题,那么作为一个DBA他比较关心重复数据删除和数据库之间的接口是如何完成的?
王刚:也就是说重复数据删除实际上来讲的话呢,这个工作不是交给备份软件的备份的人员来做,重复数据删除提供给用户使用的时候就是一个VTL,或者说就是一个nas,原来对这个产品进行使用的时候,比如说当VTL来用的时候,当Nas用的时候,该怎么用就怎么用,只不过现在这个产品具有重复数据删除功能,当然对于其他一些数据库的话,一般来讲数据库在做备份的时候,一般来讲的话备份软件只提供一个API的调用接口,那么真正备份的工具是由数据库本身来做抽取数据,然后抓取数据流,这些数据流真正到VTL引擎里面的时候才去处理,这时候就把它看成一盘一盘的磁带,所以不管是前事处理还是后事处理,网友担心的是有道理,但是真正为用户用的时候,不要考虑这些技术细节,该怎么用就怎么用,只不过现在这个产品就是具有重复数据删除功能的VTL。
主持人:还有一个问题,就是重复数据删除具体在使用的时候,因为现在我们也看到有一些厂商有一些在线的重复数据删除的技术,那么想问一下重复数据删除现在在线的这种应用模式,究竟是怎么样一个情况呢?
王刚:现在有一些厂商它宣称已经把重复数据删除这个功能加到它的一级磁盘阵列技术里面,也就是在线的一些磁盘阵列上,那么就会发现,这实际上实现起来是比较困难的,还有一个就是工作原理也要搞得非常的清楚,那么我们设想一下,为什么现在重复数据删除一般都用在VTL,或者说叫二级的磁盘阵列上呢,因为是这么一个模式,第一个比如说我们的前事处理,数据进来的时候要不停的切割,切割完了以后,分割完了以后,识别出来以后我再存到磁盘阵列上,如果你把这个技术放到一级磁盘阵列的话,很不幸这一级磁盘阵列又对数据库并列访问的,那么这之间怎么协调,会不会有问题,一个IO还没有写完了的时候,又要读另外一个磁盘上的数据,这是很大的问题。那么这是前事处理。
后事处理,VTL写在这个磁盘上,正在删除的时候,又有一个阵列过来读,是不是要等待,还是说等它把这部分数据处理完,还是什么模式,目前来讲有一小部分厂家宣称已经在一级阵列上能做到这个技术,但是我们也没有仔细查看到底工作原理是什么,但是据我所知,包括他们自己市场的一些宣称,他们自己也没有搞清楚,当这个模式下,真正的工作原理应该怎么做,所以我们现在看到更多的是把重复数据删除这个技术大部分用在VTL上,或者是后端上,不是经常读取的设备张,一般是这样的。
主持人:现在重复数据删除在VTL上的应用比较广泛,其实重复数据删除刚出来的时候被认为有一个非常突出的意义的,包括它能够大幅度降低磁盘备份的成本,我们知道昆腾除了有VTL产品,还有磁带库存储,您认为这之间未来是什么发展趋势呢?
王刚:这个问题很有意思,如果我是做虚拟带库的,那我一定说磁带没什么用了,磁带会消亡,虚拟带库以后一统天下,如果我做磁带库的话,我肯定说虚拟带库基本不可用,就是现在火一阵子,磁带还是以后的潮流,那么实际上这个问题我们要从两方面考虑,在分析的时候我们要看一下虚拟带库的优点,虚拟带库的优点比如说速度很快,恢复的时候可靠性高,这是什么原理保证的呢,底层批评成熟的技术,还有虚拟带库上比较独特的系统。那么由于这些提供,使得虚拟带库备份的窗口很短,甚至可以说比一些最高性能驱动器还要高一些。但是它恢复的可靠性,如果Read不出问题,肯定是百分之百的,那么我们对比一下磁带会发现,当一个磁带是120兆每秒,他跑到80到100兆每秒是没有问题的,磁带在备份的时候有多个数据流,有多个驱动器同时对一个数据库进行写的时候是很快的,如果我们做恢复的时候,某一个磁带出小问题的时候,那么整个这一次备份级虽然备了三盘四盘磁带,但是可能由于某一盘磁带造成的问题,造成数据库打不开,或者是关键文件丢失了,所以磁带就是因为介质有时候不是很可靠,什么意思呢,前提条件就是经常读写这盘磁带使得磁带老化以后介质不高,导致恢复的时候就不敢说百分之百能恢复回来,而虚拟带库呢,虽然来讲它备份恢复基本上来讲只要Read没坏它可以恢复,但是我们想磁盘还要做ED,它的可靠性和稳定性肯定不会比一级磁盘阵列还高,所以说这个产品文件还是24小时在线的,任何一个工程师都知道,24小时在线的设备有没有可能误删除,有没有可能电流异常,有没有可能这个设备坏了,这样的话24小时在线的设备就不能说可靠性是百分之百的,所以说这样子的话,有没有这样一种解决方式,就是前6个月或者是前一年,经常要查询,或者是恢复我把它放在虚拟带库上,领导或者IT主任让我恢复的时候,我肯定可以恢复回来,还有一个就是这个虚拟带库坏了以后,有没有一个物理带库,这样会有一个全备份的数据。物理带库敢拍着胸脯说这个数据敢恢复回来,物理磁带库经常读书,这个寿命会下降的。物理磁带库如果躲在虚拟磁带库下面,这样做备份方案的话,由于磁带不是经常的倒带或者定位的话,那么这个寿命反倒延长了,这个时候磁带备完了以后会离开驱动器,保管到真正的物理磁带库槽位上,这时候这个磁带是最安全的。
所以说物理磁带库经常进行读写会发现一般过一年半以后,这个驱动器会有一些卡带和老化的现象,如果前面跟着一个虚拟带库,后面再躲一个真正物理带库的话,会发现物理带库总是可以延长使用寿命,所以这也是我们反复强调的,物理带库有物理带库存的工作模式和特点,有工作职责和范围,虚拟带库有工作特点,但是如果这两个配合工作的话,对用户来讲这个解决方案是最好的。
主持人:根据您的观点,这个虚拟带库和磁带库是相互补充的关系?
王刚:这要看怎么说,如果物理带库对国内工程师和国内用户来说的话,首先见到的是驱动器,槽位和带标,是很陌生的。那么有些用户在维护物理磁带库的时候,虽然这个磁带库很小,但是维护起来觉得力不从心,他甚至打开一个门把这个磁带取出来都很难,低端的磁带库的可靠性和高端没有办法比,所以说低端的磁带库使用两年以后,出现一些卡带也是很正常的,这个时候如果用户的维护稍微差一点,或者不懂的话,这个时候向他建议物理磁带库就不好了,这个时候如果为他选一些带重复数据删除或者没带重复数据删除,最好带远程复制的虚拟磁带库是比较合适的,因为他用过这些磁盘,他知道一些磁盘阵列的基本概念,那么基于Web浏览器这些管理界面,点一下鼠标就可以把这个变成物理磁带库,这时候他会觉得比较方便,说到这里的时候呢,对于这一类用户,也就是说对于物理磁带库维护起来比较犯难,但是对虚拟带库感觉还可以的时候,一般我们是建议他们最好选复制功能,就是虚拟磁带库不要在一个地方放一台虚拟磁带库,一般在总部,或者是别的地方再放一台虚拟磁带库,这虚拟磁带库的数据互相复制,这样的话即使本地的虚拟磁带库的数据丢掉的话,那么远程还有一份一模一样的数据,这样的话维护性,使用的易用性,安全性都提高到了用户比较认可的模式了。
主持人:经过王先生刚才的讲解,我相信很多网友对重复数据删除都有了了解,而且很多网友对安全性的顾虑我们也都做了解释,重复数据删除本身就是一个很新的技术,存储界近年来也有很多新的技术,我们相信这些新的技术能够在最快的时间内得到应用,并且为用户带来实际价值,最后非常感谢王刚先生来到现场,为大家讲解这项技术。
cnpmc 回复于:2008-02-15 13:40:43
昆腾公司的资深技术专家,那位啊,不会是Michael Jiang吧
夜的小宇宙 回复于:2008-02-15 14:08:46
好像不是,叫王刚,我以前没接触过,嗬嗬
夜的小宇宙 回复于:2008-02-15 14:10:19
引用:原帖由 cnpmc 于 2008-2-15 13:40 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7964013&ptid=1053036]
昆腾公司的资深技术专家,那位啊,不会是Michael Jiang吧
楼上和Michael Jiang很熟么
wolfheader 回复于:2008-02-15 14:23:22
引用:原帖由 夜的小宇宙 于 2008-2-15 14:08 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7964188&ptid=1053036]
好像不是,叫王刚,我以前没接触过,嗬嗬
这个名字很熟悉啊?
在哪里举办,能邀请我们参加么
夜的小宇宙 回复于:2008-02-15 15:12:03
赫赫,我们这个是视频的访谈,大家可以把感兴趣的问题提出,我们可以现场帮你们问
另外,访谈的视频链接也肯定在这里贴出来,到时候还希望大家捧场哦
cnpmc 回复于:2008-02-15 16:15:52
引用:原帖由 夜的小宇宙 于 2008-2-15 14:10 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7964204&ptid=1053036]
楼上和Michael Jiang很熟么
当年丫在Legato时就认识这喷壶了,来我公司做了N次培训了,为什么他现在在Quantum(不是正常人员跳槽了),具体情况的我就不方便不说了,呵呵。。。。。。
夜的小宇宙 回复于:2008-02-18 09:40:31
嗬嗬,我还真不了解,不过对于厂商的技术人员来说,能喷也是一种能力。。。:mrgreen:
有啥关于重复数据删除的问题,希望大家提出哦:outu:
slashdot 回复于:2008-02-18 14:48:55
现在昆腾是不是专做数据备份恢复了啊,硬盘业务不做了吧?
jinxingvenus 回复于:2008-02-18 15:05:14
这个问题这两年就有多种需求,我们使用SUN的存储...NAS也有...
当时EMC电话过来调查时,我就提出较大公司的文件备份和规划是一个大问题,,,当时他们就支吾,还没有些服务,,,
或说去问问...
因为很多重要数据当天备份的量越大,带来的成本就越高,但是无用的数据很多,没法进行整理,
就windows系统中R2.和Wss提供的文件管理,对数据基础性能提高不大...所以随着存储容量的快速增大,和
IT的深入,这个问题需求明显 ....
[ 本帖最后由 jinxingvenus 于 2008-2-18 15:06 编辑 ]
夜的小宇宙 回复于:2008-02-18 15:06:45
引用:原帖由 slashdot 于 2008-2-18 14:48 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7973072&ptid=1053036]
现在昆腾是不是专做数据备份恢复了啊,硬盘业务不做了吧?
他们的硬盘业务好像早卖掉了
夜的小宇宙 回复于:2008-02-18 15:08:50
引用:原帖由 jinxingvenus 于 2008-2-18 15:05 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7973197&ptid=1053036]
这个问题这两年就有多种需求,我们使用SUN的存储...NAS也有...
当时EMC电话过来调查时,我就提出较大公司的文件备份和规划是一个大问题,,,当时他们就支吾,还没有些服务,,,
或说去问问...
因为很多重要数 ...
没错的,存储空间也是成本,节约空间就是节约钱
飞灰橙 回复于:2008-02-18 15:24:11
引用:原帖由 夜的小宇宙 于 2008-2-18 15:08 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7973220&ptid=1053036]
没错的,存储空间也是成本,节约空间就是节约钱
那以后的压缩软件不是用了白用?
夜的小宇宙 回复于:2008-02-18 15:26:21
引用:原帖由 飞灰橙 于 2008-2-18 15:24 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7973323&ptid=1053036]
那以后的压缩软件不是用了白用?
这个和压缩软件不一样的,这个更为底层一些,主要针对重复数据的删除,尤其是存储环境中因为备份造成的大量数据冗余的情况
bulletming 回复于:2008-02-18 16:06:52
第一次听说,感觉思路很不错,但是我希望知道此技术留给系统管理员或者数据库管理员的接口是怎样的?
采用了此技术,对我们的原先的天天全量导出的一个文件备份的方式速度有多大影响?
夜的小宇宙 回复于:2008-02-18 16:28:03
引用:原帖由 bulletming 于 2008-2-18 16:06 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7973728&ptid=1053036]
第一次听说,感觉思路很不错,但是我希望知道此技术留给系统管理员或者数据库管理员的接口是怎样的?
采用了此技术,对我们的原先的天天全量导出的一个文件备份的方式速度有多大影响?
据我所知,目前这项技术一般和备份软件或者一些备份的硬件产品,比如虚拟带库结合比较紧密,通常作为一个可选的选项进行钩选。
速度就是现在各个厂商所吹嘘的了,都号称对备份的速度没有影响。实际上这个技术也有一些实现方式上的区别,比如in-band和off-band的区别:
主要指的好像是重复数据删除发生的位置,是在数据从主机到磁盘阵列的存储过程中,还是已经存储到磁盘阵列上了,后台再进行操作。
前者是in-band,后者是off-band。那么如果是off-band,对备份速度应该是不会有很大影响的。
saintdragon 回复于:2008-02-18 16:34:50
有些时候冗余是安全措施,而现在又要除重了,这个矛盾不知如何协调
夜的小宇宙 回复于:2008-02-18 17:02:03
引用:原帖由 saintdragon 于 2008-2-18 16:34 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7974018&ptid=1053036]
有些时候冗余是安全措施,而现在又要除重了,这个矛盾不知如何协调
必要的冗余是安全措施,但是在用户的备份环境里面,往往保存着大量的无用的冗余数据,大量的占用了不必要的空间,而且难于管理。
不过我猜,重复数据删除把各个拷贝都删掉了,只留一份数据,多少会有些安全隐患吧
jinxingvenus 回复于:2008-02-18 17:53:55
引用:原帖由 夜的小宇宙 于 2008-2-18 17:02 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7974305&ptid=1053036]
必要的冗余是安全措施,但是在用户的备份环境里面,往往保存着大量的无用的冗余数据,大量的占用了不必要的空间,而且难于管理。
不过我猜,重复数据删除把各个拷贝都删掉了,只留一份数据,多少会有些安 ...
个人觉得在国内市场,存储的空间很大.很多中小企业存储方面投入和意识很差,意味着这部门空间很大...
再加上市公司要求,及已经布置存储的公司随着量的增大,,,,这方面的空间比较大.
中小企业,还有一部门非IT大企业或者主要依赖windows的企业,还有一些准备上市公司(特别要在大陆以外上市)都是这个市场的增长点...
引外一些企业上ERP,PDM也是使用存储方面的大户...
存储将占去硬件投入的三分之一..以及后面的维护及扩容,升级...
这批用户关心的应该是稳定,容量大,易管理(复杂人才费用高)速度次之.并且有一个系统的解决方案对照用户.并且有几个大型成功案例也是吸引的
随便说说....
cobranail 回复于:2008-02-18 19:11:30
好像大家都在讨论,没有提问题。大好的机会浪费了可惜,我来问几个小白的问题。
1、raid0中的一块硬盘由于误操作被格式化并分区安装系统,是否还能恢复出格式化之前的完整数据?
2、硬盘盘片被划伤,是否还能恢复完整的数据?
3、经过逐位清零(比如用dm)的硬盘是否还能恢复上面的数据?
4、对于数据可恢复性,是否和文件系统有关?
fireluxbo 回复于:2008-02-18 20:34:30
不记得在什么地方看到说,硬盘区块重写7次,还可以复原原来的数据,是不是真的?
lbt5210 回复于:2008-02-19 00:37:18
引用:原帖由 fireluxbo 于 2008-2-18 20:34 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7974988&ptid=1053036]
不记得在什么地方看到说,硬盘区块重写7次,还可以复原原来的数据,是不是真的?
:shock: :shock: :shock:
RobinsonNie 回复于:2008-02-19 01:03:04
重复数据删除技术请举出商用案例.
性能水平与稳定性如何.
如何选择重复数据删除方案.
bebeowulf2006 回复于:2008-02-19 10:32:35
引用:不记得在什么地方看到说,硬盘区块重写7次,还可以复原原来的数据,是不是真的?
恢复出的是哪一回的数据?
还是只是在改写分区表和超级块.
patrick968 回复于:2008-02-19 10:56:07
公司的各种数据越来越多,每次备份都超过24小时,并且我知道里面有很多重复的数据,但是不知道怎样将他们找出来删除。
1.什么原理?
2.如何保证数据的安全性?
3.对备份有什么影响?
4.是基于软件的还是硬件的?
5.部署时对现有基础构架的影响如何?
6.成本如何?
夜的小宇宙 回复于:2008-02-19 12:02:06
引用:原帖由 RobinsonNie 于 2008-2-19 01:03 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7976627&ptid=1053036]
重复数据删除技术请举出商用案例.
性能水平与稳定性如何.
如何选择重复数据删除方案.
好的,这个各个厂商都有不同的观点,让我们先看看昆腾怎么说。。。。
夜的小宇宙 回复于:2008-02-19 12:03:35
引用:原帖由 patrick968 于 2008-2-19 10:56 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7977131&ptid=1053036]
公司的各种数据越来越多,每次备份都超过24小时,并且我知道里面有很多重复的数据,但是不知道怎样将他们找出来删除。
1.什么原理?
2.如何保证数据的安全性?
3.对备份有什么影响?
4.是基于软件的还是硬件 ...
嗬嗬,你说的这个正是重复数据删除的应用范围,关于重复数据删除的实现方式也有很多,由于实现方式的不同,安全性阿备份性能阿什么的都会有一点差异,各有优劣势吧,还是先听听昆腾怎么说。。。。
eric.wang 回复于:2008-02-19 14:12:51
现在越来越多的人已经认识到数据备份和存储空间的重要性,同样备份软件的使用也是一个重要的问题。
SUN也在去年提出了重复数据删除的底层技术,并且已经提出一个完整的虚拟存储解决方案。其他存储公司也相应的提出了自己的解决方案,那么昆腾的解决方案有什么优势呢?还是只是有概念而没有完整的解决方案呢?
相对的,其他厂商的解决方案优点和缺点与昆腾相比是否具有某些昆腾达不到的技术优势呢?
夜的小宇宙 回复于:2008-02-19 14:39:54
好问题,相信昆腾的人也会觉得头疼了,哈哈
雪凤凰 回复于:2008-02-19 15:19:16
首先麻烦王大哥把这个“重复数据删除”讲清楚--什么叫清楚,我能明白吧,呵呵;
其次,最后希望能给一个下载视频的地址;
再次,像之前有人提到的,为了备份而特意保留的多份数据,如何处理?会被误删吗?
这是什么级别的一个应用?文件级还是别的?依据什么判断是重复数据,如果同一个文件改了一个名字,应该能判断出来吧?
先问这么多吧,谢谢了!
夜的小宇宙 回复于:2008-02-19 16:41:43
引用:原帖由 雪凤凰 于 2008-2-19 15:19 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7978513&ptid=1053036]
首先麻烦王大哥把这个“重复数据删除”讲清楚--什么叫清楚,我能明白吧,呵呵;
其次,最后希望能给一个下载视频的地址;
再次,像之前有人提到的,为了备份而特意保留的多份数据,如何处理?会被误删吗?
这 ...
嗬嗬,首先谢谢大家支持哦,这个重复数据删除的讲座现在还没开始呢,具体时间是20日,也就是明天,周三下午,到时候我们一定会放直播的链接
倒数第二个问题根据我的理解是,有了重复数据删除,你就没必要保留那么多份的备份数据了,不过我们还是听听厂商的人怎么说
gentlehug 回复于:2008-02-19 16:54:35
如何判断数据的重复是另外一部分的数据的完全拷贝还是有差异的重复?
zhz9727 回复于:2008-02-19 17:12:45
王刚咱们熟呀!
xiaomao2006 回复于:2008-02-19 17:48:53
它们提的,我觉得的都是快级别的,通过一个算法算出它的唯一值,然后如果发现有重复的就不存储了.
其核心是算法,现在数学里面已经有很多这样的算法,不同厂商用不同的,或者改进的,针对不同的数据效果也不一样
圆点坐标 回复于:2008-02-19 21:54:13
这个技术已经很成熟了,宣传傻子阿?:outu: :outu:
夜的小宇宙 回复于:2008-02-19 23:32:04
引用:原帖由 gentlehug 于 2008-2-19 16:54 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7979178&ptid=1053036]
如何判断数据的重复是另外一部分的数据的完全拷贝还是有差异的重复?
解释起来太复杂啦,还是听他们的工程师喷吧,嘿嘿
夜的小宇宙 回复于:2008-02-19 23:32:49
引用:原帖由 zhz9727 于 2008-2-19 17:12 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7979311&ptid=1053036]
王刚咱们熟呀!
呵呵,明天周三下午正式开始视频讲座,欢迎到时候来捧场
夜的小宇宙 回复于:2008-02-19 23:33:43
引用:原帖由 xiaomao2006 于 2008-2-19 17:48 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7979513&ptid=1053036]
它们提的,我觉得的都是快级别的,通过一个算法算出它的唯一值,然后如果发现有重复的就不存储了.
其核心是算法,现在数学里面已经有很多这样的算法,不同厂商用不同的,或者改进的,针对不同的数据效果也不一样
说得好,这位老兄是明白人:mrgreen:
附带,好像普遍采用的都是哈希算法
夜的小宇宙 回复于:2008-02-19 23:34:46
引用:原帖由 圆点坐标 于 2008-2-19 21:54 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7980225&ptid=1053036]
这个技术已经很成熟了,宣传傻子阿?:outu: :outu:
呵呵,技术的确很成熟,很多产品都支持这个功能,但厂商想卖这个东西,就要给用户给工程师洗脑呗
圆点坐标 回复于:2008-02-19 23:40:08
引用:原帖由 夜的小宇宙 于 2008-2-19 23:34 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7980440&ptid=1053036]
呵呵,技术的确很成熟,很多产品都支持这个功能,但厂商想卖这个东西,就要给用户给工程师洗脑呗
广告图片上的那个人英文名字是什么?tony?
夜的小宇宙 回复于:2008-02-19 23:43:23
引用:原帖由 圆点坐标 于 2008-2-19 23:40 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7980451&ptid=1053036]
广告图片上的那个人英文名字是什么?tony?
没错啊,你不是认识吧
圆点坐标 回复于:2008-02-19 23:44:06
引用:原帖由 夜的小宇宙 于 2008-2-19 23:43 发表 [url=http://bbs.chinaunix.net/redirect.php?goto=findpost&pid=7980457&ptid=1053036]
没错啊,你不是认识吧
呵呵
fanqiang 回复于:2008-02-20 22:12:37
1楼已经更新最新对话全文内容,欢迎大家查看:)
noise 回复于:2008-02-22 12:23:57
这个技术所指的删除,应该是每次备份操作时的重复数据,而不是业务数据本身,另外备份本身就是一种对于数据的冗余,应该谈不上安全隐患。
skynetsea 回复于:2008-02-23 00:38:35
太晚了,困.先记下,回头再看.
qiu_923 回复于:2008-03-05 14:27:20
引用:每次是100G,三次就400多G
…………
不愧是搞IT的
算法怎么深奥
菜鸟学习中
:outu:
:outu:
skynetsea 回复于:2008-03-25 09:06:53
哈哈,学习了,讲得精辟.就是不明白虚拟带库与物理带库功能相连接,导出磁带怎么实现法?
刘世伟 回复于:2008-04-06 21:59:05
我在linux下以前使用 pdumpfs 实现日冗余备份,
现在使用zfs在备份服务器实现日冗余备份。
重复删除,
在linux下有一个工具,finddup ,可以对重复的文件合并成硬连接。
配合cow可以实现写时拷贝, 来实现在线的生产数据的重复合并。
将cow的lib挂在 samba上就行了。
|