Hva er de-duplisering
Data dedublisering er blitt en BUZZ ord i bransjen. Målet med de-dedublisering er å kunne ta
backup av endringer i en fil istedenfor å ta backup av hele filen hver
dag. Nå skal det være sagt at IBM Tivoli
Storage Manager er allerede hatt denne teknologien i over 17 år der man kun tar
backup av endrede filer i stedet for å ta fulle backuper hver dag eller hver
helg.
Siden TSM allerede har effektivisert sin backup er det lite de-dub kan
gi TSM som en løsning. Men det har nå
kommet nye krav til Recovery Point og Recovery Tider for data samt at VMWare
overtar mer og mer.
VMWare konseptet bygger på å konstruere virtuelle servere i ETT fysisk
server. Lagring foregår på følgende
måte. Man definerer opp en pool med
lagring (fysisk er det en stor fil) VMDK fil.
Mens tidligere hadde vi disk partisjoner for fysiske servere har vi nå
en stor fil(VMDK) der alle data for virtuelle servere lagres via VMWare sitt
filsystem. Dermed blir det nå store filer man skal ta backup av samt at man
blir mer sårbar siden all data ligge i en stor fil.
For å kunne ta backup må TSM ta backup av hele VMDK filen siden det er
en fil, og TSM differensierer på fil endring.
Vi vet jo at en dataendring i en standard IT miljø er ikke mer enn ca.
5% pr. uke og om man nå tar backup av VMDK filer hver dag i sin helhet,
medfører dette unødvendig bruk av ressurser i VMWare, nettverk samt disk/tape plass i backup miljø.
De-dub er bygget på å kunne klare å se forskjell på blokk-nivå i en
fil. En fil ( om det er en databaser,
VMWare, Mail) er bygget opp av blokker.
En mekanisme for å gjenkjenne like blokker vil kunne gi oss muligheten
til å kunne unngå å lagre like blokker(like data) flere ganger på disk/tape
eller evt ta backup av dem. En slik
metode vil også kunne hjelpe med raskt å kunne hente tilbake data.