Índice
O que é a desduplicação de dados?
A desduplicação de dados é uma técnica de compressão de dados que envolve a remoção de cópias redundantes de dados de um sistema.
É administrado em ambos os esquemas de backup de dados e de dados de rede, e permite o armazenamento de um modelo único de dados dentro de uma base de dados ou de um sistema de informação mais amplo. A desduplicação de dados também é conhecida como compressão inteligente, armazenamento de instância única, fatoração de comumidade ou redução de dados.
A desduplicação de dados funciona examinando e depois comparando peças de dados recebidas com dados já armazenados. Se algum dado específico já estiver presente, os algoritmos de desduplicação removem os novos dados e substituem-nos por uma referência aos dados já existentes.
Por exemplo, quando um ficheiro antigo é copiado com algumas alterações, o ficheiro anterior e as alterações aplicadas são adicionados ao segmento de dados total. No entanto, se não houver diferença, o ficheiro de dados mais recente é descartado e é criada uma referência.
A deduplicação de dados é uma tecnologia em que os fornecedores de armazenamento confiam para utilizar melhor o espaço de armazenamento; a outra é a compressão. Estas funcionalidades de armazenamento são geralmente agrupadas numa categoria maior, chamada redução de dados. Todos estes sistemas ajudam a atingir o mesmo objetivo, aumentar a eficiência do armazenamento. Com técnicas de deduplicação adequadas, as empresas podem armazenar efetivamente mais dados do que a sua capacidade total de armazenamento poderia sugerir. Por exemplo, uma empresa com 15 TB de armazenamento, quando combinada com técnicas adequadas de deduplicação e compressão, pode obter um benefício de redução de 4:1, o que significa que seria possível armazenar 60 TB numa matriz de dados de 15 TB.
Estudo de caso sobre desduplicação de dados
Considere este cenário como um exemplo prático do benefício da deduplicação: uma organização está a operar um ambiente de desktop virtual com centenas de estações de trabalho idênticas, todas armazenadas numa matriz de armazenamento cara que foi adquirida especificamente para suporte. A organização está a executar centenas de cópias do Windows 8, Office 2013, software ERP e quaisquer outras ferramentas que os utilizadores possam necessitar. Cada imagem de estação de trabalho individual consome, digamos, 25 GB de espaço em disco. Com apenas 200 dessas estações de trabalho, essas imagens sozinhas consumiriam 5 TB de capacidade.
Com a desduplicação, apenas uma cópia destas máquinas virtuais individuais pode ser armazenada. Sempre que o motor descobre um fragmento de dados que está armazenado noutro local no ambiente de armazenamento, o sistema de armazenamento guarda um pequeno apontador no lugar da cópia de dados, libertando assim os blocos que normalmente seriam ocupados.
Tipos de desduplicação de dados
Como seria de esperar, diferentes fornecedores tratam a deduplicação de maneiras diferentes. Na verdade, existem duas técnicas principais de deduplicação que merecem discussão:
A deduplicação inline ocorre no momento em que os dados são gravados no armazenamento. Enquanto os dados estão em movimento, o motor de deduplicação marca os dados sequencialmente. Este processo, embora eficaz, cria uma sobrecarga de computação. O sistema tem de marcar repetidamente os dados recebidos e, em seguida, identificar rapidamente se essa nova impressão digital corresponde a algo no sistema. Se sim, é escrita uma bandeira apontando para a marca existente. Se não, o bloco é guardado sem alterações. A deduplicação inline é uma característica importante para muitos dispositivos de armazenamento e, embora introduza sobrecarga, não é demasiado problemática, proporcionando muito mais benefícios do que custos.
A desduplicação pós-processamento, também conhecida como desduplicação assíncrona, ocorre quando todos os dados são escritos na totalidade, até que, a intervalos regulares, o sistema de desduplicação percorre e marca todos os novos dados, remove múltiplas cópias e substitui-as por indicadores que apontam para a cópia original dos dados.
A desduplicação pós-processamento permite que as empresas utilizem o seu serviço de redução de dados sem se preocuparem com a sobrecarga de processamento repetido causada pela desduplicação em linha. Este processo permite que as empresas agendem a desduplicação, para que possa ocorrer fora do horário de expediente.
A maior desvantagem da desduplicação pós-processamento é que todos os dados são armazenados na sua forma completa (frequentemente chamada de totalmente hidratada). Por causa disso, os dados requerem todo o espaço que os dados não desduplicados precisam. Só após o processo de desduplicação agendado é que ocorre a diminuição do tamanho. Para as empresas que utilizam a desduplicação pós-processamento, é necessário haver uma maior sobrecarga de capacidade de armazenamento em todos os momentos.
A deduplicação de dados no lado do cliente é uma técnica de deduplicação de dados usada, por exemplo, num cliente de backup-arquivo para remover dados redundantes durante o processamento de backup e arquivo antes de os dados serem transferidos para o servidor. O uso da deduplicação de dados no lado do cliente pode reduzir a quantidade de dados que é enviada através de uma rede local.
Desduplicação baseada em hardware versus desduplicação baseada em software
Aparelhos de desduplicação construídos funcionalmente reduzem a carga de processamento associada aos produtos baseados em software. Esses sistemas de desduplicação baseados em hardware também podem adicionar desduplicação a formas de hardware de proteção de dados, como aparelhos de backup, VTLs ou armazenamento NAS.
Embora a desduplicação baseada em software possa eliminar efetivamente a redundância na sua origem, os métodos baseados em hardware priorizam a redução de dados ao nível do armazenamento. Por causa disso, a desduplicação baseada em hardware não trará poupanças de largura de banda obtidas pela desduplicação na origem, mas este problema é compensado pelo aumento das velocidades de compressão.
A deduplicação de dados baseada em hardware oferece alto desempenho, escalabilidade e implantação relativamente não disruptiva. É mais adequada para implementações de classe empresarial do que para aplicações de PME ou escritórios remotos.
A desduplicação baseada em software é, na maioria das vezes, menos dispendiosa de executar e não requer alterações significativas na infraestrutura física de rede de uma empresa. No entanto, a desduplicação baseada em software pode ser muitas vezes mais difícil de instalar e manter. É necessário instalar agentes para permitir a comunicação entre o site local e o servidor de backup que executa o mesmo software.
Porque a deduplicação de dados é importante
Saiba mais sobre a deduplicação de dados
Termos relacionados
Leitura complementar
Como a Barracuda pode ajudar
A deduplicação do Barracuda Backup simplifica a proteção de dados e reduz os custos de overhead, media e rede. Com a deduplicação de três fases e comprimento variável, permite armazenamento eficiente a longo prazo de servidores protegidos enquanto reduz o tempo de backup.