Como funciona a desduplicação de dados?

Os últimos anos testemunharam uma explosão na proliferação de unidades de autoarmazenamento. Estas grandes unidades de armazém surgiram a nível nacional como uma indústria em expansão por uma razão: a pessoa média tem agora mais bens do que sabe o que fazer com eles.

A mesma situação básica também assola o mundo da TI. Estamos no meio de uma explosão de dados. Mesmo objetos relativamente simples do dia a dia agora geram dados por conta própria, graças à funcionalidade da Internet das Coisas (IoT). Nunca antes na história tantos dados foram criados, coletados e analisados. E nunca antes tantos gestores de dados lutaram com o problema de como armazenar tantos dados.

Uma empresa pode inicialmente não reconhecer o problema ou o quão grande ele pode se tornar, e então essa empresa terá que encontrar uma solução de armazenamento maior. Com o tempo, a empresa também poderá superar esse sistema de armazenamento, exigindo ainda mais investimentos. Inevitavelmente, a empresa se cansará desse jogo e buscará uma opção mais barata e simples – o que nos leva à desduplicação de dados.

Embora muitas organizações utilizem técnicas de desduplicação de dados (ou “desduplicação”) como parte de seu sistema de gerenciamento de dados, poucas realmente entendem o que é o processo de desduplicação e o que ele pretende fazer. Então, vamos desmistificar a desduplicação e explicar como funciona a desduplicação de dados.

O que a desduplicação faz?

Primeiro, vamos esclarecer nosso termo principal. A desduplicação de dados é um processo que as organizações usam para simplificar seus acervos de dados e reduzir a quantidade de dados arquivados, eliminando cópias redundantes de dados.

Além disso, devemos salientar que quando falamos de dados redundantes, estamos na verdade falando ao nível dos ficheiros e referindo-nos a uma proliferação desenfreada de ficheiros de dados. Portanto, quando discutimos os esforços de desduplicação de dados, na verdade é necessário um sistema de desduplicação de arquivos.

Qual é o principal objetivo da desduplicação?

Algumas pessoas têm uma noção incorreta sobre a natureza dos dados, vendo-os como uma mercadoria que simplesmente existe para ser recolhida e colhida – como maçãs de uma árvore no seu próprio quintal.

A realidade é que cada novo arquivo de dados custa dinheiro. Em primeiro lugar, normalmente custa dinheiro obter tais dados (através da compra de listas de dados). Ou requer um investimento financeiro substancial para que uma organização seja capaz de reunir e coletar dados por conta própria, mesmo que sejam dados que a própria organização esteja produzindo e coletando organicamente. Os conjuntos de dados, portanto, são um investimento e, como qualquer investimento valioso, devem ser protegidos rigorosamente.

Neste caso, estamos falando de espaço de armazenamento de dados – seja na forma de servidores de hardware locais ou por meio de armazenamento em nuvem por meio de um data center baseado em nuvem – que deve ser adquirido ou alugado.

Cópias duplicadas de dados que foram replicados, portanto, prejudicam o resultado final, impondo custos de armazenamento adicionais além daqueles associados ao sistema de armazenamento primário e seu espaço de armazenamento. Em suma, mais ativos de mídia de armazenamento devem ser dedicados para acomodar tanto dados novos como dados já armazenados. Em algum momento da trajetória de uma empresa, dados duplicados podem facilmente se tornar um passivo financeiro.

Portanto, resumindo, o principal objetivo da desduplicação de dados é economizar dinheiro, permitindo que as organizações gastem menos em armazenamento extra.

Benefícios adicionais da desduplicação

Existem também outras razões, além da capacidade de armazenamento, para que as empresas adotem soluções de desduplicação de dados – provavelmente nenhuma mais essencial do que a proteção e o aprimoramento de dados que elas fornecem. As organizações refinam e otimizam cargas de trabalho de dados desduplicados para que sejam executadas com mais eficiência do que dados repletos de arquivos duplicados.

Outro aspecto importante da desduplicação é como ela ajuda a capacitar um esforço de recuperação de desastres rápido e bem-sucedido e minimiza a quantidade de perda de dados que muitas vezes pode resultar de tal evento. A desduplicação ajuda a permitir um processo de backup robusto para que o sistema de backup de uma organização esteja à altura da tarefa de lidar com seus dados de backup. Além de ajudar nos backups completos, a desduplicação também auxilia nos esforços de retenção.

Ainda outro benefício da desduplicação de dados é o quão bem ela funciona em conjunto com implantações de infraestrutura de desktop virtual (VDI), graças ao fato de que os discos rígidos virtuais por trás dos desktops remotos do VDI operam de forma idêntica. Os produtos populares de desktop como serviço (DaaS) incluem o Azure Virtual Desktop da Microsoft e seu Windows VDI. Esses produtos criam máquinas virtuais (VMs), que são criadas durante o processo de virtualização do servidor. Por sua vez, essas máquinas virtuais capacitam a tecnologia VDI.

Metodologia de desduplicação

A forma mais comumente usada de desduplicação de dados é a desduplicação em bloco. Este método opera usando funções automatizadas para identificar duplicações em blocos de dados e, em seguida, remover essas duplicações. Ao trabalhar neste nível de bloco, pedaços de dados exclusivos podem ser analisados e especificados como dignos de validação e preservação. Então, quando o software de desduplicação detecta uma repetição do mesmo bloco de dados, essa repetição é removida e uma referência aos dados originais é incluída em seu lugar.

Essa é a principal forma de desduplicação, mas dificilmente é o único método. Em outros casos de uso, um método alternativo de desduplicação de dados opera no nível do arquivo. O armazenamento de instância única compara cópias completas de dados no servidor de arquivos, mas não pedaços ou blocos de dados. Assim como seu método equivalente, a desduplicação de arquivos depende da manutenção do arquivo original no sistema de arquivos e da remoção de cópias extras.

Deve-se notar que as técnicas de desduplicação não funcionam da mesma maneira que os algoritmos de compressão de dados (por exemplo, LZ77, LZ78), embora seja verdade que ambos perseguem o mesmo objetivo geral de reduzir redundâncias de dados. As técnicas de desduplicação conseguem isso em uma escala macro maior do que os algoritmos de compactação, cujo objetivo é menos substituir arquivos idênticos por cópias compartilhadas e mais codificar redundâncias de dados de maneira mais eficiente.

Tipos de desduplicação de dados

Existem diferentes tipos de desduplicação de dados, dependendo de quando o processo de desduplicação ocorre:

Desduplicação em linha: essa forma de desduplicação de dados ocorre instantaneamente – em tempo real – à medida que os dados fluem dentro do sistema de armazenamento. O sistema de desduplicação em linha transporta menos tráfego de dados porque não transfere nem armazena dados duplicados. Isso pode levar a uma redução na quantidade total de largura de banda necessária para aquela organização. Desduplicação pós-processo: esse tipo de desduplicação ocorre depois que os dados foram gravados e colocados em algum tipo de dispositivo de armazenamento.

Aqui vale a pena explicar que ambos os tipos de desduplicação de dados são afetados pelos cálculos de hash inerentes à desduplicação de dados. Esses cálculos criptográficos são essenciais para identificar padrões repetidos nos dados. Durante as desduplicações em linha, esses cálculos são realizados no momento, o que pode dominar e sobrecarregar temporariamente a funcionalidade do computador. Nas desduplicações pós-processamento, os cálculos de hash podem ser realizados a qualquer momento após os dados serem adicionados de uma forma e em um momento que não sobrecarregue os recursos do computador da organização.

As diferenças sutis entre os tipos de desduplicação não param por aí. Outra forma de classificar os tipos de desduplicação é baseada no local onde tais processos ocorrem.

Desduplicação na origem: essa forma de desduplicação ocorre perto de onde os novos dados são realmente gerados. O sistema verifica essa área e detecta novas cópias de arquivos, que são então removidas. Desduplicação de destino: Outro tipo de desduplicação é como uma inversão da desduplicação de origem. Na desduplicação de destino, o sistema desduplica todas as cópias encontradas em áreas diferentes de onde os dados originais foram criados.

Como existem diferentes tipos de desduplicação praticados, as organizações voltadas para o futuro devem tomar decisões cuidadosas e ponderadas em relação ao tipo de desduplicação escolhido, equilibrando esse método com as necessidades específicas da empresa.

Em muitos casos de uso, o método de desduplicação escolhido por uma organização pode muito bem se resumir a uma variedade de variáveis internas, como as seguintes:

Quantos e que tipos de conjuntos de dados estão sendo criados O sistema de armazenamento primário da organização Quais ambientes virtuais estão em uso Quais aplicativos a empresa utiliza

Desenvolvimentos recentes de desduplicação de dados

Como todos os resultados de computador, a desduplicação de dados está preparada para fazer uso crescente da inteligência artificial (IA) à medida que continua a evoluir. A desduplicação se tornará cada vez mais sofisticada à medida que desenvolve ainda mais nuances que a auxiliam na busca de padrões de redundância à medida que blocos de dados são verificados.

Uma tendência emergente na desduplicação é o aprendizado por reforço. Isto utiliza um sistema de recompensas e penalidades (como no treinamento de reforço) e aplica uma política ideal para separar registros ou fundi-los.

Outra tendência que vale a pena observar é o uso de métodos de conjunto, nos quais diferentes modelos ou algoritmos são usados em conjunto para garantir uma precisão ainda maior no processo de desduplicação.

O dilema contínuo

O mundo da TI está cada vez mais concentrado na questão contínua da proliferação de dados e no que fazer a respeito. Muitas empresas encontram-se na posição incómoda de quererem simultaneamente reter todos os dados que trabalharam para acumular e também de quererem guardar os seus novos dados transbordantes em qualquer recipiente de armazenamento possível, mesmo que apenas para os tirar do caminho.

Embora esse dilema persista, a ênfase nos esforços de desduplicação de dados continuará, à medida que as organizações veem a desduplicação como a alternativa mais barata à compra de mais armazenamento. Porque, em última análise, embora entendamos intuitivamente que os negócios precisam de dados, também sabemos que os dados muitas vezes exigem desduplicação.

Saiba como o IBM Storage FlashSystem pode ajudá-lo com suas necessidades de armazenamento

Esse artigo foi útil?

SimNão

Source link

Como funciona a desduplicação de dados?

Resumo da Fintech: uma revisão rápida das notícias semanais

Chefe do desenvolvimento cultural Al-Ula da Arábia Saudita é preso por acusações de corrupção

Chefe do desenvolvimento cultural Al-Ula da Arábia Saudita é preso por acusações de corrupção

Leave a Reply Cancel reply

Recent News

Escola de Artes Visuais de Nova York estabelece 30 funcionários em meio a dificuldades financeiras – o jornal de arte

Quem está moldando o futuro do Bitcoin: Sétima Vs. Ordinals Degens

Awakens de baleia de bitcoin adormecida: o BTC OG gira em US $ 577M eth Long

Momentum de Cardano ETF desaparece enquanto as baleias se reúnem para isso sob o altcoin baseado em RADAR ETH

FINOVATE GLOBAL: Gerenciamento da força de trabalho e planejamento de capacidade com Karen Elliott, da Cinareo Solutions

Eu arrisquei tudo para construir minha empresa. Quatro anos depois, aqui está o que aprendi sobre a construção de sucesso real e duradouro

Categorias

Welcome Back!

Retrieve your password

Como funciona a desduplicação de dados?

O que a desduplicação faz?

Qual é o principal objetivo da desduplicação?

Benefícios adicionais da desduplicação

Metodologia de desduplicação

Tipos de desduplicação de dados

Desenvolvimentos recentes de desduplicação de dados

O dilema contínuo

Resumo da Fintech: uma revisão rápida das notícias semanais

Chefe do desenvolvimento cultural Al-Ula da Arábia Saudita é preso por acusações de corrupção

Chefe do desenvolvimento cultural Al-Ula da Arábia Saudita é preso por acusações de corrupção

Leave a Reply Cancel reply

Subscribe

Recent News

Escola de Artes Visuais de Nova York estabelece 30 funcionários em meio a dificuldades financeiras – o jornal de arte

Quem está moldando o futuro do Bitcoin: Sétima Vs. Ordinals Degens

Awakens de baleia de bitcoin adormecida: o BTC OG gira em US $ 577M eth Long

Momentum de Cardano ETF desaparece enquanto as baleias se reúnem para isso sob o altcoin baseado em RADAR ETH

FINOVATE GLOBAL: Gerenciamento da força de trabalho e planejamento de capacidade com Karen Elliott, da Cinareo Solutions

Eu arrisquei tudo para construir minha empresa. Quatro anos depois, aqui está o que aprendi sobre a construção de sucesso real e duradouro

Categorias

Subscribe

Welcome Back!

Retrieve your password