Análise de desempenho de Banco de Dados Relacionais e Não Relacionais em dados genômicos

O armazenamento de dados genomicos e um grande desafio hoje, pois com o avanco da tecnologia molecular a quantidade de dados genomicos gerados esta aumentando, de forma que o sequenciamento de um unico organismo pode gerar arquivos com gigabytes de informacoes. De forma geral, os processos de manipulacao de dados genomicos fazem uso de simples arquivos como o principal meio para armazenamento de tais dados. Contudo, os bancos de dados modernos se apresentam como alternativa para a gerencia desses dados por oferecer melhor organizacao, tolerância a falhas, melhor uso do espaco disponivel para armaze- namento e desempenho. Alem disso, os bancos de dados permitem agregar aos dados brutos do sequenciamento meta-informacoes acerca das sequencias de DNA armazenadas. Diante deste cenario, este trabalho apresenta e avalia o desempenho de diferentes estrategias de armazenamento em tres bancos de dados pertencentes a dois paradigmas diferentes, o MySQL (representante dos bancos de dados Relacionais), o Cassandra e o MongoDB (representantes dos bancos de dados Nao Relacionais). Os resultados demonstraram que os bancos de dados relacionais apresentam limitacoes quando estao inseridos em um ambiente com grandes massas de dados.