Hadoop e Big Data para DBAs relacionais
- Posted by redglue
- On February 28, 2016
- 0 Comments
- cassandra, DBA, hadoop, mongodb, noSQL
O Big Data continua uma buzzword para alguns, no entanto para outros é uma buzzword que vai de encontro às necessidades de alguns projectos.
Um DBA atento, seja de Oracle, SQL Server, DB2 ou outra coisa relacional tende a olhar para o que acontece no mundo do Big Data de uma forma … preocupada, principalmente por dois motivos:
1) Tudo acontece muito depressa, é a evolução do Hive, do HBase, do Pig, o core MapReduce muda, o YARN é diferente e o Spark parece familiar. Depois é o Cassandra e o MongoDB (e outros) no formato noSQL! Até assusta!
2) Há casos em que o DBA sabe que devia sugerir uma alternativa, mas não se sente confortável em fazê-lo.
Falo das alternativas aos reports que demoram 12 horas a processar, ou para aquela “coisa” irremediavelmente “não possível” por causa dos 5 TB de dados que tem que processar, ou até porque temos o Exadata, mas infelizmente o SQL do report não faz uso dos Smart Scans (Exadata) e o tempo de processamento pouco melhorou.
Não me interpretem mal, o DBA relacional está para ficar e a procura continua estável (o exemplo é este), não vai desaparecer dentro em breve.
O Oracle como Base de Dados (por exemplo) vai continuar a ter um papel fundamental no “core” de muitas empresas, continua a evoluir positivamente e estará presente no futuro, no entanto o skillset do DBA vai ter que se reajustar em direcção às tecnologias Big Data, principalmente Hadoop e noSQL.
Este reajuste não será o reajuste de ter que aprender Java para escrever MapReduce jobs, ou Python para desenvolvimento de algoritmos de machine learning ou AI ou até R para mostrar as capacidades do analytics . Isso ficará sempre a cargo dos developers.
Obviamente, algumas coisas vão surgir naturalmente, como a capacidade de “debug” de jobs MapReduce, entender como funciona a Java Virtual Machine ou até analisar querys em Spark.
Será assim um reajuste em que o DBA terá a função de suportar clusters Hadoop, várias BDs mongoDBs e/ou Cassandra, no fundo um DBA de Infraestrutura Hadoop e noSQL.
Isso vai obrigar a um entendimento profundo do DBA sobre HDFS, resource management YARN, Sistemas Operativos, segurança, networking, clustering e computação distribuída em geral.
Então afinal, como é que o skillset do DBA que actualmente suporta vários OLTP e DWs pode ser potenciado num mundo do Big Data:
– O mindset DBA: A análise, monitorização e troubleshooting continua a ser “a” grande mais valia no mundo Hadoop/noSQL. Estão muito habituados a proteger, provavelmente a peça mais importante de uma organização: os dados.
– Muitos teem muita experiência em Sistemas Operativos (Linux, AIX, HPUX, etc) de suporte às BDs relacionais que lhe permitirão, se necessário um “deep dive” mais fundo num problema de forma a manter a alta disponibilidade característica dos clusters Hadoop.
– O know-how de adicionar nós, remover nós e fazer deploy de um cluster Hadoop é no fundo algo que o DBA já fez, mas num cluster de uma Base de Dados relacional.
– Muitos DBAs (senão todos) desenvolveram scripts de automação, configuração e deploy. Esse know-how é obrigatório em deploy de clusters Hadoop, seja elas feitas manualmente, se com a ajuda de ferramentas como o Puppet
– A experiência em cluster filesystems e no caso do Oracle, serem os DBAs actualmente a gerir o filesystem de suporte às Base de Dados (Oracle ASM) são importantes para entender como gerir a peça fundamental do Hadoop: o HDFS.
Há muita coisa nova a aprender, quer no mundo do Big Data, quer no mundo relacional, o melhor DBA será aquele que se adaptará às necessidades de forma a resolver problemas concretos.
Fica a imagem:
Luís Marques
Oracle ACE


0 Comments