Tempo de Leitura:
Olá, navegante dos dados!!! ⛵📊
Neste rápido artigo irei mostrar como realizar o cadastro no Databricks Community para que você possa aprender e fazer algumas POCs podendo utilizar SQL e Spark sem ter custos.
Abaixo eu vou listar um passo a passo, então fique atento a cada um e qualquer dúvida pode me procurar.
Sumário
💡O que é o Databricks?
Se você ainda não conhece, o Databricks é uma plataforma que está extremamente em alta no momento, sendo utilizada por grandes organizações e diferentes profissionais na área de dados (Engenheiros de Dados, Cientistas de Dados, Analistas, etc…).
O Databricks é uma plataforma unificada de análise de dados e aprendizado de máquina, que foi fundada em 2013 por criadores do Apache Spark.
Através de um ambiente colaborativo, permite que equipes de dados trabalhem com big data e inteligência artificial de forma eficiente, integrando dados, ferramentas e fluxos de trabalho. A empresa nasceu da necessidade de simplificar a implementação do Apache Spark e expandir sua capacidade, oferecendo soluções que facilitam o processamento e a análise de grandes volumes de dados.
Com o Databricks nós podemos conectar em diferentes clouds (Azure, GCP, AWS) e desenvolver em diferentes linguagens (Python, SQL, Scala, R). Possui diversas features inovadoras, onde a cada novidade que trazem, atraem mais e mais usuários para a sua plataforma.
Neste artigo, iremos ver o passo a passo de como podemos utilizá-lo de forma gratuita.
🔗Realizando o cadastro na plataforma
1 – Primeiramente, você deve acessar este link para realizar a criação de uma conta no Databricks e após informar os dados necessários, clique em “Continue”:

2 – Você será redirecionado para esta outra página, que te pergunta como você gostaria de começar a usar o Databricks. Aqui nós temos algumas opções de clouds, como Microsoft Azure, AWS e GCP para utilização de forma profissional, onde também podemos conseguir fazer alguns testes de forma gratuita (Free Trial), porém, neste nosso caso, iremos onde tem a opção “Personal Use” e clicar no botão “Get started with Community Edition” para de fato poder conseguir utilizar a versão Community.
Esta versão tem algumas limitações, porém para quem está iniciando é perfeita para entender um pouco do funcionamento do Databricks e realizar algumas POCs.

3 – Ao clicar neste botão, irá abrir uma tela para que você resolva um puzzle e após solucionado, será enviado um e-mail para o endereço que você forneceu anteriormente no cadastro.
4 – Procure o e-mail de boas-vindas que foi enviado para você e clique em “this link” para verificar seu endereço de e-mail. Logo após, será solicitado a criar a sua senha do Databricks.

5 – E “Voilà”, você já estará no Workspace do Databricks Community para poder iniciar algumas brincadeiras e estudar muito também. haha

6 – Para poder conseguir executar os notebooks, é necessário criar e iniciar um cluster. Então iremos no menu e clicar na opção “Compute”, depois “Create Compute”.

Lembrando: Um Cluster, de maneira bem simplificada, é uma arquitetura utilizada que agrupa vários recursos computacionais, combinando vários nós (computadores) para trabalharem em conjunto de forma paralela. Uma dica de leitura para aprender mais, clica no artigo da tecnoblog.
7 – Nesta nova tela, você pode informar o nome que deseja dar ao seu cluster, escolher qual a versão do Runtime você quer utilizar (aqui, a depender do Runtime escolhido você pode ter limitações de features) e depois clicar em “Create Compute”.
Por padrão, será criado um cluster com 15GB de memória, onde o mesmo irá se desligar automaticamente entre um período de 1h ou 2h quando estiver sem uso, mas você também pode pará-lo manualmente.

8 – Após criado ele irá começar a iniciar, até ficar com o símbolo de “check” verdinho.
Perceba no print que alterei a versão do Runtime para 15.4 para exemplificar que você pode escolher a troca. No “Driver Type” é exibido as configurações do cluster atual, contendo 15GB de memória, 2 Cores e 1 DBU.

9 – Voltando em Compute, no lado direto da tela, existe este “quadrado” para parar a execução do cluster. Também existe estes “três pontos”, onde você pode clicar e reiniciar (Restart) o cluster ou deletá-lo. A opção “Clone” aparece, mas não é possível utilizá-la até o momento que escrevo este artigo.

10 – Para realizar a criação do seu primeiro notebook, basta clicar em Workspace, que você já estará neste caminho Workspace > Users > Seu usuário.

11 – No lado direto, teremos algumas opções no “três pontos” como Importar ou Exportar um arquivo ou então clicar no botão “Create” e poder criar uma pasta (folder) ou Notebook. Vamos clicar em Notebook para poder começar a desenvolver.


12 – Ao abrir o notebook, iremos clicar em “Connect” e selecionar o cluster que foi criado.

13 – Agora basta informar qual a linguagem que você quer utilizar na célula selecionada (por padrão vem como Python), criar seu script, clicar na setinha (Run Cell) ou, com a célula selecionada, pressionar CTRL + ENTER do teclado ou clicar no botão “Run All” para executar todas as células e assim ver a magia acontecer… =)

Obs1: Depois que você parar de utilizar o cluster, é necessário a criação de um novo, pois se você tentar iniciar novamente, irá ser informado um aviso que a feature de iniciar cluster está desativada; mas basta deletá-lo e criar um novo que você conseguirá seguir utilizando e fazer os seus desenvolvimentos.
Obs2: Geralmente eu utilizo as plataformas em inglês, porém, se você se sentir mais confortável com português, é possível alterar ou selecionar no início da criação da conta.
🗣️ Possíveis dúvidas
“Rayza, eu consigo acessar um Data Lake da Azure ou outra cloud pelo Databricks ?”
R: Sim, porém, nesse caso é necessário ter uma conta nesta cloud que você irá conectar, então isso pode (a depender do seu uso) te gerar custos.
“Consigo criar mais de um cluster ao mesmo tempo na versão Community?”
R: Não, não consegue. Até o momento que escrevo este artigo, você só pode criar um cluster que irá vir com os padrões que informei acima (15GB , 2 cores, 1 DBU).
“Consigo utilizar o SQL Warehouse na versão Community?”
R: Não, não consegue. A versão Community é limitada, muitas outras features do Databricks estão na versão paga, assim como muitas de Data Engineering e Machine Learning.
“Tenho um notebook em Python criado em outra ferramenta, posso importar para o Databricks?”
R: Sim, desde que esteja em um formato padrão que o Databricks aceite (.dbc, .scala, .py, .sql, .r, .ipynb, .Rmd, .html, .zip). Dependendo do contexto que tenha no desenvolvimento do notebook, pode ter algo que preciso ser adaptado ao contexto do Databricks para que a execução seja com sucesso.
🎯 Considerações finais
Decidi criar rapidamente este artigo devido muita gente ter perguntado lá na terceira edição do Recife Data Saturday, como poderia utilizar o Databricks de forma gratuita. Então, quem falou comigo já corre para realizar o cadastro e começar a brincar um pouquinho com dados!
Espero que tenham gostado e caso tenha alguma dúvida, sugestão, dica, qualquer feedback… deixa um comentário abaixo para que melhore ainda mais os conteúdos e/ou também traga algo que você deseja aprender!
Até o próximo post, pessoal! #SimboraNavegarNosDados
Se você chegou até aqui, parabéns! Acabei de gerar mais dados na internet e, se você gostou, gere mais dados também curtindo e compartilhando este conteúdo. 😄
Sigam nossas redes sociais:
Avalie o nosso conteúdo: