Execucao¶
Esta pagina descreve como executar o projeto no Databricks Free Edition.
Pre-requisitos¶
- Conta no Databricks Free Edition.
- Permissao para criar schemas, volumes e tabelas no workspace.
- Banco
ai_job_marketcriado no MongoDB Atlas. - Collections importadas a partir dos arquivos de
data/mongodb/collections/. - Notebooks
.ipynbdisponiveis na pastanotebooks/.
Importacao dos Notebooks¶
No Databricks:
- Acesse
Workspace. - Escolha a pasta onde deseja importar os notebooks.
- Clique em
Import. - Selecione os arquivos
.ipynbda pastanotebooks/. - Confirme a importacao como notebooks.
Preparacao do MongoDB Atlas¶
No MongoDB Atlas:
- Crie um cluster gratuito.
- Crie o banco
ai_job_market. - Importe os arquivos de
data/mongodb/collections/. - Use o nome do arquivo como nome da collection.
- Copie a connection string do Atlas.
Depois, o notebook 002 - Extracao gera os JSONs no volume:
/Volumes/workspace/landing/dados/
Ordem de Execucao¶
Execute os notebooks nesta ordem:
| Ordem | Notebook | Objetivo |
|---|---|---|
| 1 | 001 - Preparando ambiente |
Cria schemas e volumes |
| 2 | 002 - Extracao |
Extrai collections do MongoDB Atlas para JSON na Landing |
| 3 | 003 - Bronze |
Carrega JSONs como tabelas Delta Bronze |
| 4 | 004 - Silver |
Trata, qualifica e remonta a base pelo id_linha |
| 5 | 005 - Gold |
Cria dimensoes e fato para analise do mercado de IA |
O notebook 006 - Destruindo ambiente nao faz parte da execucao principal. Ele serve para limpar o ambiente em caso de reprocessamento completo.
Validacoes¶
Apos executar o fluxo, valide:
- se as collections existem no MongoDB Atlas;
- se os JSONs foram gerados no volume
workspace.landing.dados; - se as tabelas foram criadas no schema
bronze; - se as tabelas tratadas foram criadas no schema
silver; - se as dimensoes e a fato foram criadas no schema
gold; - se a Job terminou com status de sucesso.