Lakehouse com Databricks Free Edition¶
Este projeto implementa um pipeline Lakehouse no Databricks Free Edition usando a Arquitetura Medalhao.
O trabalho utiliza um banco não relacional no MongoDB Atlas criado a partir da base ai_job_market_insights.csv. O pipeline extrai todas as collections desse banco para JSON na Landing e processa os dados nas camadas Bronze, Silver e Gold.
Objetivo¶
O objetivo principal e demonstrar um fluxo completo de Engenharia de Dados:
- recepcao dos arquivos brutos;
- extracao de collections de um banco não relacional;
- persistencia dos dados em Delta Lake;
- tratamento e aplicacao de Data Quality;
- criacao de tabelas analiticas;
- execucao orquestrada por Job no Databricks.
Fluxo Geral¶
MongoDB Atlas -> JSON/Landing -> Bronze -> Silver -> Gold
Cada etapa foi implementada em um notebook separado, permitindo que o pipeline seja executado de forma modular ou encadeado em uma Job.
Schemas Criados¶
| Schema | Papel |
|---|---|
workspace.landing |
Entrada dos arquivos brutos |
workspace.bronze |
Dados em Delta Lake com estrutura da origem |
workspace.silver |
Dados tratados e qualificados |
workspace.gold |
Modelo dimensional para analise |
Como Ler Esta Documentacao¶
Comece pela pagina de arquitetura para entender a divisao das camadas. Depois consulte a base de dados, os notebooks e a configuracao da Job no Databricks.