Lakehouse com Databricks Free Edition¶

Este projeto implementa um pipeline Lakehouse no Databricks Free Edition usando a Arquitetura Medalhao.

O trabalho utiliza um banco não relacional no MongoDB Atlas criado a partir da base ai_job_market_insights.csv. O pipeline extrai todas as collections desse banco para JSON na Landing e processa os dados nas camadas Bronze, Silver e Gold.

Objetivo¶

O objetivo principal e demonstrar um fluxo completo de Engenharia de Dados:

recepcao dos arquivos brutos;
extracao de collections de um banco não relacional;
persistencia dos dados em Delta Lake;
tratamento e aplicacao de Data Quality;
criacao de tabelas analiticas;
execucao orquestrada por Job no Databricks.

Fluxo Geral¶

MongoDB Atlas -> JSON/Landing -> Bronze -> Silver -> Gold

Cada etapa foi implementada em um notebook separado, permitindo que o pipeline seja executado de forma modular ou encadeado em uma Job.

Schemas Criados¶

Schema	Papel
`workspace.landing`	Entrada dos arquivos brutos
`workspace.bronze`	Dados em Delta Lake com estrutura da origem
`workspace.silver`	Dados tratados e qualificados
`workspace.gold`	Modelo dimensional para analise

Como Ler Esta Documentacao¶

Comece pela pagina de arquitetura para entender a divisao das camadas. Depois consulte a base de dados, os notebooks e a configuracao da Job no Databricks.