002 - Extracao¶
Este notebook representa a primeira etapa do trabalho: extrair todas as collections de um banco não relacional e gravar arquivos JSON na Landing.
Entrada¶
MongoDB Atlas:
Database: ai_job_market
Saida¶
Arquivos JSON no volume:
/Volumes/workspace/landing/dados/
Responsabilidades¶
- Conectar ao MongoDB Atlas.
- Ler as collections da fonte.
- Extrair todos os documentos de cada collection.
- Gerar um JSON para cada collection no volume da Landing.
- Manter o campo
id_linhapara permitir a reconstrucao da base na Silver.
Collections Extraidas¶
job_titleindustrycompany_sizelocationai_adoption_levelautomation_riskrequired_skillssalary_usdremote_friendlyjob_growth_projection
Papel no Pipeline¶
A extracao separa a fonte MongoDB Atlas da camada Lakehouse. Depois dela, a Bronze passa a consumir apenas os arquivos JSON da Landing.