Base de Dados¶
A fonte não relacional utilizada no projeto e o MongoDB Atlas.
O banco ai_job_market foi planejado a partir do arquivo original ai_job_market_insights.csv, armazenado em data/raw/.
Fonte Original¶
| Arquivo | Registros | Colunas |
|---|---|---|
ai_job_market_insights.csv |
500 | 10 |
Collections no MongoDB Atlas¶
Cada coluna do arquivo original foi preparada como uma collection separada. Os arquivos para importar no Atlas estao em data/mongodb/collections/.
Cada documento possui:
id_linha: identificador da linha original;valor: valor da coluna;coluna_origem: nome da coluna original.
| Collection | Registros | Coluna original |
|---|---|---|
job_title |
500 | Job_Title |
industry |
500 | Industry |
company_size |
500 | Company_Size |
location |
500 | Location |
ai_adoption_level |
500 | AI_Adoption_Level |
automation_risk |
500 | Automation_Risk |
required_skills |
500 | Required_Skills |
salary_usd |
500 | Salary_USD |
remote_friendly |
500 | Remote_Friendly |
job_growth_projection |
500 | Job_Growth_Projection |
Extracao Para Landing¶
O notebook 002 - Extracao conecta no MongoDB Atlas, le todas as collections e grava um JSON por collection no volume:
/Volumes/workspace/landing/dados/
Relacionamento Entre Collections¶
Todas as collections se relacionam pelo campo id_linha.
job_title.id_linha
industry.id_linha
company_size.id_linha
location.id_linha
ai_adoption_level.id_linha
automation_risk.id_linha
required_skills.id_linha
salary_usd.id_linha
remote_friendly.id_linha
job_growth_projection.id_linha
Esse desenho permite extrair dados de uma fonte não relacional e reconstruir a linha completa na camada Silver.