Portfólio técnico

Projetos organizados por tipo de solução, stack e frente técnica

Em vez de empilhar tudo na mesma camada, organizei os projetos em quatro frentes principais com destaques e um catálogo complementar.

Dados e analytics PySpark, Databricks, quality, ML tabular e dashboards
Documentos e NLP OCR, PDFs, classificação textual e consistência documental
RAG, agentes e plataforma Busca, assistants, MCP, automação e observabilidade

Mapa do portfólio

Escolha a frente que mais faz sentido para a conversa

Dados, auditoria e analytics

Quality, leitura operacional, machine learning tabular e indicadores analíticos

Esta frente reúne projetos de PySpark, Databricks, analytics operacional, detecção de inconsistências, leitura territorial e modelos aplicados a bases tabulares.

Interface fictícia do dashboard de auditoria de notas fiscais Segunda interface fictícia do dashboard de auditoria de notas fiscais

Auditoria de notas fiscais com PySpark, Databricks e Genie

Estruturação de tabelas e consultas em PySpark dentro de notebooks no Databricks para investigar erros em transações bancárias que impactavam a análise de notas fiscais.

  • Objetivo: estruturar leitura confiável de inconsistências em grande volume de dados.
  • Entrega: tabelas analíticas, consultas em PySpark e visualização por tipo de inconsistência.
  • Stack: PySpark, notebooks Databricks, modelagem analítica, Genie e camada de dashboard.
  • Destaque técnico: engenharia analítica em big data, qualidade de dados e atualização automatizada.

Auditoria de transações bancárias com Random Forest

Projeto de machine learning voltado à priorização de inconsistências e sinais de risco em dados transacionais para apoiar auditoria, análise e tomada de decisão.

  • Objetivo: classificar sinais de risco e priorizar transações para análise.
  • Entrega: classificação supervisionada de transações suspeitas com atributos derivados.
  • Stack: Python, pandas, scikit-learn, matplotlib, pyarrow, joblib e unittest.
  • Destaque técnico: classificação supervisionada em base tabular e explicabilidade para apoio analítico.

Outlier Detection Lab para inconsistências e anomalias

Laboratório de detecção de outliers e anomalias em bases grandes para identificar extremos, combinações improváveis e sinais que merecem revisão manual.

  • Objetivo: identificar anomalias, extremos e combinações improváveis para revisão.
  • Entrega: comparação entre abordagens estatísticas e modelos não supervisionados.
  • Stack: Python, pandas, scikit-learn, análise estatística robusta e ML não supervisionado.
  • Destaque técnico: combinação de métodos estatísticos e modelos não supervisionados para auditoria.
Dashboard do projeto de perfil cadastral com CadÚnico amostral

Perfil cadastral com CadÚnico amostral

Projeto inspirado em microdados amostrais para analisar renda, situação cadastral, vulnerabilidade familiar e priorização territorial.

  • Objetivo: transformar microdados sociais em leitura gerencial e territorial.
  • Entrega: indicadores de vulnerabilidade, perfil cadastral e visão territorial.
  • Stack: Python, pandas, numpy, Streamlit e Plotly.
  • Destaque técnico: construção de indicadores sociais e priorização territorial.

Indicadores sociais e leitura territorial

Dashboards e análises que transformam bases públicas em leitura territorial, comparação de programas e apoio analítico.

Bolsa Família vs BPC por território

Comparação territorial para entender composição do gasto social e dependência relativa entre programas.

Ver no GitHub
Mapa de judicialização e concentração do BPC

Painel para leitura municipal de concentração do benefício e sinais de judicialização.

Ver no GitHub
Painel de evolução territorial do Bolsa Família

Acompanhamento territorial com combinação de leitura social e monitoramento operacional.

Ver no GitHub

ML clássico, séries temporais e experimentos tabulares

Casos com regressão, classificação, forecasting e laboratórios de anomalia em bases estruturadas.

Baseline de regressão linear para óbitos por Covid-19

Série temporal diária construída a partir de dados públicos para modelagem com baseline interpretável.

Ver no GitHub
Loan Default XGBoost

Predição de inadimplência em base tabular com foco em classificação supervisionada e leitura de risco.

Ver no GitHub
Anomaly Detection Lab sklearn

Laboratório complementar de anomalia com técnicas estatísticas e algoritmos não supervisionados.

Ver no GitHub
Sales Forecasting GRU

Experimento de previsão de vendas com comparação entre arquiteturas sequenciais.

Ver no GitHub

Documentos, NLP e OCR

Leitura documental, classificação textual, scraping e extração de informação

Esta frente reúne PDFs, OCR, classificação, consistência documental, NLP e monitoramento textual.

Tela de calendário e monitoramento do projeto de pagamentos Tela de alertas e auditoria do projeto de pagamentos

Leitura de contratos, calendário de pagamentos e escalonamento com IA

Solução para leitura de contratos em PDF, extração de cláusulas financeiras, construção de calendário esperado de pagamentos e monitoramento de divergências.

  • Objetivo: transformar documentos não estruturados em fluxo financeiro monitorável.
  • Entrega: leitura de contratos, extração de cláusulas e construção de calendário esperado.
  • Stack: Python, regex, processamento de PDFs, arquitetura analítica e camada de agentes.
  • Destaque técnico: extração contratual, conciliação financeira e automação de fluxo operacional.
Imagem do projeto Technical Request Document Assistant

Technical Request Document Assistant

Fluxo integrado de leitura de solicitações técnicas, extração estruturada de campos em PDF e recuperação de documentos de referência relacionados.

  • Objetivo: estruturar leitura documental e consulta de referências em uma interface única.
  • Entrega: extração estruturada de PDFs e recuperação de documentos de apoio.
  • Stack: Python, reportlab, pypdf, pandas, scikit-learn e Streamlit.
  • Destaque técnico: extração estruturada em PDF, retrieval semântico e desenho de assistente documental.
Imagem do projeto Engineering Document Consistency AI

Engineering Document Consistency AI

Pipeline para extração de cláusulas, busca semântica, detecção de inconsistências e revisão humana em dashboard.

  • Objetivo: comparar documentos, recuperar trechos relevantes e apoiar revisão de inconsistências.
  • Entrega: comparação entre documentos e recuperação semântica de trechos relacionados.
  • Stack: Python, reportlab, pypdf, pandas, scikit-learn, Streamlit e Plotly.
  • Destaque técnico: governança documental, comparação entre documentos e retrieval semântico.
Gráfico de distribuição de artigos por tema no projeto de web scraping Gráfico com entidades mais frequentes no projeto de web scraping

Political and Economic News Intelligence Dashboard

Projeto de web scraping com `newspaper3k` para coletar notícias, estruturar base analítica, aplicar NLP e entregar dashboard interativo.

  • Objetivo: coletar, enriquecer e visualizar conteúdo de notícias em uma estrutura analítica.
  • Entrega: pipeline de scraping, NLP e dashboard com distribuição temática e entidades.
  • Stack: Python, newspaper3k, pandas, spaCy, Streamlit e Plotly.
  • Destaque técnico: coleta automatizada, NLP aplicado a notícias e visualização executiva.

Extração, classificação e entendimento textual

Casos com tags, classificação de texto, triagem e leitura operacional de solicitações e documentos.

LLM Tag Extraction Lab

Comparação entre baseline rígida, fuzzy matching, few-shot prompting e validação humana.

Ver no GitHub
Maintenance Request Classification

Classificação supervisionada para rotear solicitações de manutenção com base em texto e atributos operacionais.

Ver no GitHub
Ticket Classification Pipeline

Pipeline de classificação para chamados e organização de filas orientadas por categoria e prioridade.

Ver no GitHub
Fake News Detection

Classificação binária de notícias falsas versus confiáveis com pipeline textual e PyTorch.

Ver no GitHub

OCR, jurídico e automação documental

Projetos orientados a OCR, extração estruturada, preenchimento automático e apoio a fluxos jurídicos.

Document Auto Fill OCR

Pipeline para extração de campos em documentos via OCR com preenchimento automatizado.

Ver no GitHub
Processo Judicial OCR

Leitura de documentos jurídicos com OCR e estruturação da informação para análise operacional.

Ver no GitHub
Judicial Settlement MVP

MVP para apoio à avaliação de acordos com OCR, enriquecimento externo e estruturação explicável.

Ver no GitHub
Invoice Processing UiPath

Automação documental para contas a pagar com foco em OCR e rotinas operacionais.

Ver no GitHub

Busca, RAG e assistants

Recuperação de contexto, ranking e aplicações com respostas orientadas por evidência

Aqui entram experimentos de retrieval, geração assistida, Q&A documental e pipelines de busca híbrida.

Imagem do projeto RAG NLP SQL com LangChain, OpenAI e SQLite

RAG NLP SQL com LangChain, OpenAI e SQLite

Aplicação em Python para responder perguntas em linguagem natural sobre uma base SQL, combinando recuperação de contexto semântico do schema com geração e execução de SQL.

  • Objetivo: permitir exploração analítica de base relacional por linguagem natural.
  • Entrega: interface para perguntas sobre dados com contexto semântico e geração assistida de SQL.
  • Stack: Python, LangChain, langchain-openai, langchain-community, SQLAlchemy, SQLite, Streamlit e BM25Retriever.
  • Destaque técnico: uso de RAG fora do cenário clássico de documentos e navegação analítica sobre base relacional.
Interface do projeto Search Performance Assistant

Search Performance Assistant para avaliação de retrieval

Aplicação em Python para estudar recuperação de documentos com TF-IDF, indexação vetorial, fallback sem FAISS e uma camada de assistant baseada em evidências recuperadas.

  • Objetivo: explorar retrieval de forma aplicada, rastreável e comparável.
  • Entrega: ingestão, indexação, recuperação e visualização dos resultados em interface própria.
  • Stack: Python, scikit-learn, TF-IDF, FAISS, similaridade de cosseno, Tkinter e unittest.
  • Destaque técnico: avaliação de retrieval, fallback para dependência opcional e explicação rastreável do ranking.
Interface do projeto Release Notes Generation Assistant

Release Notes Generation Assistant com retrieval e avaliação automática

Aplicação em Python para geração assistida de release notes a partir de contexto de release e pull requests, combinando recuperação por similaridade, heurísticas temáticas e métricas de avaliação.

  • Objetivo: organizar contexto de release e PRs para geração assistida de notas.
  • Entrega: geração assistida de release notes com recuperação por similaridade e regras temáticas.
  • Stack: Python, scikit-learn, TF-IDF, similaridade de cosseno, Tkinter, JSON e unittest.
  • Destaque técnico: pipeline de NLP aplicado a produto, retrieval explicável e avaliação reproduzível.

Assistants educacionais e documentais

Repositórios focados em Q&A, organização de material, apoio a estudo e perguntas sobre bases de conhecimento.

Academic Paper RAG Search

Busca e perguntas sobre artigos científicos e capítulos técnicos com recuperação orientada a evidência.

Ver no GitHub
Educational RAG Assistant

Assistente educacional com RAG para responder perguntas sobre capítulos, artigos, apostilas e FAQs.

Ver no GitHub
Syllabus to Study Guide RAG

Pipeline que transforma material de curso em guia de estudo, resumo e perguntas de revisão com citação.

Ver no GitHub
Student Support Copilot

Copiloto para dúvidas acadêmicas, regras administrativas e próximos passos.

Ver no GitHub

Retrieval, ranking e experimentos de busca

Experimentos de busca híbrida, ranking e pipelines de recuperação em diferentes domínios.

Visual Product Complaint Retrieval

Recuperação orientada a reclamações e consulta multimodal em contexto de produto.

Ver no GitHub
Hybrid Ranking Product Search

Busca de produtos combinando estratégias diferentes de ranking no mesmo pipeline.

Ver no GitHub
Hybrid Ranking Support Search

Sistema de ranking híbrido para chamados e bases de suporte.

Ver no GitHub
PDF to RAG Rechunking

Experimentos de chunking e rechunking para melhorar qualidade de recuperação em pipelines documentais.

Ver no GitHub

Agentes, automação e plataforma

Ferramentas para agents, workflows, MCP, MLOps e publicação

Esta frente reúne servidores MCP, automações orientadas por agentes, observabilidade e projetos de produto e plataforma.

Capa visual do projeto MCP Docs Assistant

MCP Docs Assistant com FastMCP e busca BM25 em documentação local

Servidor MCP read-only para consulta de documentação local em markdown, expondo recursos, ferramentas e prompts para clientes compatíveis com MCP.

  • Objetivo: estruturar documentação local em uma interface consumível por clientes MCP.
  • Entrega: servidor read-only com catálogo, busca e recuperação de documentos em markdown.
  • Stack: Python, FastMCP, Model Context Protocol, rank-bm25, python-frontmatter, markdown e unittest.
  • Destaque técnico: estruturação de servidor MCP, busca BM25 e interface para agentes.
Capa visual do projeto MCP SQL Analytics Server

MCP SQL Analytics Server para exploração estruturada de dados

Servidor MCP para analytics em SQL, desenhado para expor ferramentas estruturadas de exploração de tabelas, schema e consultas.

  • Objetivo: permitir exploração estruturada de dados por agentes em ambiente controlado.
  • Entrega: servidor MCP com tools para inspeção e consulta analítica.
  • Stack: Python, MCP, SQL analytics e organização modular orientada a tools.
  • Destaque técnico: desenho de tools de analytics para agentes e acesso governado a dados.
Interface do projeto Curriculo Site

Curriculo Site publicado com Codex e vibe coding

Desenvolvimento do site pessoal e portfólio profissional, com páginas bilíngues, agenda integrada e publicação em domínio próprio.

  • Objetivo: consolidar presença profissional em domínio próprio.
  • Entrega: site bilíngue com home, portfólio, agenda e publicação em produção.
  • Stack: HTML, CSS, JavaScript, GitHub, Vercel, domínio customizado e organização manual de conteúdo técnico.
  • Destaque técnico: uso de IA assistiva para acelerar prototipação, estruturação de conteúdo e publicação.

Agentes, automação e workflows

Estruturas multiagente, automação orientada por IA, triagem e fluxos que combinam tools e aprovação humana.

AI Support Triage with HITL

Triagem de suporte com human-in-the-loop, recuperação de conhecimento e roteamento automatizado.

Ver no GitHub
Candidate Screening Workflow n8n

Workflow de triagem de candidatos com automação, integração entre etapas e lógica de avaliação.

Ver no GitHub
Learning Path Agents

Agentes para organização e recomendação de trilhas de aprendizado baseadas em contexto e objetivo.

Ver no GitHub
Market Intelligence CrewAI

Estrutura de agentes para coleta, síntese e apoio à análise em cenários de inteligência de mercado.

Ver no GitHub
Data Quality Agent

Agente orientado a enriquecimento, limpeza e melhoria de qualidade em fluxos de dados.

Ver no GitHub

Crédito e agentes de domínio

Repositórios orientados a crédito, atendimento, prevenção de fraude e geração de insights.

Agente de Análise de Crédito

Suporte a leitura de perfil, risco e tomada de decisão em contexto de crédito.

Ver no GitHub
Agente de Atendimento Inteligente

Fluxo de atendimento com PydanticAI e organização mais estruturada das respostas.

Ver no GitHub
Agente de Prevenção a Fraudes

Fluxos para monitorar sinais de fraude e apoiar prevenção e análise operacional.

Ver no GitHub
Agente de Risco de Carteira

Acompanhamento de risco, alertas e leitura de carteira orientada a monitoramento.

Ver no GitHub

MLOps, observabilidade e cloud labs

Repositórios com serving, monitoramento, pipelines de features, Vertex AI, Kubeflow e stacks por cloud.

ML Model Serving Observability

Observabilidade de modelos com métricas, Prometheus, Grafana e acompanhamento operacional.

Ver no GitHub
Feature Store Pipeline Metaflow

Pipeline de features versionado e reproduzível para treino e scoring com Metaflow.

Ver no GitHub
Vertex AI and Kubeflow Labs

Treinos, pipelines e benchmarks com Vertex AI, Kubeflow e workloads de recomendação e visão computacional.

Ver no GitHub
Cloud repositories

Repositórios guarda-chuva para GCP, AWS e Azure com experimentos organizados por plataforma.

GCP