Portfólio técnico

Projetos que já desenvolvi e os detalhes técnicos de cada um

Esta página reúne somente projetos reais, com contexto, stack, arquitetura, métricas e pontos técnicos que costumam aparecer em entrevistas.

IA aplicada LLMs, RAG, agentes, avaliação e automação
Dados Python, Databricks, pipelines, busca e retrieval
Projetos Corporativos, acadêmicos e projetos autorais

Frentes principais

Casos reais para lembrar o que fiz

FNDE

Estruturação de ecossistema de dados em Azure e Databricks

Atuação na coordenação e estruturação de ambiente analítico com Arquitetura Medallion, pipelines escaláveis, rotinas de qualidade e governança, além da consolidação de um ecossistema de ciência de dados voltado à padronização e à colaboração.

  • Desafio: sair do dado fragmentado para uma base confiável e reutilizável.
  • Stack: Azure, Databricks, Python, Jupyter, CI/CD, governança de dados.
  • Gancho de entrevista: arquitetura, fundação analítica e visão sistêmica.
BBTS

Calendário inteligente de pagamentos com contratos em PDF

Criação de sistema automatizado para extrair cláusulas financeiras de contratos, gerar calendário de pagamentos e apoiar auditoria com LLMs, LangChain, CrewAI e Databricks.

  • Desafio: transformar documento não estruturado em fluxo operacional confiável.
  • Stack: LangChain, CrewAI, Databricks Workflows, Delta Lake, LLMs.
  • Gancho de entrevista: IA aplicada a auditoria, extração e automação de decisão.
Compass UOL

RAG e agentes para conformidade normativa na Petrobras

Construção de soluções com LLMs para extração de informações técnicas em PDFs, RAG de normativos, validação humana em Streamlit e versionamento de prompts e métricas com MLflow.

  • Desafio: melhorar recuperação de contexto e confiabilidade das respostas.
  • Stack: Python, LLMs, RAG, Streamlit, MLflow, CrewAI, FAISS.
  • Gancho de entrevista: avaliação de prompts, retrieval e LLMOps.
EVCOMX

Evolução de regex para LLMs em extração técnica

Evolução de pipelines de extração a partir de regex para uma abordagem com LLMs, prompts few-shot, interface de validação e Human-in-the-Loop para melhoria contínua.

  • Desafio: sair de regras rígidas para extração mais robusta e adaptável.
  • Stack: Python, regex, LangChain, Streamlit, CrewAI, avaliação iterativa.
  • Gancho de entrevista: transição entre heurística, NLP e IA generativa.
Projeto próprio

Search Performance Assistant para avaliação de retrieval

Desenvolvimento de uma aplicação em Python para demonstrar busca semântica com TF-IDF, indexação vetorial, fallback sem FAISS e avaliação de qualidade com múltiplas estratégias de Recall@K.

  • Problema: mostrar de forma prática como medir recuperação de documentos e explicar trade-offs de um pipeline de busca.
  • Arquitetura: separação entre ingestão, vetorização, indexação, retrieval, camada de assistant, interface desktop e testes automatizados.
  • Stack: Python, scikit-learn, TF-IDF, FAISS, similaridade de cosseno, Tkinter e unittest.
  • Diferencial técnico: fallback para busca por similaridade quando FAISS não está disponível, mantendo a demo executável em ambiente local simples.
  • Métrica: avaliação com Semantic Recall@K, ID Recall@K e Hybrid Recall@K para comparar recuperação por conteúdo e por identificador esperado.
  • Gancho de entrevista: arquitetura de busca, vetorização, avaliação de retrieval, tratamento de dependência opcional e desenho de solução explicável.

Projetos acadêmicos

Projetos de pesquisa e aplicação

Graduação

Aplicação de técnicas de reconhecimento de entidades nomeadas em textos jurídicos

TCC do IESB orientado a NLP jurídico em português do Brasil, comparando dois modelos spaCy ajustados ao domínio legal e entregando também um protótipo acessível ao usuário.

  • Problema: documentos jurídicos são extensos, complexos e difíceis de estruturar manualmente.
  • Metodologia: ajuste fino dos modelos pt_core_news_sm e pt_core_news_lg com o corpus LeNER-Br.
  • Resultados: F1-score de 81,42% no modelo small e 83,76% no modelo large; destaque para TEMPO e LEGISLAÇÃO.
  • Entrega: aplicativo web em Streamlit publicado no Hugging Face para comparação dos modelos e uso prático.
  • Detalhe técnico importante: comparação entre modelos small e large, avaliação por F1-score e publicação de protótipo acessível ao usuário final.
MBA

Aplicação de CNNs na classificação de imagens de raio X para COVID-19

Monografia da USP focada no desenvolvimento e validação de um modelo de deep learning para apoio ao diagnóstico da COVID-19 a partir de imagens de tórax.

  • Problema: acelerar e apoiar a identificação de casos em contexto de alta demanda diagnóstica.
  • Metodologia: construção de base com 2.089 imagens, aumento de dados, grid search e CNN em Python/TensorFlow.
  • Resultados: 98,40% de acurácia no conjunto de teste e 96,88% de validação com configuração otimizada.
  • Entrega: código público no GitHub e comparação com trabalhos correlatos da literatura.
  • Detalhe técnico importante: uso de data augmentation, grid search, validação experimental e comparação com literatura correlata.