Portfólio Técnico | Flávia Gaia

Mapa do portfólio

Escolha a frente que mais faz sentido para a conversa

Dados, auditoria e analytics Documentos, NLP e OCR Busca, RAG e assistants Agentes, automação e plataforma

Projetos em destaque

Se você só tem cinco minutos, comece por aqui

Quatro projetos que resumem minha atuação, um por frente técnica. O catálogo completo segue logo abaixo.

IA generativa e RAG

Assistente de IA generativa (RAG) para atendimento no setor público

Projetei e implementei um assistente de IA generativa (RAG) em produção para apoiar o atendimento sobre mais de 20 programas de bolsas, auxílios e prestação de contas no setor público federal, em dois canais: um app de consulta assistida e um assistente de redação de respostas no Outlook.

O que desenvolvi: arquitetura RAG completa com camada de respostas curadas (anti-alucinação), fila de curadoria, roteamento automático, observabilidade por programa e busca híbrida com fallback entre modelos.

Ver detalhes

Dados e analytics

Auditoria de notas fiscais com PySpark, Databricks e Genie

Engenharia analítica em big data para investigar inconsistências em transações, com tabelas analíticas, consultas em PySpark e dashboard.

Impacto: cerca de 20% de inconsistências detectadas e redução de metade do tempo de auditoria.

Ver detalhes

Documentos e NLP

Leitura de contratos e calendário de pagamentos com IA

Extração de cláusulas financeiras de contratos em PDF, construção de calendário esperado de pagamentos e monitoramento de divergências.

Impacto: contratos pagos na data correta, gerando economia financeira direta e mais controle para a auditoria interna.

Ver no GitHub Ver detalhes

Busca e RAG

RAG NLP SQL com LangChain, OpenAI e SQLite

Perguntas em linguagem natural sobre base relacional, combinando recuperação semântica do schema com geração e execução de SQL.

Ver no GitHub Ver detalhes

Agentes e plataforma

MCP Docs Assistant com FastMCP e busca BM25

Servidor MCP read-only para consulta de documentação local, expondo recursos, ferramentas e prompts para clientes compatíveis com MCP.

Ver no GitHub Ver detalhes

Dados, auditoria e analytics

Quality, leitura operacional, machine learning tabular e indicadores analíticos

Esta frente reúne projetos de PySpark, Databricks, analytics operacional, detecção de inconsistências, leitura territorial e modelos aplicados a bases tabulares.

Interface ilustrativa do dashboard de auditoria de notas fiscais

Segunda interface ilustrativa do dashboard de auditoria de notas fiscais

Auditoria de notas fiscais com PySpark, Databricks e Genie

Estruturação de tabelas e consultas em PySpark dentro de notebooks no Databricks para investigar erros em transações bancárias que impactavam a análise de notas fiscais.

Objetivo: estruturar leitura confiável de inconsistências em grande volume de dados.
Entrega: tabelas analíticas, consultas em PySpark e visualização por tipo de inconsistência.
Stack: PySpark, notebooks Databricks, modelagem analítica, Genie e camada de dashboard.
Destaque técnico: engenharia analítica em big data, qualidade de dados e atualização automatizada.

Auditoria de transações bancárias com Random Forest

Projeto de machine learning voltado à priorização de inconsistências e sinais de risco em dados transacionais para apoiar auditoria, análise e tomada de decisão.

Objetivo: classificar sinais de risco e priorizar transações para análise.
Entrega: classificação supervisionada de transações suspeitas com atributos derivados.
Stack: Python, pandas, scikit-learn, matplotlib, pyarrow, joblib e unittest.
Destaque técnico: classificação supervisionada em base tabular e explicabilidade para apoio analítico.

Ver no GitHub

Outlier Detection Lab para inconsistências e anomalias

Laboratório de detecção de outliers e anomalias em bases grandes para identificar extremos, combinações improváveis e sinais que merecem revisão manual.

Objetivo: identificar anomalias, extremos e combinações improváveis para revisão.
Entrega: comparação entre abordagens estatísticas e modelos não supervisionados.
Stack: Python, pandas, scikit-learn, análise estatística robusta e ML não supervisionado.
Destaque técnico: combinação de métodos estatísticos e modelos não supervisionados para auditoria.

Ver no GitHub

Perfil cadastral com CadÚnico amostral

Projeto inspirado em microdados amostrais para analisar renda, situação cadastral, vulnerabilidade familiar e priorização territorial.

Objetivo: transformar microdados sociais em leitura gerencial e territorial.
Entrega: indicadores de vulnerabilidade, perfil cadastral e visão territorial.
Stack: Python, pandas, numpy, Streamlit e Plotly.
Destaque técnico: construção de indicadores sociais e priorização territorial.

Ver no GitHub

Indicadores sociais e leitura territorial

Dashboards e análises que transformam bases públicas em leitura territorial, comparação de programas e apoio analítico.

Bolsa Família vs BPC por território

Comparação territorial para entender composição do gasto social e dependência relativa entre programas.

Ver no GitHub

Mapa de judicialização e concentração do BPC

Painel para leitura municipal de concentração do benefício e sinais de judicialização.

Ver no GitHub

Painel de evolução territorial do Bolsa Família

Acompanhamento territorial com combinação de leitura social e monitoramento operacional.

Ver no GitHub

ML clássico, séries temporais e experimentos tabulares

Casos com regressão, classificação, forecasting e laboratórios de anomalia em bases estruturadas.

Baseline de regressão linear para óbitos por Covid-19

Série temporal diária construída a partir de dados públicos para modelagem com baseline interpretável.

Ver no GitHub

Loan Default XGBoost

Predição de inadimplência em base tabular com foco em classificação supervisionada e leitura de risco.

Ver no GitHub

Anomaly Detection Lab sklearn

Laboratório complementar de anomalia com técnicas estatísticas e algoritmos não supervisionados.

Ver no GitHub

Sales Forecasting GRU

Experimento de previsão de vendas com comparação entre arquiteturas sequenciais.

Ver no GitHub

Documentos, NLP e OCR

Leitura documental, classificação textual, scraping e extração de informação

Esta frente reúne PDFs, OCR, classificação, consistência documental, NLP e monitoramento textual.

Tela de calendário e monitoramento do projeto de pagamentos

Tela de alertas e auditoria do projeto de pagamentos

Leitura de contratos, calendário de pagamentos e escalonamento com IA

Solução para leitura de contratos em PDF, extração de cláusulas financeiras, construção de calendário esperado de pagamentos e monitoramento de divergências.

Objetivo: transformar documentos não estruturados em fluxo financeiro monitorável.
Entrega: leitura de contratos, extração de cláusulas e construção de calendário esperado.
Stack: Python, regex, processamento de PDFs, arquitetura analítica e camada de agentes.
Destaque técnico: extração contratual, conciliação financeira e automação de fluxo operacional.

Ver no GitHub

Technical Request Document Assistant

Fluxo integrado de leitura de solicitações técnicas, extração estruturada de campos em PDF e recuperação de documentos de referência relacionados.

Objetivo: estruturar leitura documental e consulta de referências em uma interface única.
Entrega: extração estruturada de PDFs e recuperação de documentos de apoio.
Stack: Python, reportlab, pypdf, pandas, scikit-learn e Streamlit.
Destaque técnico: extração estruturada em PDF, retrieval semântico e desenho de assistente documental.

Ver no GitHub

Engineering Document Consistency AI

Pipeline para extração de cláusulas, busca semântica, detecção de inconsistências e revisão humana em dashboard.

Objetivo: comparar documentos, recuperar trechos relevantes e apoiar revisão de inconsistências.
Entrega: comparação entre documentos e recuperação semântica de trechos relacionados.
Stack: Python, reportlab, pypdf, pandas, scikit-learn, Streamlit e Plotly.
Destaque técnico: governança documental, comparação entre documentos e retrieval semântico.

Ver no GitHub

Gráfico de distribuição de artigos por tema no projeto de web scraping

Gráfico com entidades mais frequentes no projeto de web scraping

Political and Economic News Intelligence Dashboard

Projeto de web scraping com `newspaper3k` para coletar notícias, estruturar base analítica, aplicar NLP e entregar dashboard interativo.

Objetivo: coletar, enriquecer e visualizar conteúdo de notícias em uma estrutura analítica.
Entrega: pipeline de scraping, NLP e dashboard com distribuição temática e entidades.
Stack: Python, newspaper3k, pandas, spaCy, Streamlit e Plotly.
Destaque técnico: coleta automatizada, NLP aplicado a notícias e visualização executiva.

Ver no GitHub

Extração, classificação e entendimento textual

Casos com tags, classificação de texto, triagem e leitura operacional de solicitações e documentos.

LLM Tag Extraction Lab

Comparação entre baseline rígida, fuzzy matching, few-shot prompting e validação humana.

Ver no GitHub

Maintenance Request Classification

Classificação supervisionada para rotear solicitações de manutenção com base em texto e atributos operacionais.

Ver no GitHub

Ticket Classification Pipeline

Pipeline de classificação para chamados e organização de filas orientadas por categoria e prioridade.

Ver no GitHub

Fake News Detection

Classificação binária de notícias falsas versus confiáveis com pipeline textual e PyTorch.

Ver no GitHub

OCR, jurídico e automação documental

Projetos orientados a OCR, extração estruturada, preenchimento automático e apoio a fluxos jurídicos.

Document Auto Fill OCR

Pipeline para extração de campos em documentos via OCR com preenchimento automatizado.

Ver no GitHub

Processo Judicial OCR

Leitura de documentos jurídicos com OCR e estruturação da informação para análise operacional.

Ver no GitHub

Judicial Settlement MVP

MVP para apoio à avaliação de acordos com OCR, enriquecimento externo e estruturação explicável.

Ver no GitHub

Invoice Processing UiPath

Automação documental para contas a pagar com foco em OCR e rotinas operacionais.

Ver no GitHub

Busca, RAG e assistants

Recuperação de contexto, ranking e aplicações com respostas orientadas por evidência

Aqui entram experimentos de retrieval, geração assistida, Q&A documental e pipelines de busca híbrida.

Diagrama de arquitetura do assistente RAG: respostas curadas, busca vetorial hibrida e fallback entre modelos.

Assistente de IA generativa (RAG) para atendimento no setor público

Projetei e implementei, de ponta a ponta, um sistema de Retrieval-Augmented Generation em produção para apoiar o atendimento sobre mais de 20 programas de bolsas, auxílios e prestação de contas no setor público federal. A solução atua em dois canais: um aplicativo de consulta assistida para a equipe e um assistente integrado ao Outlook que resume mensagens e redige rascunhos de resposta, sempre com revisão humana antes do envio.

O que desenvolvi: a arquitetura RAG completa, dos dados à interface, com foco em precisão e confiabilidade.
Anti-alucinação: camada de respostas curadas antes da geração e fila de curadoria (revisar e publicar), garantindo exatidão em valores, prazos e legislação.
Roteamento e humano no circuito: encaminhamento automático para a área responsável e revisão obrigatória dos rascunhos antes do envio.
Observabilidade: painel de desempenho por programa, telemetria das interações e mapeamento das perguntas não respondidas para melhoria contínua.
Recuperação: busca vetorial híbrida (densa e esparsa), fallback resiliente entre modelos com circuit breaker e confidence scoring.
Plataforma: controle de acesso por papel, base de conhecimento interna e chat de equipe.
Stack: Python, Streamlit, Databricks (Apps, Vector Search, Delta Lake, SQL Warehouse), embeddings BGE-large e LLMs com fallback.

Ver apresentação Projeto interno (código não público)

RAG NLP SQL com LangChain, OpenAI e SQLite

Aplicação em Python para responder perguntas em linguagem natural sobre uma base SQL, combinando recuperação de contexto semântico do schema com geração e execução de SQL.

Objetivo: permitir exploração analítica de base relacional por linguagem natural.
Entrega: interface para perguntas sobre dados com contexto semântico e geração assistida de SQL.
Stack: Python, LangChain, langchain-openai, langchain-community, SQLAlchemy, SQLite, Streamlit e BM25Retriever.
Destaque técnico: uso de RAG fora do cenário clássico de documentos e navegação analítica sobre base relacional.

Ver no GitHub

Interface do projeto Search Performance Assistant

Search Performance Assistant para avaliação de retrieval

Aplicação em Python para estudar recuperação de documentos com TF-IDF, indexação vetorial, fallback sem FAISS e uma camada de assistant baseada em evidências recuperadas.

Objetivo: explorar retrieval de forma aplicada, rastreável e comparável.
Entrega: ingestão, indexação, recuperação e visualização dos resultados em interface própria.
Stack: Python, scikit-learn, TF-IDF, FAISS, similaridade de cosseno, Tkinter e unittest.
Destaque técnico: avaliação de retrieval, fallback para dependência opcional e explicação rastreável do ranking.

Ver no GitHub

Interface do projeto Release Notes Generation Assistant

Release Notes Generation Assistant com retrieval e avaliação automática

Aplicação em Python para geração assistida de release notes a partir de contexto de release e pull requests, combinando recuperação por similaridade, heurísticas temáticas e métricas de avaliação.

Objetivo: organizar contexto de release e PRs para geração assistida de notas.
Entrega: geração assistida de release notes com recuperação por similaridade e regras temáticas.
Stack: Python, scikit-learn, TF-IDF, similaridade de cosseno, Tkinter, JSON e unittest.
Destaque técnico: pipeline de NLP aplicado a produto, retrieval explicável e avaliação reproduzível.

Ver no GitHub

Assistants educacionais e documentais

Repositórios focados em Q&A, organização de material, apoio a estudo e perguntas sobre bases de conhecimento.

Academic Paper RAG Search

Busca e perguntas sobre artigos científicos e capítulos técnicos com recuperação orientada a evidência.

Ver no GitHub

Educational RAG Assistant

Assistente educacional com RAG para responder perguntas sobre capítulos, artigos, apostilas e FAQs.

Ver no GitHub

Syllabus to Study Guide RAG

Pipeline que transforma material de curso em guia de estudo, resumo e perguntas de revisão com citação.

Ver no GitHub

Student Support Copilot

Copiloto para dúvidas acadêmicas, regras administrativas e próximos passos.

Ver no GitHub

Retrieval, ranking e experimentos de busca

Experimentos de busca híbrida, ranking e pipelines de recuperação em diferentes domínios.

Visual Product Complaint Retrieval

Recuperação orientada a reclamações e consulta multimodal em contexto de produto.

Ver no GitHub

Hybrid Ranking Product Search

Busca de produtos combinando estratégias diferentes de ranking no mesmo pipeline.

Ver no GitHub

Hybrid Ranking Support Search

Sistema de ranking híbrido para chamados e bases de suporte.

Ver no GitHub

PDF to RAG Rechunking

Experimentos de chunking e rechunking para melhorar qualidade de recuperação em pipelines documentais.

Ver no GitHub

Agentes, automação e plataforma

Ferramentas para agents, workflows, MCP, MLOps e publicação

Esta frente reúne servidores MCP, automações orientadas por agentes, observabilidade e projetos de produto e plataforma.

Capa visual do projeto MCP Docs Assistant

MCP Docs Assistant com FastMCP e busca BM25 em documentação local

Servidor MCP read-only para consulta de documentação local em markdown, expondo recursos, ferramentas e prompts para clientes compatíveis com MCP.

Objetivo: estruturar documentação local em uma interface consumível por clientes MCP.
Entrega: servidor read-only com catálogo, busca e recuperação de documentos em markdown.
Stack: Python, FastMCP, Model Context Protocol, rank-bm25, python-frontmatter, markdown e unittest.
Destaque técnico: estruturação de servidor MCP, busca BM25 e interface para agentes.

Ver no GitHub

Capa visual do projeto MCP SQL Analytics Server

MCP SQL Analytics Server para exploração estruturada de dados

Servidor MCP para analytics em SQL, desenhado para expor ferramentas estruturadas de exploração de tabelas, schema e consultas.

Objetivo: permitir exploração estruturada de dados por agentes em ambiente controlado.
Entrega: servidor MCP com tools para inspeção e consulta analítica.
Stack: Python, MCP, SQL analytics e organização modular orientada a tools.
Destaque técnico: desenho de tools de analytics para agentes e acesso governado a dados.

Ver no GitHub

Curriculo Site publicado com Codex e vibe coding

Desenvolvimento do site pessoal e portfólio profissional, com páginas bilíngues, agenda integrada e publicação em domínio próprio.

Objetivo: consolidar presença profissional em domínio próprio.
Entrega: site bilíngue com home, portfólio, agenda e publicação em produção.
Stack: HTML, CSS, JavaScript, GitHub, Vercel, domínio customizado e organização manual de conteúdo técnico.
Destaque técnico: uso de IA assistiva para acelerar prototipação, estruturação de conteúdo e publicação.

Ver no GitHub

Agentes, automação e workflows

Estruturas multiagente, automação orientada por IA, triagem e fluxos que combinam tools e aprovação humana.

AI Support Triage with HITL

Triagem de suporte com human-in-the-loop, recuperação de conhecimento e roteamento automatizado.

Ver no GitHub

Candidate Screening Workflow n8n

Workflow de triagem de candidatos com automação, integração entre etapas e lógica de avaliação.

Ver no GitHub

Learning Path Agents

Agentes para organização e recomendação de trilhas de aprendizado baseadas em contexto e objetivo.

Ver no GitHub

Market Intelligence CrewAI

Estrutura de agentes para coleta, síntese e apoio à análise em cenários de inteligência de mercado.

Ver no GitHub

Data Quality Agent

Agente orientado a enriquecimento, limpeza e melhoria de qualidade em fluxos de dados.

Ver no GitHub

Crédito e agentes de domínio

Repositórios orientados a crédito, atendimento, prevenção de fraude e geração de insights.

Agente de Análise de Crédito

Suporte a leitura de perfil, risco e tomada de decisão em contexto de crédito.

Ver no GitHub

Agente de Atendimento Inteligente

Fluxo de atendimento com PydanticAI e organização mais estruturada das respostas.

Ver no GitHub

Agente de Prevenção a Fraudes

Fluxos para monitorar sinais de fraude e apoiar prevenção e análise operacional.

Ver no GitHub

Agente de Risco de Carteira

Acompanhamento de risco, alertas e leitura de carteira orientada a monitoramento.

Ver no GitHub

MLOps, observabilidade e cloud labs

Repositórios com serving, monitoramento, pipelines de features, Vertex AI, Kubeflow e stacks por cloud.

ML Model Serving Observability

Observabilidade de modelos com métricas, Prometheus, Grafana e acompanhamento operacional.

Ver no GitHub

Feature Store Pipeline Metaflow

Pipeline de features versionado e reproduzível para treino e scoring com Metaflow.

Ver no GitHub

Vertex AI and Kubeflow Labs

Treinos, pipelines e benchmarks com Vertex AI, Kubeflow e workloads de recomendação e visão computacional.

Ver no GitHub

Cloud repositories

Repositórios guarda-chuva para GCP, AWS e Azure com experimentos organizados por plataforma.

GCP

Projetos organizados por tipo de solução, stack e frente técnica

Escolha a frente que mais faz sentido para a conversa

Se você só tem cinco minutos, comece por aqui

Assistente de IA generativa (RAG) para atendimento no setor público

Auditoria de notas fiscais com PySpark, Databricks e Genie

Leitura de contratos e calendário de pagamentos com IA

RAG NLP SQL com LangChain, OpenAI e SQLite

MCP Docs Assistant com FastMCP e busca BM25

Quality, leitura operacional, machine learning tabular e indicadores analíticos

Auditoria de notas fiscais com PySpark, Databricks e Genie

Auditoria de transações bancárias com Random Forest

Outlier Detection Lab para inconsistências e anomalias

Perfil cadastral com CadÚnico amostral

Indicadores sociais e leitura territorial

Bolsa Família vs BPC por território

Mapa de judicialização e concentração do BPC

Painel de evolução territorial do Bolsa Família

ML clássico, séries temporais e experimentos tabulares

Baseline de regressão linear para óbitos por Covid-19

Loan Default XGBoost

Anomaly Detection Lab sklearn

Sales Forecasting GRU

Leitura documental, classificação textual, scraping e extração de informação

Leitura de contratos, calendário de pagamentos e escalonamento com IA

Technical Request Document Assistant

Engineering Document Consistency AI

Political and Economic News Intelligence Dashboard

Extração, classificação e entendimento textual

LLM Tag Extraction Lab

Maintenance Request Classification

Ticket Classification Pipeline

Fake News Detection

OCR, jurídico e automação documental

Document Auto Fill OCR

Processo Judicial OCR

Judicial Settlement MVP

Invoice Processing UiPath

Recuperação de contexto, ranking e aplicações com respostas orientadas por evidência

Assistente de IA generativa (RAG) para atendimento no setor público

RAG NLP SQL com LangChain, OpenAI e SQLite

Search Performance Assistant para avaliação de retrieval

Release Notes Generation Assistant com retrieval e avaliação automática

Assistants educacionais e documentais

Academic Paper RAG Search

Educational RAG Assistant

Syllabus to Study Guide RAG

Student Support Copilot

Retrieval, ranking e experimentos de busca

Visual Product Complaint Retrieval

Hybrid Ranking Product Search

Hybrid Ranking Support Search

PDF to RAG Rechunking

Ferramentas para agents, workflows, MCP, MLOps e publicação

MCP Docs Assistant com FastMCP e busca BM25 em documentação local

MCP SQL Analytics Server para exploração estruturada de dados

Curriculo Site publicado com Codex e vibe coding

Agentes, automação e workflows

AI Support Triage with HITL

Candidate Screening Workflow n8n

Learning Path Agents

Market Intelligence CrewAI

Data Quality Agent

Crédito e agentes de domínio

Agente de Análise de Crédito

Agente de Atendimento Inteligente

Agente de Prevenção a Fraudes

Agente de Risco de Carteira

MLOps, observabilidade e cloud labs

ML Model Serving Observability

Feature Store Pipeline Metaflow

Vertex AI and Kubeflow Labs

Cloud repositories