Flávia Gaia | Cientista de Dados & IA

Resumo executivo

O que levo para times de dados e produto

01

IA aplicada a fluxos críticos

Tenho experiência em automação de auditoria, leitura de contratos, extração de cláusulas, conformidade normativa e recuperação de informação técnica com LLMs e sistemas multiagentes.

02

Base sólida em ciência e engenharia

Atuo com Python, Spark, Databricks, Delta Lake, MLflow, Streamlit, LangChain e pipelines orientados a governança, monitoramento e produção.

03

Comunicação e formação contínua

Além da prática profissional, mantenho produção técnica forte, certificações recentes em Data Engineering e pesquisa acadêmica em Ciência dos Dados.

Frameworks e tecnologias

Ferramentas e ecossistemas com os quais já trabalhei na prática

LangChain Langflow LangGraph Flowise AutoGen CrewAI n8n MCP Anthropic Codex Llama Gemini PydanticAI Kiro Antigravity GCP Vertex AI Kubeflow Azure AWS Databricks Metaflow Spark Oracle FastAPI Flask Streamlit PyTorch TensorFlow XGBoost OCR Prometheus Grafana UiPath

Experiência

Frentes em que já atuei com dados, automação e IA aplicada

Dados

Auditoria e análise de dados em escala

Cargo: Cientista de Dados Sênior

Atuação com PySpark, Databricks e SQL em fluxos analíticos, qualidade de dados, leitura de inconsistências, automação de atualização e uso de IA aplicada em apoio operacional.

Documentos

Automação documental e fluxo financeiro

Cargo: Cientista de Dados Sênior / Engenheira de IA Sênior

Desenvolvimento de soluções para leitura de PDFs, extração de regras, organização de fluxo financeiro e automação com apoio de agentes, workflows e persistência analítica.

LLMs

Assistentes documentais com RAG e validação

Cargo: Cientista de Dados Especialista em IA

Criação de soluções com LLMs para extração estruturada de documentos, retrieval, interfaces de validação e evolução de pipelines com rastreabilidade.

NLP

Extração técnica e classificação textual

Cargo: Cientista de Dados / Especialista em IA

Atuação em machine learning, NLP, extração de informação, classificação textual, interfaces de validação e evolução de abordagens heurísticas para IA generativa.

Social

Análise territorial e monitoramento analítico

Cargo: Analista de Dados

Análise de grandes bases, construção de indicadores, monitoramento territorial, dashboards e apoio analítico à leitura de políticas públicas e operação.

Início

Web scraping, NLP e visualização

Cargo: Estagiária de Ciência de Dados

Coleta automatizada de conteúdo, NLP com spaCy, visualização de dados e projetos experimentais com modelagem e deep learning.

Áreas de atuação

Um perfil híbrido entre profundidade técnica, aplicação real e visão de negócio

IA Generativa e LLMOps

Desenvolvimento de soluções com LLMs, RAG, agentes e fluxos estruturados para extração, análise, automação e apoio à decisão em contextos corporativos.

Machine Learning e NLP

Experiência com classificação, modelos supervisionados, processamento de linguagem natural, embeddings, deep learning e aplicações voltadas a texto, documentos e dados não estruturados.

Dados, Arquitetura e Pipelines

Estruturação de ambientes analíticos, pipelines escaláveis, governança, qualidade de dados e arquitetura moderna para dar sustentação a analytics, machine learning e IA.

Analytics e Suporte à Decisão

Análise exploratória, conciliação de bases, dashboards, monitoramento e tradução de dados em leituras claras para áreas técnicas, operacionais e de negócio.

Formação e certificações

Credenciais que sustentam minha prática técnica

Acadêmico

UnB, USP e IESB

Mestrado em Computação Aplicada na UnB, MBA em Inteligência Artificial e Big Data pela USP e bacharelado em Ciência de Dados e Inteligência Artificial pelo IESB.

Pesquisa

Ciência dos Dados e textos jurídicos

Linha de pesquisa em Ciência dos Dados, com estudo sobre reconhecimento de entidades nomeadas em textos jurídicos e base consistente em bancos de dados, mineração de dados massivos e experimentação aplicada.

2025-2026

Data Engineering e Databricks

Certificações recentes em Airflow, Spark, Snowflake, BigQuery, Modern Data Stack e trilhas Databricks ligadas à preparação de dados para machine learning e agentes de recuperação.

Certificações em destaque

Certificações

Databricks

Badge ligado a trilhas de machine learning e ecossistemas modernos de dados.

Retrieval Agents

Construção de agentes de recuperação e fluxos aplicados dentro do universo Databricks.

Palantir Foundry

Formação voltada à construção de soluções de dados e operações com plataformas corporativas.

AIP Foundations

Base complementar em aplicação de IA e workflows sobre o ecossistema Palantir.

Functions, Tools and Agents with LangChain

Especialização no uso de OpenAI Function Calling e ferramentas do LangChain para transformar LLMs em agentes operacionais.

Certificado Profissional de Análise de Dados do Google

Processo completo de análise de dados utilizando BigQuery, R, SQL e Sheets.

Introduction to LangGraph e LangSmith

Formação em orquestração de fluxos com grafos, observabilidade, rastreabilidade e avaliação de aplicações com LLMs, fortalecendo práticas de engenharia de IA.

Experiência acadêmica

Leia os meus TCCs

IESB · 2023

NER em textos jurídicos com spaCy e aplicação publicada

No TCC da graduação, desenvolvi dois modelos spaCy ajustados em português do Brasil para reconhecimento de entidades nomeadas no domínio jurídico, usando o dataset LeNER-Br e publicando um aplicativo funcional no Hugging Face.

Tema: extração de legislação, jurisprudência, pessoas, tempo, local e organização em textos legais.
Resultados: F1 de 81,42% no modelo small e 83,76% no modelo large, com desempenho acima de 80%.
Gancho: pesquisa aplicada com NLP jurídico, avaliação comparativa e entrega utilizável por usuário final.

Ler TCC completo

USP · 2023

CNN para apoio ao diagnóstico de COVID-19 em raio X

Na monografia do MBA, desenvolvi e validei um modelo de redes neurais convolucionais para classificar imagens de raio X do tórax, com foco em apoio ao diagnóstico da COVID-19.

Base criada com 2.089 imagens, sendo 505 casos de COVID-19 e 1.580 casos normais.
Resultados: 98,40% de acurácia no teste, com ajuste de hiperparâmetros e aumento de dados.
Gancho: deep learning aplicado à saúde, desenho experimental e código público no GitHub.

Ler monografia completa

Onde me encontrar

Projetos, publicações e presença técnica

LinkedIn Publicações, artigos e posicionamento profissional. GitHub Código, experimentos e trilhas técnicas da minha prática. Kaggle Notebooks, desafios e exercícios aplicados em ciência de dados. Hugging Face Exploração de IA, modelos e experimentos ligados ao ecossistema open source. Medium Conteúdo autoral sobre grafos, Spark, Python, estatística e bibliotecas de IA.

Contato

Entre em contato comigo e vamos conversar

Sempre estou aberta a novas oportunidades.

WhatsApp flaviaggpaula@gmail.com Falar no LinkedIn Ver portfólio detalhado