Como transformar o histórico de atendimento do WhatsApp em base de conhecimento para um agente de Atendimento / IA — self-hosted e sem pagar API

Capa do post: histórico do WhatsApp como base de conhecimento para agentes de IA.

O cliente: "né que a gente combinou aquilo em fevereiro?". Você: rola WhatsApp por quarenta minutos atrás da mensagem. O seu agente de IA do lado: zero útil — ele não sabe nem que vocês conversaram.

Esse é o gap mais bobo dos agentes em produção hoje. Onde mora o conhecimento operacional real do dia-a-dia — combinados, briefs, decisões, histórico com cliente — é justamente onde Claude Desktop, Cursor, n8n e LangChain não têm acesso: dentro do WhatsApp.

O Whats Recall fecha esse gap. É um app self-hosted que pareia com seu WhatsApp via Evolution API, vetoriza o histórico com embeddings (OpenAI ou Google), guarda em Postgres com pgvector e expõe a memória de três formas: MCP server (Claude Desktop, Cursor, Continue), Postgres direto (n8n, LangChain, qualquer ferramenta) e um playground RAG no navegador pra debugar antes de plugar em produção. Tudo no seu servidor — nenhuma mensagem sai pra cloud de terceiros.

Repositório aberto: github.com/gitsevero/rag_whatsapp

~/post/toc.txt 8 seções

O problema que ele resolve
Pra quem isso é
Como ele se parece · 4 telas
Setup em ~10 minutos
Três formas de usar a memória
Três princípios que guiaram o produto
Quando isso vira valor de verdade
Aviso · risco de ban

O problema que ele resolve

Boa parte do que importa na operação de um time hoje vive em conversa de WhatsApp: brief de cliente, combinados de prazo, decisões informais, aquele áudio do sócio que ninguém transcreveu. É um acervo enorme — e completamente invisível pros agentes de IA que a gente vem usando.

O Whats Recall faz essa ponte. Liga teu WhatsApp, escolhe os chats que importam, processa, e a partir dali qualquer agente — Claude Desktop, Cursor, um fluxo de n8n, um SDR de IA — passa a "lembrar" do que rolou.

Quando o cliente perguntar de novo "né que a gente combinou X em fevereiro?", a resposta sai em segundos. Com a citação do trecho exato.

Pra quem isso é

Time de atendimento / pós-venda que quer parar de bater cabeça com cliente velho ("já te respondi isso em maio").
PM / fundador / consultor que toma decisão em grupo de WhatsApp e perde os fios.
Agência / estúdio que quer dar contexto histórico pros agentes de IA dos clientes sem entregar todo o WhatsApp pra cloud de terceiro.
Quem já tem agente em n8n / LangChain / Claude e percebeu que falta a peça de "memória do que o cliente disse antes".

Se nada disso é seu caso, esse projeto provavelmente não é pra você — não tem problema. Se é, segue.

O app por dentro · 4 telas

Antes do passo a passo, um overview de como ele se parece. Quatro telas que carregam o conceito do produto — escolha de chats, ingestão ao vivo, curador de memória e o playground RAG.

Lista de conversas do WhatsApp no Whats Recall, em estilo WhatsApp-like com avatares, último snippet e timestamp, com checkboxes pra seleção em massa. — /chatsLista de conversas — escolhe o que vira memória.

Página de ingestão com cards de progresso ao vivo por chat, mostrando contadores de mensagens processadas, chunks gerados e embeddings enviados via SSE. — /ingestPipeline ao vivo — fetch → chunk → embed → upsert via SSE.

Memory explorer com tabela paginada de chunks armazenados no pgvector, com filtro por chat, busca textual e botão de delete por linha. — /memoriaCurador de chunks — filtra, busca, deleta o que não vai pro agente.

Página de histórico mostrando a auditoria de runs de ingestão em SQLite local, com expansão por run mostrando chats processados, status e métricas. — /historicoAuditoria de runs — debug sem gastar token.

Setup em ~10 minutos

Sobe num servidor seu (na sua máquina, num droplet da DigitalOcean, num VPS qualquer). Wizard de três etapas. Em ~10 minutos você está usando.

Criar acesso

E-mail e senha pra proteger o painel. Conta única, no seu servidor — não tem cadastro em nuvem, não tem login social, não tem ninguém com acesso além de você.

Tela de setup inicial do Whats Recall pedindo e-mail e senha pra criar a conta local que vai proteger o app. — /setupConta local — protege o painel e os endpoints API.

Parear o WhatsApp

QR code direto no painel. Escaneia com o número que vai virar memória — vira "aparelho conectado", igual ao WhatsApp Web. A partir desse instante, toda mensagem que chegar já está capturada.

Wizard step 1 mostrando o QR code pra parear o número do WhatsApp como aparelho conectado. — step 01Pareamento via QR — direto no painel, sem ferramenta externa.

Conectar a IA

Cola uma chave da OpenAI ou do Google AI Studio. É o que vai transformar cada conversa em algo pesquisável — você paga só pelo que processa, custo de centavos pra milhares de mensagens.

Wizard pedindo a API key da OpenAI ou do Google AI Studio. — step 02OpenAI ou Google — escolha sua, custo de centavos.

Onde guardar a memória

Conexão com um banco Supabase (que tem free tier generoso). É lá que cada conversa fica indexada pra ser pesquisada depois. O app cria a estrutura sozinho na primeira vez — você só cola três campos e clica em finalizar.

Wizard pedindo as credenciais do Supabase pra guardar a memória. — step 03Banco Supabase — free tier suficiente, app cria a estrutura.

Pronto

Wizard fechado. Você vê todas as conversas do seu WhatsApp, marca as que importam (cliente X, grupo do projeto Y, fornecedor Z), clica em processar e acompanha o progresso ao vivo. Em poucos minutos o agente já está respondendo com base nelas.

Dashboard inicial do Whats Recall após o wizard, esperando a primeira escolha de conversas. — /Pós-setup — escolha as conversas e processe.

Três formas de usar a memória

Esse é o ponto que mais importa. Você não fica preso a um agente. A mesma memória é consumida por três caminhos, e o app entrega a configuração pronta de cada um:

1) Direto no Claude Desktop, Cursor ou Continue

Cola um trecho de configuração que o app gera, e o Claude (ou qualquer outro agente que fala "MCP") passa a poder buscar nas suas conversas como se fosse uma ferramenta nativa. Você pergunta "o que o cliente X falou sobre prazos no início do ano?" e ele puxa.

2) Em automações com n8n, Make, LangChain

Os fluxos que você já tem ganham contexto histórico do WhatsApp. Um SDR de IA que dispara mensagem agora consegue checar antes "esse lead já reclamou disso?". Um agente de cobrança consegue saber o que foi combinado.

3) Playground no navegador, pra testar

Antes de plugar em produção, você testa direto no app: digita a pergunta, escolhe o modelo, e vê a resposta junto com os trechos que foram recuperados. Confiança antes de soltar pro cliente.

Playground do Whats Recall mostrando uma pergunta sobre cliente e a resposta do agente com os trechos do WhatsApp citados. — /agentsPlayground — vê a resposta junto dos trechos que ela usou.

O hub central junta tudo. Você acessa, copia o snippet que precisa pro destino certo, e pronto:

Hub de configuração do Whats Recall com snippets prontos pra cada destino: Claude Desktop, n8n e outros. — /configuracaoHub de conexões — um lugar, snippets prontos pra cada destino.

Três princípios que guiaram o produto

Suas conversas não vão pra cloud de terceiros

Tudo roda no seu servidor. O WhatsApp pareia direto com o app, as mensagens ficam num banco que é seu, e quem consulta é você. Privacidade não é checkbox — é a fundação.

Você decide o que vira memória

Antes de qualquer coisa virar consultável, você escolhe os chats. Depois, na tela de memória, vê cada trecho indexado e pode deletar o que não quer expor pro agente. Conversas pessoais, áudios sensíveis, fofocas — fora se você quiser.

Sem lock-in

A memória vive num banco padrão (Postgres com pgvector — o mesmo que o LangChain, n8n e tantas outras ferramentas usam). Se amanhã você quiser trocar o app por outra coisa, os dados vão junto. Você é dono do que indexou.

Quando isso vira valor de verdade

Cinco cenários onde a memória já paga o setup na primeira semana:

Atendimento ao cliente. Cliente chega com pedido novo, o agente já sabe o que ele reclamou nos últimos seis meses, o que combinaram, o tom da conversa. Resposta sai mais rápida e mais certa.
Pré-reunião comercial. Antes de entrar numa call, o vendedor (ou um agente que prepara o briefing) puxa o histórico daquele lead — o que ele já objetou, o que valorizou, o que foi prometido. Reunião deixa de ser "oi, me lembra de novo o que você precisa?".
Decisões de produto. "Qual feature o cliente X falou que era prioridade em janeiro?" → resposta em 5 segundos com a frase exata, em vez de scroll infinito ou consulta humana.
Cobrança e financeiro. O agente de cobrança consegue saber o que foi negociado antes de mandar a mensagem. Acaba com o "mas a gente combinou de outro jeito".
Onboarding interno. Pessoa nova entrou no time? Em vez de mandar ela rolar 6 meses de WhatsApp do projeto, ela conversa com um agente que já leu tudo.

// para sua empresa

Quer dar memória pros seus agentes?

Na Cave Code a gente desenha e implementa stacks de RAG, agentes e automação sob medida — com acompanhamento diário e código que você entende e controla.

falar com a cave

Código-fonte completo: github.com/gitsevero/rag_whatsapp