O que é contexto em modelos de linguagem, como a janela de contexto funciona e por que entender contexto é essencial para usar IA com qualidade e custo controlado.

Contexto (em IA)

O Que É Contexto

Contexto, no uso de modelos de linguagem (LLM), é o conjunto de informações que o modelo consegue levar em consideração ao gerar uma resposta numa única interação. Inclui o prompt que você escreveu, as mensagens anteriores da conversa, arquivos anexados, resultados de ferramentas e qualquer system prompt que o produto injete por padrão. Tudo o que está dentro do contexto é visível ao modelo; tudo o que está fora, não existe para ele naquela resposta.

O conceito costuma confundir quem está começando porque “memória” na IA tem significados diferentes. Existe a memória de treinamento — o que o modelo aprendeu nos bilhões de tokens do pré-treinamento, que é fixa e difusa. E existe o contexto — a janela viva da conversa atual, que começa vazia a cada sessão e é preenchida conforme você troca mensagens. Quando alguém diz “a IA esqueceu o que eu falei”, quase sempre o problema não é o modelo ter perdido dados, e sim o contexto ter estourado a capacidade da janela e os turnos antigos terem sido descartados.

Entender contexto é o que separa uso amador de uso profissional de IA. Quem sabe dosar o contexto coloca a informação certa na hora certa, gasta menos tokens e recebe respostas mais precisas. Quem apenas joga tudo no prompt recebe respostas genéricas, paga mais caro e culpa o modelo.

Janela de Contexto

A janela de contexto (context window) é o limite máximo de tokens que um modelo consegue manter na memória de trabalho ao mesmo tempo. Cada modelo tem a sua: janelas pequenas (4K a 8K tokens) comportam poucas páginas de texto; janelas grandes (128K, 200K ou mais) chegam a engolir livros inteiros ou repositórios de código numa única chamada.

A janela funciona como uma fila: conforme novas mensagens entram, as mais antigas podem ser removidas quando o limite é atingido. O que isso significa na prática é que uma conversa longa não é “lembrada” integralmente — ela é truncada pela janela. Por isso, repetir a decisão importante no prompt atual, em vez de confiar que o modelo vai lembrar do turno de vinte mensagens atrás, é uma boa prática.

O tamanho da janela também impacta custo. Um modelo com janela de 128K tokens não cobra igual se você usar 2K ou 120K — normalmente, você paga por token de entrada efetivamente consumido. Então, jogar um PDF de 300 páginas num chat para fazer uma pergunta única pode custar centenas de vezes mais do que extrair a seção relevante antes. Para casos repetitivos, técnicas como RAG ou o uso de MEMORY.md resolvem o problema de forma mais econômica.

Contexto de Sistema, de Usuário e de Ferramenta

Dentro da mesma janela, o contexto costuma ser dividido em três papéis:

System prompt — instruções fixas que definem comportamento, voz e regras. No OpenClaw, costuma carregar a identidade do agente, restrições de segurança e formatação esperada. Fica no topo do contexto e normalmente não muda durante a sessão.
Mensagens de usuário e assistente — o histórico da conversa, com cada turno ocupando tokens. É a parte que cresce e, eventualmente, precisa ser podada.
Resultados de ferramentas — quando o modelo chama uma ferramenta (busca web, leitura de planilha, chamada de API), o resultado volta como contexto adicional. É por aqui que entra informação fresca e específica do negócio, e também por aqui que o custo explode se a ferramenta devolver dezenas de páginas.

A divisão importa porque o modelo lê tudo junto, mas dá peso diferente a cada parte. Um system prompt claro reduz a necessidade de repetir instruções em cada mensagem, economizando tokens e aumentando consistência.

O Que Infla o Contexto (e Como Evitar)

Os maiores consumidores de contexto, em ordem prática:

Histórico longo de chat — turnos antigos que não serão decisivos. Solução: resumir periodicamente, abrir nova sessão para tarefas distintas, mover decisão final para o MEMORY.md.
Anexos grandes — PDFs e planilhas colados inteiros. Solução: extrair só a seção relevante ou usar RAG para recuperação sob demanda.
Resultados de ferramentas verbosos — logs, JSONs completos, respostas de API não filtradas. Solução: pedir à ferramenta um resumo ou campos específicos.
Prompts repetidos — colar as mesmas instruções a cada turno. Solução: mover para system prompt ou skill.

Cada um desses pontos é também um ponto de custo. Reduzir contexto reduz tokens consumidos e, portanto, gasto por interação.

Contexto vs. Conhecimento

Outra confusão comum é misturar contexto com conhecimento. O modelo “sabe” muita coisa do treinamento, mas só “enxerga” o que está no contexto da resposta atual. Isso explica três comportamentos típicos:

Alucinação em dados específicos — o modelo inventa um número de telefone da sua empresa porque o número real não está no contexto. A solução não é um modelo melhor, é colocar o número no contexto (manualmente, via RAG ou via ferramenta).
Resposta genérica — o modelo responde como um professor distante porque falta contexto concreto (público, restrição, exemplo). Um parágrafo de contexto resolve.
Contradição na mesma sessão — em conversas longas, o modelo pode contradizer o que disse antes porque aquela parte saiu da janela. Reintroduzir a decisão no contexto atual resolve.

A regra prática: se uma informação é decisiva para a resposta, ela precisa estar no contexto atual. Se é só “terno de fundo”, pode ficar no MEMORY.md ou num sistema de recuperação.

Por Que Isso Importa para Automação

Em automação com agentes, o contexto é o que diferencia um fluxo robusto de um fluxo frágil. Um agente que carrega contexto correto — identidade do usuário, decisões anteriores, saída de ferramentas relevantes — age com coerência entre passos. Um agente que perde contexto no meio de um workflow repete perguntas, ignora restrições e gera retrabalho.

Por isso, ao montar qualquer automação com IA, vale pensar o contexto como um recurso finito e valioso: o que entra, o que fica, o que sai a cada passo. Produtos como o OpenClaw tratam isso explicitamente com MEMORY.md para persistência entre sessões, skills para instruções reutilizáveis e integrações que filtram o que devolvem ao contexto. O objetivo não é encher a janela, é preenchê-la com o que decide a resposta certa.

Contexto (em IA)

Contexto (em IA)

O Que É Contexto

Janela de Contexto

Contexto de Sistema, de Usuário e de Ferramenta

O Que Infla o Contexto (e Como Evitar)

Contexto vs. Conhecimento

Por Que Isso Importa para Automação

Receba o que ele fez essa semana.