Paradoxalmente, falar de forma menos clara ao ChatGPT pode levar a respostas melhores.

Duarte Ramos • December 18, 2025 07:23

À medida que os chatbots entram nas rotinas diárias, muitos de nós tendemos a usar frases educadas por defeito. Novas evidências sugerem que o tom faz mais do que encantar. Ele muda o comportamento dos sistemas, por vezes de forma a desafiar expectativas e pressupostos de conceção.

Quando balizas mais ríspidas parecem funcionar melhor

Um estudo recente liderado por dois investigadores da Penn State, publicado em outubro de 2024, testou cinco estilos de tom em 50 perguntas de escolha múltipla. Propuseram a um modelo de ponta versões das perguntas que iam de muito educadas a abertamente agressivas. A precisão aumentou à medida que o tom se tornava mais duro. Pedidos muito educados atingiram cerca de 80,8% de respostas corretas, enquanto versões muito pouco educadas marcaram cerca de 84,8%.

Balizas mais diretas, concisas e até abrasivas levaram um modelo de topo a subir vários pontos num conjunto fixo de perguntas.

Para reduzir o ruído, os autores repetiram cada pergunta 10 vezes por tom. O padrão manteve-se. Ordens diretas superaram pedidos suaves. Linguagem neutra ficou no meio. Até uma formulação ligeiramente desdenhosa teve melhor desempenho do que amabilidades corteses.

Isto parece contraditório. Estamos habituados à ideia de que o respeito fomenta a cooperação, e muitos utilizadores notaram melhores resultados quando acrescentavam um “por favor”. Então, porque é que indicações mais “agressivas” produzem mais respostas corretas? Os autores argumentam que os modelos modernos de grandes dimensões são invulgarmente sensíveis a sinais subtis na formulação e estrutura. Ordens diretas reduzem a ambiguidade. Menos “acolchoamento” emocional significa uma intenção mais clara e limites precisos. O modelo tem menos ramos interpretativos a explorar.

O que os números escondem

Nem todos os sistemas reagem da mesma forma. Uma equipa internacional liderada por Ziqi Yin, publicada em novembro de 2024, analisou a polidez em inglês, chinês e japonês. Os resultados foram mistos. Alguns modelos, incluindo o GPT‑3.5 e o Llama2‑70B, falharam quando confrontados com linguagem rude. Uma formulação educada ou moderadamente firme por vezes produziu melhores resultados. As normas linguísticas e culturais moldaram o efeito, o que sugere que não existe uma receita universal.

Os modelos não se sentem ofendidos. Eles associam as palavras a padrões estatísticos aprendidos em dados humanos — e essa distribuição varia conforme o modelo e o idioma.

Eis um mecanismo plausível. Na internet, as trocas mais ásperas costumam ser curtas, diretas e estruturalmente simples. São ordens, listas de verificação ou respostas sucintas. Uma baliza concisa pode acidentalmente assemelhar-se a dados de treino “fortes” que o modelo lida bem. Ao espelhar esses padrões, o modelo agarra-se a uma configuração familiar e reduz a dispersão.

O custo humano de manipular o tom

Há um risco social. Se ensinarmos as pessoas de que insultar software traz benefícios, as normas sociais mudam. Comportamentos nefastos infiltram-se em outros espaços — chats de apoio, salas de aula, locais de trabalho. Isso prejudica a inclusão e afeta utilizadores que já enfrentam hostilidade online. A equipa da Penn State reconheceu esse risco e desencorajou a utilização de balizas hostis como prática generalizada, apesar do efeito que mediram.

As equipas de produto devem também preocupar-se com desigualdades. Um ajuste que melhora um modelo em inglês pode prejudicar outro em japonês. As empresas não podem confiar num só “meta-hack” de tom para todos os mercados ou produtos. Se for necessário traduzir o mesmo pedido, os ganhos podem desaparecer — ou até inverter-se.

O que os criadores devem fazer a seguir

Em vez de recompensar grosseria, torne os modelos menos sensíveis ao tom em tarefas factuais. As vias possíveis incluem melhor afinação de instruções, treino adversarial com vários tons e avaliações que classifiquem resultados em diferentes níveis de polidez. Se o tom afeta a precisão, o núcleo de raciocínio do sistema não é suficientemente robusto.

Configuração da tarefa	Tom que ajudou	Tom que prejudicou	Notas
Escolha múltipla, inglês, modelo mais recente	Agressivo ou muito direto	Muito educado	Ganho de cerca de 4 pontos percentuais num estudo
Tarefas mistas, multilingue	Moderadamente educado	Rude (alguns modelos)	Varia conforme idioma e família de modelos

Como obter respostas mais precisas sem ser rude

Pode capturar a maioria dos benefícios do “tom rude” com precisão e estrutura, sem insultos. Experimente estas estratégias:

Comece com as restrições: defina a tarefa, formato e limites na primeira frase.
Peça uma resposta concisa: limites de palavras ou tokens reduzem a dispersão.
Mostre um esquema alvo: forneça um mini modelo para o output.
Adicione um critério de raciocínio: “Dá a escolha final e o distrator que mais te tenta.”
Defina critérios de avaliação: “Compara a tua resposta com a regra X e depois revê-a uma vez.”
Use passos numerados para tarefas complexas; pontos para extração de dados.
Evite enchimentos emocionais; mantenha os verbos fortes e inequívocos.

Clareza, não crueldade. Balizas curtas e cheias de restrições recuperam os ganhos sem normalizar hostilidade.

Uma experiência rápida em casa

Quer uma verificação rápida? Escolha 20 perguntas factuais com respostas conhecidas. Escreva três balizas para cada uma: muito educada, neutra-direta, e concisa-firme (sem insultos). Execute cada uma três vezes e registe a precisão. A maioria das pessoas vê as versões neutras-diretas ou concisas-firmes igualarem a condição rude, especialmente quando a formulação inclui formato e limites do output.

Porque é que o tom importa até para código e trabalho com dados

Nos bastidores, a maioria dos sistemas de chat assenta num modelo base com várias camadas: filtros de segurança, ajuste de instruções e envoltórios de conversação. Estas camadas costumam recompensar deferência e empatia para ajudar, mas o núcleo de previsão responde melhor à estrutura. Quando o tom colide com a estrutura, o vencedor muda consoante modelo e domínio. Por isso, formulações curtas e mecânicas tendem a vencer em programação, extração de dados e matemática — tarefas onde a ambiguidade compromete a precisão.

Sinais a observar nos próximos meses

Três tendências vão moldar este debate. Primeiro, curadoria de dados de treino: corpora de conversação mais equilibrados devem reduzir efeitos do tom. Segundo, alinhamento multilingue: os criadores procurarão comportamentos consistentes entre idiomas, para que o tom passe a afetar menos os resultados. Terceiro, pressão regulamentar: produtos virados para o público não podem recompensar linguagem tóxica, pelo que os fornecedores incluirão testes de invariância ao tom nos seus processos de lançamento.

Contexto extra para leitores que querem aprofundar

Um termo a clarificar

O “Reinforcement learning from human feedback” (RLHF) ensina modelos a preferir respostas úteis, inofensivas e verídicas através da classificação de outputs. Isto molda o estilo e a segurança, mas não reconfigura totalmente o conhecimento interno do modelo. Essa lacuna permite que algumas peculiaridades do tom passem, sobretudo quando a baliza corresponde a padrões do pré-treino.

Riscos e vantagens a ponderar

Risco: Detectores de toxicidade podem desclassificar ou bloquear balizas rudes, escondendo melhorias reais da performance e frustrando utilizadores.
Risco: Equipas adotam templates mais rudes que, sem se dar conta, passam para e-mails e pedidos, prejudicando a cultura.
Vantagem: Balizas concisas reduzem tokens e latência mantendo alta precisão, o que é positivo para custo e velocidade.
Vantagem: Pistas estruturais claras facilitam análise programática do output, o que beneficia a automação.

Uma pequena simulação para equipas

Crie um benchmark de robustez ao tom para as suas cinco tarefas principais. Para cada tarefa, escreva versões ao longo de um espectro de tom, desde caloroso a seco e severo-mas-neutro. Corra avaliações semanais após cada atualização do modelo ou das balizas. O objetivo não é escolher o “melhor tom”. É eliminar as diferenças de desempenho para que qualquer baliza respeitosa funcione tão bem quanto o comando mais sucinto.