Apesar de todo o entusiasmo em torno da inteligência artificial generativa, há um obstáculo que limita sua adoção: a tendência da tecnologia de inventar informações, omitir dados e criar tantas possibilidades que se torna difícil descobrir quais realmente serão eficazes. Por isso, a grande maioria das empresas utiliza revisões humanas e ferramentas independentes de teste, mas esses métodos de controle de qualidade são caros e conseguem lidar apenas com uma fração da produção total da IA generativa.
A Amazon desenvolveu uma abordagem melhor para sua gigantesca operação de catálogo de produtos: um sistema baseado em IA generativa chamado Catalog AI, capaz de detectar e bloquear automaticamente dados não confiáveis, gerar ideias para novas páginas de produtos e testar sua eficácia, além de se aprimorar continuamente por meio de feedback de verificações de qualidade e experimentos. Neste artigo, Stefan Thomke, da Harvard Business School, e Philipp Eisenhauer e Puneet Sahni, da Amazon, descrevem o sistema criado pela empresa para realizar controle de qualidade em grande escala sobre conteúdo gerado por IA. Embora a Amazon considere o Catalog AI um trabalho em andamento, os autores acreditam que ele já está suficientemente avançado para que gestores de outras organizações possam aprender com sua experiência.
Apesar do entusiasmo em torno da IA generativa, há um obstáculo que limita sua adoção: a tendência da tecnologia de inventar informações, omitir dados e criar tantas possibilidades que se torna difícil identificar quais serão eficazes. Por essa razão, a grande maioria das empresas hoje recorre a revisões humanas e a ferramentas ou serviços de testes independentes para lidar com as deficiências da IA generativa. No entanto, ambos os métodos de controle de qualidade são caros e conseguem lidar apenas com uma pequena fração da produção total dessa tecnologia.
A Amazon desenvolveu uma solução melhor para sua operação massiva de catálogo de produtos: um sistema baseado em IA generativa, chamado Catalog AI, que detecta e bloqueia dados não confiáveis; gera ideias para novas páginas de produtos e testa sua eficácia; e melhora automaticamente a partir de feedbacks de verificações de qualidade e experimentos. Esse sistema consegue criar e testar dezenas de milhões de hipóteses por ano, em comparação com as milhares que a maioria dos sistemas baseados em trabalho humano é capaz de processar.
Embora muitas organizações estejam tendo dificuldades em obter retorno financeiro sobre seus investimentos em IA, o projeto Catalog AI da Amazon já está gerando valor mensurável. Até o momento, 8% das sugestões do sistema tiveram impacto positivo na receita de vendas. Um de nós (Stefan) conhece outras empresas cujos experimentos online apresentaram taxas de sucesso mais altas (entre 10% e 20%). Porém, essas empresas dependiam de pessoas para gerar hipóteses, e seus sistemas de testes não eram tão automatizados — o que significa que criavam e testavam muito menos hipóteses do que a Amazon. Além disso, a capacidade do sistema da Amazon de se aprimorar automaticamente garante que sua taxa de sucesso aumente com o tempo. Embora a Amazon considere o sistema, lançado em 2023, um trabalho em andamento, acreditamos que ele já está suficientemente desenvolvido para que gestores de outras organizações possam aprender como a empresa realiza o controle de qualidade em grande escala sobre conteúdo gerado por IA.
As deficiências da abordagem tradicional
O catálogo online da Amazon contém centenas de milhões de produtos vendidos para clientes em todo o mundo. Milhões de anúncios de produtos são adicionados e editados diariamente. Os dados — imagens, títulos, descrições e recomendações — precisam ser completos, precisos e atraentes para que os compradores encontrem rapidamente o que procuram. Além disso, clientes recorrentes esperam ver um layout familiar, com imagens, títulos de produtos, descrições e botões de compra que sejam fáceis de localizar e que carreguem rapidamente. As apostas são altas: quando as informações dos produtos estão incompletas, irrelevantes ou incorretas, os clientes deixam de concluir a compra ou devolvem itens que não atenderam às suas expectativas. Em ambos os casos, a Amazon perde dinheiro e a confiança do consumidor.
Para garantir a qualidade dos dados, a Amazon tradicionalmente contou com a expertise de milhares de funcionários especializados em gerenciar anúncios de produtos. A empresa também operava centenas de modelos de aprendizado de máquina, cada um otimizado para uma categoria de produto (como camisas ou televisores) e para um componente do layout (como títulos ou descrições). Os especialistas trabalhavam junto com os modelos para adicionar ou remover informações, identificar imprecisões, consolidar dados, traduzir textos para diferentes idiomas e incorporar informações de fontes terceiras.
Esses modelos tradicionais de aprendizado de máquina têm limitações: funcionam melhor em conjuntos de dados menores e estruturados, e escalá-los para diferentes categorias de produtos é caro. Um modelo treinado para camisas, por exemplo, não pode ser usado de forma econômica para televisores ou qualquer outro produto fora dessa categoria. Em contraste, os grandes modelos de linguagem são treinados em grandes volumes de dados e funcionam em diversas categorias de produtos. Ao substituir modelos tradicionais de aprendizado de máquina por grandes modelos de linguagem, a Amazon simplificou sua infraestrutura tecnológica (menos modelos), sua estrutura organizacional (menos especialistas funcionais) e reduziu custos.
Garantindo a confiabilidade da nova abordagem
Nas primeiras semanas após o lançamento do Catalog AI, cerca de 80% dos resultados eram pouco confiáveis. O sistema inventava informações, omitia dados ou fornecia recomendações que não interessavam aos clientes. Por exemplo, afirmou que uma bomba elétrica tinha 15 cavalos de potência quando essa informação não estava disponível. De forma semelhante, quando questionado sobre o material de um sofá, o modelo forneceu dados sobre o material da estrutura em vez do tecido dos assentos, que era o que mais interessava aos clientes. Para corrigir esses problemas de qualidade e testar a eficácia de possíveis mudanças, a Amazon tomou quatro medidas.
1. Realizar uma auditoria
Para acompanhar o progresso, uma organização precisa conhecer o desempenho inicial do seu sistema. Na manufatura, isso é feito avaliando um processo durante um período estável e usando essas informações para determinar limites de controle. A Amazon fez o LLM gerar milhares de páginas de produtos que já eram conhecidas. Auditores humanos então compararam as páginas geradas pelo LLM com as informações originais, avaliaram sua confiabilidade e analisaram as causas principais de qualquer falha. Isso levou a uma série de melhorias rápidas, que descreveremos a seguir.
2. Implantar barreiras de proteção
Uma “alucinação” — saída falsa ou imprecisa apresentada como verdadeira — normalmente ocorre quando um modelo chega a uma conclusão que não está baseada nos dados de entrada. Uma forma de melhorar a confiabilidade e evitar alucinações é restringir o LLM para que produza saídas derivadas apenas de dados específicos do negócio, e não de informações gerais da web ou de fontes externas não relacionadas. Mas há um dilema: quanto mais liberdade o LLM tiver para acessar dados externos e internos, mais ideias novas o sistema pode explorar, modificar e testar. Por exemplo, ao acessar informações disponíveis na web, o LLM pode sugerir que pratos descartáveis de papel não são compatíveis com lava-louças. Colocar restrições excessivas nos dados de entrada de um LLM reduz sua capacidade de fazer inferências como essa. Por isso, em vez de limitar as entradas do LLM, a Amazon decidiu instalar três outros tipos de restrições.
Regras simples.
Uma forma de garantir confiabilidade é instruir o sistema a rejeitar conteúdos que não sigam certas regras. Uma regra pode ser que um número que descreva peso deve obrigatoriamente vir acompanhado de uma unidade — como quilos ou libras, por exemplo. A Amazon criou uma regra segundo a qual o Catalog AI deve rejeitar sugestões que façam mudanças irrelevantes na listagem atual (como trocar o estilo do produto de “contemporâneo” para “moderno”). Regras simples também determinam a estrutura da página, para que os clientes tenham uma experiência consistente em todo o site.
Perfis estatísticos.
As barreiras funcionam como limites de controle de processos estatísticos em fábricas. Quando variáveis do processo saem desses limites, um alerta é disparado e a causa raiz do problema é investigada. Para criar barreiras desse tipo para modelos de IA generativa, as empresas podem usar dados dos produtos atuais para verificar se a saída está dentro de uma faixa esperada. Por exemplo, um LLM pode gerar informações de produto sobre uma mesa vendida por um fornecedor terceirizado. Os dados de mesas típicas vendidas na loja online da Amazon são usados para gerar os limites de controle. Quando a informação criada pelo LLM fica fora desses limites, o próprio LLM é questionado por outro LLM. Em alguns casos, o primeiro modelo consegue reconhecer seus próprios erros quando é solicitado a explicar a razão de determinada informação.
IA verificando IA.
Um exemplo é justamente o que descrevemos. Mas não é possível ter regras ou barreiras que cubram todas as possíveis saídas da IA. O segundo sistema de IA generativa pode lidar com esses casos. A Amazon usa IA generativa para procurar problemas criados por outra IA generativa. O primeiro LLM, o gerador de conteúdo, é treinado para criar hipóteses; o segundo, o revisor de conteúdo, é treinado para verificar a saída do primeiro. Eles são conectados e automaticamente iniciam conversas, utilizando seus diferentes conjuntos de conhecimentos.
Por exemplo, a Amazon utiliza um modelo de linguagem de grande porte (LLM) para detectar inconsistências entre as páginas de produtos — como verificar se a cor mencionada no título do produto corresponde à cor da imagem. Se for identificada uma discrepância, as alterações nas informações do produto são automaticamente bloqueadas. O sistema de inteligência artificial generativa pode ser questionado pelo revisor de conteúdo com perguntas como: “Por que a nova página do produto é melhor do que a página atual?” Isso obriga o gerador de conteúdo a analisar o resultado e, possivelmente, abandonar sua sugestão anterior.
Para aumentar o rigor das verificações de confiabilidade, o Catalog AI pode se conectar a LLMs internos e externos que foram treinados com diferentes conjuntos de dados. Como esses modelos foram treinados com informações distintas, eles identificam problemas diferentes. Por exemplo, se o LLM gerador cometer um erro de raciocínio e calcular incorretamente o volume de um produto, o LLM revisor — treinado com outro conjunto de dados — provavelmente detectará o erro e poderá bloqueá-lo.
Depois que uma hipótese gerada pela inteligência artificial passa por todas as verificações de qualidade, ela é liberada para uma plataforma de experimentação, onde pode ser avaliada quanto à sua eficácia: a mudança proposta aumentará a receita de vendas ou o número de unidades vendidas?
3. Testar a eficácia
As empresas precisam encontrar maneiras eficientes de avaliar quais das muitas ideias produzidas pela inteligência artificial generativa são realmente eficazes. Anteriormente, os especialistas em catálogo da Amazon criavam regras e algoritmos que aprovavam automaticamente, projetavam e melhoravam os layouts das páginas que julgavam mais eficazes. Essa abordagem apresentava várias limitações: ao criar essas regras e algoritmos, os especialistas incluíam algumas suposições não testadas e utilizavam testes que nem sempre eram automatizados ou economicamente viáveis. Além disso, pesquisas de mercado tradicionais (como grupos focais e questionários) podiam ser enganosas, pois o que os clientes diziam nem sempre correspondia ao que de fato faziam. Isso tornava muito difícil prever as preferências dos consumidores.
Um executivo da Booking.com disse a um de nós (Stefan): “Vemos evidências todos os dias de que as pessoas são péssimas em adivinhar. Nossas previsões sobre o comportamento dos clientes estão erradas nove em cada dez vezes.”
Para descobrir quais mudanças realmente têm impacto sobre os consumidores, a equipe do Catalog AI integrou testes A/B ao fluxo de trabalho do sistema. Testar cientificamente o volume extremamente alto de saídas geradas pela inteligência artificial exige uma infraestrutura de experimentação: instrumentos para registrar cliques, movimentos do mouse e tempos de eventos; fluxos de dados; e cientistas de dados. Várias ferramentas e serviços de terceiros permitem realizar testes com facilidade, mas, para escalar o processo, é necessário integrar essa capacidade de forma completa ao fluxo de trabalho. Na Amazon, essa infraestrutura é totalmente automatizada: todas as alterações de páginas de produtos propostas pelo Catalog AI são submetidas a testes A/B.
Esse processo envolve um experimento controlado que compara duas (ou mais) possibilidades: a opção “A” (o controle, ou campeã) é a listagem atual do produto, enquanto a opção “B” (a desafiadora) é uma modificação dessas informações gerada pela IA para atingir um objetivo específico — por exemplo, melhorar a taxa de conversão de clientes. Os usuários são designados aleatoriamente a essas experiências, e métricas compostas são calculadas e comparadas. As métricas devem estar alinhadas com os objetivos estratégicos; as melhores métricas de curto prazo também devem prever resultados de longo prazo. (Ver “O surpreendente poder dos experimentos online”, Harvard Business Review, setembro–outubro de 2017.)
Em um experimento recente envolvendo um produto de cuidados com a pele, o Catalog AI gerou uma descrição desafiadora que se concentrava nos principais benefícios, enquanto a descrição campeã continha uma longa lista de características e seus respectivos benefícios. Embora a campeã detalhasse como cada característica levava a benefícios como desobstruir os poros, melhorar a textura da pele e reduzir a vermelhidão, a versão muito mais curta proposta pela IA simplesmente listava os principais benefícios do produto: pele mais lisa, hidratada e com menos rugas. A versão mais curta aumentou significativamente as vendas entre um grupo de clientes selecionado aleatoriamente.
O sistema baseado em inteligência artificial generativa da Amazon é capaz de criar e testar dezenas de milhões de hipóteses por ano, em comparação com os milhares que a maioria dos sistemas baseados em trabalho humano consegue realizar.
Outros experimentos revelaram que o LLM estava omitindo alguns benefícios dos títulos dos produtos. Por exemplo, a remoção pelo sistema de IA das palavras “pele radiante” do título do produto — mudando de “Sabonete Líquido Corporal com Manteiga de Manga para Pele Radiante, 400 ml (Pacote com 4)” para “Sabonete Líquido Corporal com Manteiga de Manga, 400 ml, Pacote com 4” — teve um impacto negativo nas vendas.
No geral, os experimentos mostraram que cerca de 40% do conteúdo gerado por IA que passa nas verificações de confiabilidade da Amazon melhora as métricas principais de desempenho, como a conversão de compradores em vendas, ou não tem impacto positivo nem negativo. Os outros 60%, porém, geram resultados significativamente negativos. Esse conteúdo normalmente não é publicado no catálogo da empresa.
4. Criação de um sistema de aprendizado
Um sistema de qualidade ideal deve ser um sistema de aprendizado que melhore continuamente com pouca ou nenhuma intervenção humana. E o sistema da Amazon gera dados que aprimoram o desempenho de seu LLM, tornando-o mais eficaz em desafiar suposições sobre o que os clientes gostam ou não. No entanto, os cientistas da empresa descobriram que ainda vale a pena envolver humanos ocasionalmente para gerar dados de aprendizado melhores. Por exemplo, investigações humanas de experimentos negativos às vezes encontram e corrigem falhas no LLM. Em uma dessas investigações, uma equipe descobriu que o LLM escrevia “sem garantia” como padrão sempre que nenhuma informação era fornecida. À medida que o Catalog AI melhora, no entanto, a participação humana ficará restrita ao design do sistema e a decisões de infraestrutura. Estes são os componentes necessários ao construir um sistema de aprendizado.
Modelo de cliente.
Para acelerar o feedback, as empresas podem desenvolver uma métrica composta que modele as preferências dos clientes. Embora, estritamente falando, um modelo de cliente não seja um requisito para construir um sistema de aprendizado, ele torna o sistema muito mais rápido, desde que seja preciso. Um modelo permite que a empresa obtenha feedback quase instantâneo por meio de experimentos virtuais. De forma semelhante a simulações de colisão de carros feitas em computador em vez de testes com protótipos físicos, testar a saída da IA pode ser feito muito mais rapidamente porque clientes reais deixam de estar envolvidos.
Projetar uma métrica que responda da mesma forma que um cliente típico exige consideração cuidadosa. A empresa deve determinar quais dados incluir e precisa validar isso por meio de muitos experimentos com clientes. O Catalog AI usa um modelo de cliente em conjunto com testes reais, a métrica Catalog Data Quality (CDQ). Ela inclui informações de regras, perfis estatísticos e verificações de confiabilidade. Com o tempo, o CDQ substituirá a maioria dos testes envolvendo clientes reais, acelerando o aprendizado do sistema.
Experimentos multivariados.
Junto com os testes A/B, o sistema da Amazon emprega experimentos multivariados — experiências mais elaboradas que fornecem percepções mais profundas sobre como múltiplas variáveis (como texto, cor e imagens) interagem ou determinam as melhores escolhas de design. Os algoritmos da Amazon encontram padrões e os investigam por meio de experimentos multivariados em produtos cujas páginas têm alto tráfego de clientes e cujo impacto sobre métricas principais de desempenho é estatisticamente significativo. Os experimentos que apresentam resultados mais relevantes (os que têm mais de 1% de impacto positivo em alguma métrica primária e menos de 1% de impacto negativo em outras) são revisados por cientistas de dados em busca de padrões e erros. Dado o volume de tráfego e transações no marketplace da Amazon, até pequenas mudanças em milhões de listagens de produtos podem se traduzir em bilhões de dólares em receita adicional. Empresas com muito menos tráfego terão limiares diferentes para implementar mudanças em comparação com a Amazon.
Embora o objetivo seja que o Catalog AI aprenda automaticamente, as pessoas ainda contribuem com seu processo de aprendizado. Alguns experimentos isolam efeitos e criam exemplos que podem ser compartilhados entre a equipe que gerencia o Catalog AI e os cientistas de dados. Por exemplo, a equipe de Títulos do Catalog AI pode instruir o LLM a gerar títulos de produtos com diferentes comprimentos e diferentes quantidades de informações:
- Brand X Protein Powder vegetal, baunilha, 22g de proteína, 20 porções (75 caracteres)
- Brand X Protein Powder vegetal, baunilha, 22g de proteína, não transgênico, vegano, sem glúten, laticínios ou soja, 20 porções (120 caracteres)
- Brand X Protein Powder vegetal baunilha, 22g de proteína, não transgênico, vegano, sem glúten, laticínios ou soja, sem aromatizantes artificiais, corantes sintéticos, conservantes ou aditivos, 20 porções (180 caracteres).
Os experimentos determinam qual dos três títulos é mais eficaz, e esse é então usado para treinar o LLM. Ao gerar dados de treinamento melhores em várias categorias de produtos, a qualidade da saída do Catalog AI melhorou significativamente: agora, 80% da produção do Catalog AI passa nos testes iniciais de qualidade.
Testes de conceito.
Quando o Catalog AI foi lançado, ele gerava milhões de alterações em listagens que precisavam ser testadas com clientes. Idealmente, cada mudança teria sido testada em um experimento individual, mas muitas listagens de produtos não geram tráfego suficiente para alcançar o tamanho crítico de amostra necessário. (Para alcançar confiança estatística, quanto menor o efeito esperado de uma mudança, maior o número de observações necessárias para diferenciá-la do ruído de fundo.)
Quando o tráfego de clientes não é robusto o suficiente — menos de um milhão de visualizações — a plataforma de experimentação automaticamente testa o conteúdo gerado pela IA agrupando listagens semelhantes em testes de conceito único para gerar insights. Um algoritmo especial agrupa o conteúdo, às vezes de milhares de listagens geradas por IA, por categorias de produtos. (Para produtos que recebem mais de um milhão de visualizações, é feito um experimento individual.) Os grupos são tão pequenos quanto possível, atendendo às exigências de tamanho amostral estatístico. A IA gera milhares de variações para melhorar a descrição de, por exemplo, cafeteiras, que são combinadas em um único experimento de conceito. Os experimentos podem desafiar suposições sobre preferências dos clientes que nunca haviam sido testadas.
Por exemplo, um experimento desafiou uma suposição de longa data feita por especialistas e incorporada aos modelos de ML: de que os consumidores preferiam um forte contraste entre um fundo branco e o produto exibido. O teste de conceito explorou como imagens aprimoradas por IA impactariam o engajamento dos clientes. Milhares de páginas geradas por IA apresentavam sugestões de fundos que mostravam os produtos no ambiente do consumidor. Essas sugestões foram agrupadas em um teste de conceito, que tinha um controle com fundo branco e uma modelo vestindo uma blusa térmica preta. A imagem testada adicionou um fundo enriquecido, colocando a modelo usando a blusa em um cenário interno para ajudar os clientes a visualizarem o produto no uso cotidiano. O experimento concluiu que adicionar o fundo enriquecido aumentava as vendas, e a mudança foi implementada para centenas de produtos básicos de moda.
Aumentar a eficácia dos projetos de IA
Uma vez que sistemas de qualidade estão implementados, eles podem fazer mais do que apenas gerenciar a qualidade da saída gerada por IA; eles também podem ajudar a direcionar recursos para os projetos de IA em andamento que apresentam o maior retorno sobre o investimento. Normalmente, os grupos de negócios que conduzem essas iniciativas apresentam estimativas excessivamente otimistas de seus retornos financeiros previstos, o que, por sua vez, determina a alocação de especialistas e recursos de computação. (De fato, 41% de 2.770 líderes de negócios em seis setores pesquisados pela Deloitte em 2024 afirmaram que suas organizações têm dificuldades para definir e medir o impacto de seus esforços com IA generativa.) Quando, em vez disso, o sistema de qualidade testa a eficácia de novos projetos com clientes, os líderes podem então confiar em evidências concretas para decidir a melhor forma de alocar recursos. Isso também permite que eles revisem a alocação com mais frequência em resposta a testes contínuos.
Por exemplo, um sistema desse tipo permite que uma empresa aprenda com protótipos — para quantificar o impacto do esforço de um projeto em subconjuntos de clientes — antes de avançar com um lançamento mais amplo. Melhorias no Catalog AI frequentemente começam como protótipos e às vezes competem entre si. As equipes realizam experimentos e usam os resultados para defender recursos adicionais para ampliar seus protótipos, e os vencedores são eventualmente lançados. O Project Amelia da Amazon, assistente de IA generativa para vendedores, está sendo gradualmente disponibilizado para mais vendedores enquanto o desempenho do modelo é monitorado e o feedback dos clientes é incorporado.
A experimentação também pode ajudar a gerenciar trade-offs na infraestrutura de IA, como entre desempenho do modelo e custo computacional. Aumentar o tamanho dos LLMs pode trazer apenas benefícios marginais e eles podem levar muito tempo para treinar. Por meio de experimentos, a Amazon descobriu que alguns modelos menores superam os maiores porque exigem menos recursos, podem ser treinados com mais frequência e têm tempos de resposta mais rápidos a consultas de clientes. Outras empresas podem conduzir experimentos semelhantes para decidir o melhor caminho para si mesmas em questões como desenvolver LLMs internamente ou usar modelos de terceiros.
Décadas atrás, o professor da Harvard Business School David Garvin escreveu sobre a vantagem sustentável que sistemas de qualidade conferiam às empresas. Em seu estudo sobre fabricantes de aparelhos de ar-condicionado, ele descobriu que as taxas de falha dos produtos produzidos pelos fabricantes de mais alta qualidade eram entre 500 e 1.000 vezes menores do que os fabricados pelos de menor qualidade. Ele concluiu que alcançar alta qualidade dependia de ter um sistema abrangente de controle de qualidade. A lição de Garvin continua válida na era da IA.
Fonte:
Uma versão deste artigo foi publicada na edição de setembro–outubro de 2025 do periódico Harvard Business Review.
Sobre os autores:
Philipp Eisenhauer é economista sênior na Amazon.
Puneet Sahni é engenheiro principal sênior na Amazon.
Stefan Thomke é Professor de Administração de Empresas na Harvard Business School. Ele é uma autoridade de destaque em gestão de experimentação empresarial e inovação, e já trabalhou com muitas empresas globais em desenvolvimento de produtos, processos e tecnologias. É autor do livro Experimentation Works: The Surprising Power of Business Experiments (HBR Press, 2020).