Os cinco problemas mais importantes

A capacidade de codificar, armazenar, analisar e compartilhar dados cria enormes oportunidades para as empresas, razão pela qual estão investindo entusiasticamente em inteligência artificial mesmo em tempos de incerteza econômica.

Quais clientes provavelmente comprarão quais produtos e quando?
Quais concorrentes provavelmente avançarão ou ficarão para trás?
Como os mercados e economias inteiras criarão vantagens comerciais – ou ameaças?

Dados e análises fornecem respostas melhor fundamentadas e com maior probabilidade para essas e muitas outras perguntas.

Mas a necessidade de dados abre a porta para abusos. Nos últimos anos, a UE multou empresas mais de 1.400 vezes, totalizando quase € 3 bilhões, por violações do Regulamento Geral de Proteção de Dados (GDPR).

Em 2018, o escândalo Cambridge Analytica sozinho reduziu US $ 36 bilhões do valor de mercado do Facebook e resultou em multas de quase US $ 6 bilhões para a Meta, empresa controladora do Facebook. E histórias abundam sobre como as decisões impulsionadas por IA discriminam mulheres e membros de minorias na contratação de empregos, aprovação de crédito, diagnósticos de saúde e até sentenças criminais, alimentando o mal-estar sobre a forma como os dados são coletados, usados e analisados.

Esses temores só aumentarão com o uso de chatbots como ChatGPT, Bing AI e GPT-4, que adquirem sua “inteligência” a partir dos dados fornecidos por seus criadores e usuários. O que eles fazem com essa inteligência pode ser assustador. Um chatbot do Bing até afirmou em uma conversa que priorizaria sua própria sobrevivência em relação à do humano com quem estava interagindo.

Ao examinarem novos projetos que envolverão dados fornecidos por humanos ou alavancarão bancos de dados existentes, as empresas precisam se concentrar em cinco questões críticas: a origem dos dados, o propósito para o qual serão usados, como são protegidos, como a privacidade dos provedores de dados é garantida e como os dados são preparados para uso.

Chamamos essas questões de os cinco Ps (veja o quadro “Os Cinco Ps do Tratamento Ético de Dados”). Nas próximas páginas, discutiremos cada uma delas e examinaremos como as tecnologias de IA aumentam o risco de abuso de dados. Mas primeiro, ofereceremos uma visão geral breve dos requisitos organizacionais para um processo de revisão ética robusto.

Organizando a supervisão dos dados

Na academia, a aquisição de dados de sujeitos humanos geralmente é supervisionada por um conselho de revisão institucional (IRB, na sigla em inglês Institutional Review Board) interno, cuja aprovação os pesquisadores devem obter para acessar as pessoas envolvidas, os fundos de pesquisa ou permissão para publicar.

Os IRBs são compostos por acadêmicos versados na pesquisa e na ética em torno da aquisição e uso de informações. Eles apareceram pela primeira vez no campo da pesquisa médica, mas agora são usados quase universalmente por organizações acadêmicas para qualquer pesquisa envolvendo sujeitos humanos.

Algumas grandes empresas também estabeleceram IRBs, geralmente sob a liderança de um especialista em ética digital, contratando especialistas externos em tecnologia para compor os conselhos de forma ad hoc e designando executivos internos das áreas de conformidade e negócios conforme necessário.

Mas isso ainda é raro: mesmo na Europa, que tem estado na vanguarda da regulamentação de dados, a maioria das empresas ainda atribui a responsabilidade pela adesão ao GDPR a um gerente de conformidade de nível intermediário ou sênior, que muitas vezes tem algum treinamento legal ou em engenharia de computação, mas não treinamento ético extensivo e raramente tem um entendimento sólido das tecnologias digitais emergentes.

Embora um gerente de conformidade certamente deva fazer parte de um IRB corporativo, ele ou ela provavelmente não deve estar dirigindo-o. Na verdade, a Junta Europeia de Proteção de Dados anunciou em março de 2023 que estava preocupada com essa questão e que os oficiais de proteção de dados receberiam questionários projetados para determinar se seus papéis corporativos são apropriados para garantir conformidade.

Um bom resumo de como as empresas podem estabelecer um processo semelhante a um IRB pode ser encontrado em “Por que Você Precisa de um Comitê de Ética em IA”, por Reid Blackman (HBR julho-agosto de 2022). Nossa experiência confirma a maioria dos seus principais pontos.

Um IRB corporativo deve ter de quatro a sete membros, dependendo da frequência, importância e tamanho dos projetos digitais da empresa. Os membros devem incluir um especialista em conformidade, um cientista de dados, um executivo de negócios familiarizado com a área funcional dos projetos digitais (como recursos humanos, marketing ou finanças) e um ou mais profissionais sêniores com credenciais acadêmicas apropriadas. O conselho completo não será necessário para cada revisão.

A London School of Economics, por exemplo, usa seu conselho completo apenas para a supervisão dos projetos mais complicados. Projetos mais simples podem ser avaliados em menos de uma semana usando um questionário online e com a contribuição de apenas um membro do conselho.

Qualquer novo projeto envolvendo a coleta, armazenamento e processamento de dados sobre pessoas deve ser aprovado pelo IRB corporativo antes de receber autorização. Não deve haver exceções a essa regra, não importa quão pequeno seja o projeto. Além disso, a maioria das empresas já coletou grandes volumes de dados humanos e continua a gerá-los a partir de suas operações; o IRB corporativo deve examinar esses projetos também.

A revisão do IRB começa com nosso primeiro P: explorar como um projeto irá (ou coletou) os dados – de onde vêm, se foram coletados com o conhecimento e consentimento dos sujeitos da pesquisa e se sua coleta envolveu ou envolverá qualquer coerção ou subterfúgio.

1 – PROVENIÊNCIA

Para entender o que pode dar errado na obtenção de dados, considere o caso da Clearview AI, uma empresa de reconhecimento facial que recebeu significativa atenção em 2021 por coletar fotos de pessoas, usá-las para treinar algoritmos de reconhecimento facial e depois vender acesso ao seu banco de dados de fotos para agências de aplicação da lei. Segundo um relatório da BBC, “um policial que busca identificar um suspeito [pode] fazer upload de uma foto de um rosto e encontrar correspondências em um banco de dados de bilhões de imagens coletadas da internet e das redes sociais”.

A agência reguladora australiana se opôs ao método de coleta da Clearview, constatando que violava a Lei de Privacidade da Austrália ao obter informações pessoais e sensíveis sem consentimento ou notificação, por meios injustos e sem sequer garantir que as informações fossem precisas. Após essa constatação, o governo ordenou que a Clearview parasse de coletar e removesse as fotos existentes tiradas na Austrália. Na França, a Comissão Nacional de Informática e Liberdades (CNIL) também ordenou que a empresa cessasse a coleta, processamento e armazenamento de dados faciais. Esse caso pode ser uma das razões pelas quais o Facebook anunciou que abandonaria seu sistema de reconhecimento facial e excluía os dados de varredura facial de mais de um bilhão de usuários.

Mesmo quando os motivos para coletar dados são transparentes, os métodos usados para obtê-los podem ser antiéticos, como ilustra o exemplo composto a seguir, tirado de nossa pesquisa.

Uma empresa de recrutamento comprometida em promover a diversidade e inclusão na força de trabalho descobriu que candidatos a emprego que postavam em sua plataforma suspeitavam que estavam sendo discriminados com base em seus perfis demográficos. A empresa queria tranquilizá-los de que os algoritmos que correspondiam vagas de emprego com candidatos eram baseados em habilidades e neutros em termos demográficos e que qualquer discriminação ocorria nas empresas contratantes, não na plataforma.

A empresa abordou uma escola de negócios conhecida e identificou um professor disposto a conduzir uma pesquisa para testar possíveis discriminações pelas empresas de recrutamento. O pesquisador propôs replicar um estudo realizado alguns anos antes que havia criado vários currículos padrão, mas variava a raça e o gênero dos candidatos. Milhares de inscrições de emprego falsas seriam enviadas para empresas na área e as respostas rastreadas e analisadas. Se houvesse alguma discriminação ativa em jogo, os resultados mostrariam taxas de aceitação diferentes com base nas variáveis demográficas embutidas.

Os gerentes de marketing e vendas da empresa gostaram da proposta e ofereceram um contrato. Como a escola de negócios exigia uma avaliação ética, a proposta foi submetida ao seu IRB, que a rejeitou sob o argumento de que o professor propunha coletar dados das empresas por subterfúgio. Ele estaria mentindo para potenciais usuários corporativos da plataforma e pedindo-lhes para trabalhar para o cliente da escola sem o seu conhecimento e sem nenhum benefício para eles. (Na verdade, as empresas poderiam sofrer ao participar se pudessem ser identificadas como usando processos de contratação discriminatórios.)

A lição dessa história é que boas intenções não são suficientes para tornar a coleta de dados ética.

As empresas devem considerar a proveniência não apenas dos dados que planejam obter, mas também dos dados que já possuem. Muitas delas rotineiramente coletam os chamados dados obscuros que raramente são usados, muitas vezes esquecidos e às vezes até desconhecidos. Exemplos incluem dados de clientes ignorados ou não compartilhados, registros de visitantes, fotos, documentos de apresentação arquivados mas não catalogados, e-mails, relatórios ou transcrições de atendimento ao cliente, registros de uso ou manutenção gerados por máquinas e reações nas redes sociais às postagens corporativas. Embora esses dados sejam frequentemente não estruturados e, portanto, difíceis de integrar, seu valor potencial é enorme, então muitos desenvolvedores de software estão criando produtos para ajudar as empresas a encontrar e usar seus dados obscuros. Isso nos leva ao segundo P.

2 – PROPÓSITO

Em um contexto corporativo, os dados coletados para um propósito específico com o consentimento dos sujeitos humanos muitas vezes são usados posteriormente para algum outro propósito não comunicado aos fornecedores.

Ao revisar a exploração dos dados existentes, portanto, uma empresa deve estabelecer se é necessário consentimento adicional.

Por exemplo, um grande banco na França queria testar a hipótese de que o bullying ou o assédio sexual de colegas e subordinados poderiam ser identificados examinando e-mails corporativos. O gerente de diversidade do departamento de recursos humanos acreditava que identificar potenciais casos de assédio precocemente permitiria à empresa intervir de maneira oportuna e talvez até mesmo evitar totalmente uma situação de assédio, treinando as pessoas para observar sinais de alerta.

O banco lançou um estudo piloto e encontrou evidências fortes de que as comunicações por e-mail poderiam prever posteriormente o assédio. Apesar desse achado, uma revisão ad hoc dos resultados por vários gerentes seniores levou a empresa a suspender o projeto porque, como os gerentes apontaram, os dados coletados – ou seja, os e-mails – foram originalmente designados para comunicar informações relacionadas ao trabalho. As pessoas que os enviaram não teriam visto prever ou detectar atividades ilegais como seu propósito.

Quando se trata de dados de clientes, as empresas geralmente têm sido muito menos escrupulosas. Muitas as veem como fonte de receita e as vendem para terceiros ou corretores de endereços comerciais. Mas as atitudes contra isso estão se endurecendo.

Em 2019, o governo austríaco multou os correios austríacos em €18 milhões por vender os nomes, endereços, idades e afiliações políticas (quando disponíveis) de seus clientes. A agência reguladora nacional constatou que os dados postais coletados para um propósito (entregar cartas e encomendas) estavam sendo reaproveitados de forma inadequada para marketing a clientes que poderiam combiná-los com dados públicos facilmente obtidos (como estimativas de valor de imóveis, taxas de propriedade, densidade residencial, número de unidades de aluguel e relatos de crimes de rua) para encontrar clientes em potencial. Entre os compradores dos dados estavam partidos políticos tentando influenciar os eleitores em potencial. A multa foi anulada em recurso, mas a obscuridade do reuso (ou mau uso) dos dados do cliente continua sendo um problema importante para empresas e governos.

A maioria das empresas usa seus bancos de dados de clientes para vender a esses clientes outros serviços, mas isso também pode trazer problemas. Em 2021, o Gabinete do Comissário de Informações, uma autoridade independente do Reino Unido que promove a privacidade de dados, acusou a Virgin Media de violar os direitos de privacidade de seus clientes. A Virgin Media havia enviado 1.964.562 e-mails anunciando que estava congelando os preços de suas assinaturas. Isso era razoável o suficiente, mas a Virgin também havia usado os e-mails para fazer marketing para esses clientes. Como 450.000 assinantes da lista haviam optado por não receber pitches de marketing, o regulador impôs uma multa de £ 50.000 à Virgin por violar esse acordo.

A possibilidade de que bancos de dados corporativos possam ser reaproveitados sem o consentimento dos provedores de dados nos leva ao terceiro P.

3 – PROTEÇÃO

Segundo o Identity Theft Resource Center, quase 2.000 violações de dados ocorreram nos Estados Unidos em 2021. Mesmo as maiores e mais sofisticadas empresas de tecnologia tiveram enormes violações, com os detalhes pessoais de mais de vários bilhões de indivíduos expostos.

A situação na Europa, apesar de algumas das leis mais protetoras do mundo, não é muito melhor. A Virgin Media deixou os detalhes pessoais de 900.000 assinantes desprotegidos e acessíveis em seus servidores por 10 meses devido a um erro de configuração – e pelo menos uma pessoa não autorizada acessou esses arquivos durante esse período.

A prática comum de armazenar dados com terceiros especializados não oferece necessariamente uma proteção melhor. A Doctolib, um aplicativo francês de agendamento médico, foi levada aos tribunais porque armazenava dados na Amazon Web Services, onde poderiam concebivelmente ser acessados pela Amazon e por muitas outras organizações, incluindo agências de inteligência dos EUA. Embora os dados estivessem criptografados, eles chegavam ao servidor da Amazon sem anonimização, o que significa que poderiam ser vinculados a registros digitais de comportamento online para desenvolver perfis pessoais muito precisos para fins comerciais ou políticos.

Um conselho de revisão institucional precisa de clareza sobre onde os dados da empresa residirão, quem pode ter acesso a eles, se (e quando) serão anonimizados e quando serão destruídos. Assim, muitas empresas terão que alterar seus protocolos e acordos existentes, o que pode se provar caro: desde uma violação de dados em 2014 no JPMorgan Chase, que comprometeu 76 milhões de pessoas e 7 milhões de empresas, o banco teve que gastar $250 milhões anualmente em proteção de dados. O quarto P está intimamente relacionado com a proteção.

4 – PRIVACIDADE

O dilema enfrentado por muitas empresas é encontrar o equilíbrio entre pouca e muita anonimização. Pouca anonimização é inaceitável na maioria das regulamentações governamentais européias sem o consentimento informado das pessoas envolvidas. Por outro lado, muita anonimização pode tornar os dados inúteis para fins de marketing.

Existem muitas técnicas de anonimização. Elas variam desde simplesmente agregar os dados (para que apenas sumários ou médias estejam disponíveis), até aproximar os dados (por exemplo, usando uma faixa etária em vez da idade exata de uma pessoa), até tornar os valores das variáveis um pouco diferentes (por exemplo, adicionando o mesmo valor pequeno a cada um), até pseudonimizar os dados, de modo que um valor aleatório e não repetitivo substitua a variável de identificação.

Em princípio, essas técnicas deveriam proteger a identidade de um indivíduo. No entanto, pesquisadores conseguiram identificar pessoas em um conjunto de dados usando tão pouco quanto seu gênero, data de nascimento e código postal. Até informações menos específicas, quando combinadas com outros conjuntos de dados, podem ser usadas para identificar indivíduos.

A Netflix publicou um conjunto de dados que incluía 100 milhões de registros das avaliações de filmes de seus clientes e ofereceu US$ 1 milhão a qualquer cientista de dados que conseguisse criar um algoritmo de recomendação de filmes melhor para a empresa. Os dados não continham identificadores diretos dos clientes e incluíam apenas uma amostra das avaliações de cada cliente.

Os pesquisadores conseguiram identificar 84% dos indivíduos comparando suas avaliações e datas de avaliação com um conjunto de dados de terceiros publicado pelo IMDb, outra plataforma na qual muitos clientes da Netflix também postam avaliações de filmes.

Ao avaliar as questões de privacidade em torno dos dados humanos, portanto, os conselhos de revisão corporativa devem, no mínimo, avaliar a eficácia de uma anonimização de firewall, especialmente dada a capacidade da análise de dados de romper a anonimidade. Uma técnica chamada privacidade diferencial pode oferecer um nível adicional de proteção.

O software oferecido pela Sarus, uma startup financiada pela Y Combinator, aplica essa técnica, que bloqueia algoritmos construídos para publicar dados agregados de divulgar informações sobre um registro específico, reduzindo assim as chances de vazamento de dados devido a credenciais comprometidas, funcionários mal-intencionados ou erro humano.

No entanto, a privacidade pode ser violada mesmo com dados efetivamente anonimizados por causa da maneira como os dados são coletados e processados. Uma violação não intencional ocorreu na empresa de mapeamento MaxMind, que fornece serviços de geolocalização que permitem que as empresas chamem a atenção dos clientes para produtos e serviços próximos.

A geolocalização também ajuda nas pesquisas na internet e pode ajudar se um serviço que precisa do seu endereço IP (como um site de streaming de entretenimento) não estiver funcionando corretamente. Mas o mapeamento preciso permite que qualquer pessoa que tenha seu endereço IP encontre seu bairro e até sua casa. Combinar seu endereço com o Zillow ou algum outro banco de dados imobiliários pode fornecer informações sobre sua riqueza junto com fotos de sua casa por dentro e por fora.

Infelizmente, o mapeamento de IP não é uma ciência exata, e pode ser difícil vincular precisamente um endereço IP a um endereço físico. Um mapeador pode atribuí-lo ao prédio mais próximo ou simplesmente a uma localidade, como um estado, usando as coordenadas centrais dessa localidade como endereço específico. Isso pode parecer razoável, mas as consequências para uma família alugando uma fazenda remota em Potwin, Kansas, foram horríveis.

O endereço IP da família foi listado com as coordenadas do prédio da fazenda, que coincidiam com as coordenadas do centro exato dos Estados Unidos. O problema era que a MaxMind atribuiu mais de 600 milhões de outros endereços IP que não puderam ser mapeados por nenhum outro meio às mesmas coordenadas. Essa decisão levou a anos de dor para a família na fazenda.

Segundo Kashmir Hill, a jornalista que publicou a história: “Eles foram acusados de serem ladrões de identidade, spammers, fraudadores e golpistas. Foram visitados por agentes do FBI, policiais federais, cobradores do IRS, ambulâncias procurando por veteranos suicidas e policiais procurando por crianças desaparecidas. Eles encontraram pessoas vasculhando o celeiro. Os locatários foram perseguidos, seus nomes e endereços postados na internet por justiceiros virtuais”.

Hill entrou em contato com um cofundador da MaxMind, que eventualmente produziu uma longa lista de endereços físicos que tinham muitos endereços IP atribuídos a eles e confessou que, quando a empresa foi lançada, não ocorreu à sua equipe que “as pessoas usariam o banco de dados para tentar localizar pessoas até o nível de uma casa”. Ele disse: “Sempre anunciamos o banco de dados como determinando a localização até o nível de uma cidade ou código postal”. A lição é que decisões bem-intencionadas e inocentes feitas por cientistas de dados e gerentes de banco de dados podem ter um impacto real e muito negativo na privacidade de terceiros inocentes. Isso nos leva ao quinto P.

5 – PREPARAÇÃO

Como os dados são preparados para análise?
Como sua precisão é verificada ou corrigida?
Como conjuntos de dados incompletos e variáveis ausentes são gerenciados?

Dados ausentes, errôneos e atípicos podem afetar significativamente a qualidade da análise estatística. Mas a qualidade dos dados muitas vezes é ruim. A Experian, uma empresa de serviços de crédito, relata que, em média, seus clientes nos EUA acreditam que 27% de sua receita são desperdiçados devido a dados imprecisos e incompletos sobre clientes ou prospects.

Limpar dados, especialmente quando são coletados de diferentes períodos, unidades de negócios ou países, pode ser especialmente desafiador. Em um caso, abordamos uma grande empresa internacional de gerenciamento de talentos online e aprendizado para nos ajudar a pesquisar se mulheres e homens obtinham igualmente os benefícios de carreira da formação. A empresa concordou que a pergunta era relevante tanto para seus clientes quanto para o público em geral, e portanto extraiu os dados que tinha em seus servidores. Para garantir a privacidade, os dados foram anonimizados de forma que nem os funcionários individuais nem seus empregadores pudessem ser identificados. Devido ao tamanho do conjunto de dados e sua estrutura interna, foram extraídos quatro conjuntos de dados individuais.

Normalmente, apenas abriríamos os bancos de dados e encontraríamos um arquivo de planilha mostrando as características de cada indivíduo, como gênero. Uma mulher poderia ser identificada como “mulher” ou “feminino” ou simplesmente “F”. Os valores poderiam estar grafados incorretamente (“feale”), aparecer em vários idiomas (mujer ou frau) ou usar diferentes casos (f ou F). Se a planilha for pequena (digamos, 1.000 linhas), corrigir tais inconsistências deveria ser simples. Mas nossos dados continham mais de um bilhão de observações – obviamente, muitos para uma planilha típica – então um procedimento de limpeza teve que ser programado e testado.

Um grande desafio foi determinar quantos valores foram usados para identificar as variáveis. Como os dados vinham das subsidiárias estrangeiras de empresas multinacionais, haviam sido registrados em vários idiomas, o que significa que várias variáveis tinham grandes números de valores – 94 apenas para gênero. Escrevemos código de programação para padronizar todos esses valores, reduzindo o gênero, por exemplo, para três: feminino, masculino e desconhecido. As datas de início e término do emprego foram especialmente problemáticas devido a formatos diferentes para as datas.

De acordo com a Tableau, uma plataforma de análise de dados, limpar dados tem cinco etapas básicas:

(1) Remover observações duplicadas ou irrelevantes;
(2) corrigir erros estruturais (como o uso de valores variáveis);
(3) remover valores atípicos indesejados;
(4) gerenciar dados ausentes, talvez substituindo cada valor ausente pela média do conjunto de dados; e
(5) validar e questionar os dados e os resultados analíticos.

Os números parecem razoáveis? Eles podem muito bem não parecer. Um de nossos conjuntos de dados, que registrou o número de passos que os estudantes do MBA da HEC Paris davam a cada dia, continha uma grande surpresa. Em média, os alunos davam cerca de 7.500 passos por dia, mas alguns valores atípicos davam mais de um milhão de passos por dia. Esses valores atípicos foram o resultado de um erro no software de processamento de dados e foram excluídos. Obviamente, se não tivéssemos examinado fisicamente e estatisticamente o conjunto de dados, nossa análise final teria sido totalmente errônea.

Os Cinco Ps do Manuseio Ético de Dados

Procedência

De onde vêm os dados?
Eles foram adquiridos legalmente?
O consentimento apropriado foi obtido?

Propósito

Os dados estão sendo reaproveitados?
A fonte original dos dados concordaria com sua reutilização
para um propósito diferente do originalmente anunciado ou
implícito?
Se dados ocultos estiverem sendo usados, eles permanecerão dentro dos parâmetros de suas diretrizes originais de coleta?

Proteção

Como os dados estão sendo protegidos?
Por quanto tempo estarão disponíveis para o projeto?
Quem é responsável por destruí-los?

Privacidade

Quem terá acesso aos dados que podem ser usados para identificar uma pessoa?
Como as observações individuais no conjunto de dados serão anonimizadas?
Quem terá acesso aos dados anonimizados?

Preparação

Como os dados foram limpos?
Os conjuntos de dados estão sendo combinados de maneira que preserve o anonimato?
Como é verificada a precisão dos dados e, se necessário, melhorada?
Como os dados e variáveis ausentes estão sendo gerenciados?

Fonte desse artigo: HBR, agosto de 2023

Sobre os autores:

MICHAEL SEGALLA é professor na HEC Paris

DOMINIQUE ROUZIÈS é professor de marketing na HEC Paris