Correio dos Campos

Viés algorítmico na interpretação de dados

* Por Débora Morales - Mestra em Engenharia de Produção (UFPR) na área de Pesquisa Operacional com ênfase a métodos estatísticos aplicados à engenharia e inovação e tecnologia, especialista em Engenharia de Confiabilidade (UTFPR), graduada em Estatística e em Economia. Atua como Estatística no Instituto das Cidades Inteligentes (ICI)
9 de setembro de 2019 às 18:00

Todos os dias, bilhões de pessoas interagem com interfaces que as ajudam a acessar informações e tomar decisões. À medida que quantidades crescentes de dados se tornam disponíveis, algoritmos baseados em Big Data são difundidos em todos os aspectos da vida cotidiana.

Muitas decisões são tomadas usando modelos preditivos baseados em dados, por exemplo: precificação e recomendações personalizadas, pontuação de crédito, seleção automatizada de currículos de candidatos a emprego, perfis de possíveis suspeitos pela polícia e muitos outros.

A coleta maciça e automatizada de dados ocorre como consequência dos rastros digitais onipresentes que todos geramos em nossas vidas. A disponibilidade de tal riqueza de dados torna sua publicação e análise altamente desejáveis para uma variedade de propósitos. No entanto, existem pelo menos duas ameaças potenciais para indivíduos cujas informações são publicadas: invasão de privacidade e potencial de discriminação.

A invasão de privacidade ocorre quando os valores dos atributos sensíveis publicados podem ser vinculados a indivíduos (ou empresas) específicos. Discriminação é o tratamento injusto ou desigual dado a pessoas com base em membros de uma categoria, grupo ou minoria, sem considerar as características individuais.

Usualmente, as técnicas algorítmicas eliminam os vieses humanos no processo de tomada de decisão, mas um algoritmo é tão bom quanto os dados com os quais trabalha. E a discriminação pode resultar do treinamento de modelos de mineração de dados (por exemplo, classificadores) que são tendenciosos contra certos grupos protegidos (etnia, gênero, religião, preferências políticas etc.).

Modelos preditivos podem discriminar, mesmo que o processo de computação seja justo e bem intencionado. Isso ocorre porque a maioria dos métodos são baseados em suposições de que os dados históricos então corretos e representam bem a população – o chamado viés algorítmico.

Os esforços para garantir a privacidade levaram ao desenvolvimento do controle estatístico de divulgação e mineração de dados preservados. Diferentes modelos e suas variações foram propostos para proteger contra diferentes tipos de ataques, entre eles: k-Anonymity, l-diversity, t-closenees.

A questão da discriminação é considerada a partir de uma perspectiva de mineração de dados, mais precisamente em duas direções: descoberta da discriminação e prevenção da discriminação.

A descoberta visa encontrar padrões discriminatórios usando métodos de mineração de dados. Essa abordagem tipicamente minera as regras de associação e classificação dos dados e, em seguida, avalia essas regras em termos de discriminação potencial.

Uma abordagem estatística mais tradicional para a descoberta de discriminação geralmente ajusta um modelo de regressão aos dados, incluindo os recursos protegidos (como gênero, raça etc.), e analisa a magnitude e significância estatística dos coeficientes de regressão nos atributos. Se esses coeficientes parecerem significativos, a discriminação será sinalizada.

A prevenção da discriminação desenvolve algoritmos que produzem modelos preditivos, garantindo que esses modelos sejam livres de discriminação. O objetivo é ter um modelo (regra de decisão) que obedeça às restrições de não discriminação.

Sendo assim, à medida que os algoritmos se tornam mais comuns na implementação de sistemas tecnológicos, estudar o mundo significa estudar algoritmos. O viés pode abranger uma grande variedade de investigações e questões com importantes implicações de interesse público que demandam escrutínio algorítmico.

Descobrir como os algoritmos se comportam pode levar a uma discussão difícil, mas importante: como nós, a sociedade, queremos que esses algoritmos se comportem?