Twitter, Youtube: Seriam os algoritmos discriminatórios?

26/09/2020

O uso de algoritmos para tomada de decisões pode gerar vários problemas, os quais precisam de atenção especial, sobretudo quando envolvem tecnologias alimentadas por algoritmos enviesados, resultando em decisões algorítmicas preconceituosas – racistas, misóginas, machistas etc. (tema inclusive já abordado em coluna passada[1]).

Nos últimos anos, com o crescimento tecnológico e a interação cada vez maior com sistemas algorítmicos, empresas passaram a receber denúncias e acusações no tocante aos seus softwares serem enviesados de alguma forma. Um notório caso que pode ser destacado envolve a gigante Google que fora acusada de que seu aplicativo Google Photos era racista. O aplicativo tem como um dos objetivos o de classificar, sozinho, as fotos de seus usuários. Em 2015, um usuário do Google Photos percebeu que o aplicativo identificava seus amigos negros como gorilas, não sendo o algoritmo capaz de fazer a distinção entre a pele negra e a pele de um gorila. Após o ocorrido, a empresa pediu desculpas e corrigiu o problema[2]. Posteriormente a empresa protagonizou outras acusações envolvendo seu provedor de busca de fotos e algoritmos racistas.

Mais recentemente, o algoritmo da rede social Twitter também recebeu acusações de práticas racistas por dar prioridade a fotos de pessoas brancas. As acusações começaram no dia 19 de setembro e são especificamente quanto ao “corte de imagens” automático para destaque que a própria plataforma faz. Diversos usuários da plataforma começaram a testar a função de cortar fotos do Twitter após alegações de que o algoritmo seria racista.  

Mas como isso funciona? O compartilhamento de fotos no Twitter existe desde 2011, e como uma forma de otimizar a experiência do usuário na plataforma, o algoritmo corta as imagens para que as pessoas consigam ter acesso a maior quantidade possível de tweets, permitindo que a parte “mais relevante” da imagem seja evidenciada. Então, quando alguém faz o upload de imagens em um tweet, a plataforma diminui o tamanho da foto para que ela caiba no espaço de tamanho padrão para as fotos carregadas. Para isso, o algoritmo seleciona uma região da imagem para evidenciá-la. Diante de várias fotos de uma paisagem com uma pessoa em diferentes posições, o algoritmo certamente identificará que na foto existe uma pessoa e colocará seu rosto em destaque.

O problema envolvendo essa função de “corte de imagens” do Twitter restou evidente quando vários usuários fizeram testes colocando pessoas negras e brancas em uma mesma imagem, e o algoritmo repetidamente destacava apenas rostos brancos. Os testes envolveram, inclusive, o arranjo das posições da pessoa branca e da negra de formas diversas, ora com o negro à direita e o branco à esquerda, ora com o negro em cima e o branco embaixo. Um usuário, por exemplo, realizou o experimento utilizando a imagem do senador americano Mitch McConnell junto ao ex-presidente dos EUA, Barack Obama, que resultou no algoritmo priorizando o senador ao ex-presidente Barack Obama[3]. Outros testes, envolvendo uma pessoa branca desconhecida globalmente e o presidente Barack Obama, resultava na priorização do ex-presidente dos EUA. Qual é, então, o ponto nevrálgico da questão?

A justificativa dada para a escolha que o algoritmo faz ao recortar a imagem é feita em um relatório no qual o Twitter explica a técnica de saliência adotada pelos sistemas algorítmicos. Destaca o relatório que:

“O recorte de imagens é uma técnica que permite selecionar as áreas mais relevantes de uma imagem, descartando as inúteis. A seleção feita à mão, especialmente no caso de grandes coleções de fotos, é uma tarefa demorada. As técnicas de recorte automático de imagens podem ajudar os usuários, sugerindo-lhes qual parte da imagem é mais relevante, de acordo com critérios específicos. Supomos que as áreas mais salientes visualmente de uma foto são também as mais relevantes para os usuários”[4].

O algoritmo identifica qual parte da foto é mais importante, descartando o restante, e a “parte mais importante” é considerada pela IA como sendo aquela com maior saliência (maior concentração de contrastes). O relatório aponta que, “nos primeiros três segundos, um observador humano fixa alguns pontos particulares dentro de uma imagem e tende a agrupá-los em áreas visuais significativas” e esses pontos são aqueles com maiores sombreados, com mais luminosidade e maior destaque em relação ao restante da imagem. A ideia é conseguir replicar a experiência da visão humana, evidenciando a parte da foto que receberia maior atenção quando visto por uma pessoa – ou seja, a região com maior saliência[5]. Estamos falando de pontos com maior probabilidade de alguém olhar ao observar uma imagem, e de modo geral as pessoas têm uma tendência a olharem para rostos, textos, cachorros ou pontos com um alto nível de contrastes.  

Com relação à análise de rostos (ponto da imagem com maior probabilidade de uma pessoa olhar), existe uma maior facilidade por parte do algoritmo em identificar rostos brancos aos negros. Isso acontece porque os rostos brancos apresentam maior saliência, ou seja, maior concentração de contrastes em decorrência do cabelo, olhos, pelos faciais etc. Ao passo que o rosto negro apresenta uma menor concentração, dificultando que o algoritmo o destaque como parte mais saliente da imagem.

Então, se estivermos diante da foto de uma pessoa branca e com pelos faciais, a IA priorizará o rosto branco por ser o ponto de maior saliência, pois o algoritmo conseguirá identificar vários pontos de contraste em seu rosto em decorrência da barba, sobrancelha, cabelos, sombra dos olhos etc. Existe uma maior facilidade por parte dos algoritmos em identificar contrastes em rostos brancos com pelos faciais. De igual modo, em sendo a foto de uma pessoa negra, o rosto negro será o ponto com maior saliência da imagem, sendo priorizado pela IA no corte da imagem. Dessa forma, no caso de uma foto contendo dois homens, um negro e um homem branco, o algoritmo priorizará o rosto branco pois classificará ele como sendo o ponto de maior saliência da imagem. Em tese, se nesta mesma hipótese o homem branco não tiver nenhum pelo fácil, sendo inclusive careca ou de cabelos branco e olhos claros, o algoritmo igualmente terá problemas para identificá-lo como sendo o ponto de maior saliência para destaque, podendo, então, priorizar o rosto negro.

O algoritmo da IA é treinado para identificar e destacar o ponto da imagem com maior saliência, dessa forma, analisando o corte de imagens automático do Twitter a partir da descrição do funcionamento de seu sistema algorítmico, é possível identificar um viés racista no resultado?

 Todos os testes realizados pelos usuários da plataforma foram feitos utilizando imagens de um homem negro e de um homem branco, ambos sem pelos faciais, colocados em um mesmo fundo uniforme e tendo o homem branco cabelo preto. Em tese, em sendo o fundo uniforme, o homem branco ter cabelo preto, e de acordo com a detecção de pontos de maior saliência pelo algoritmo, a regra deve ter como resultado o destaque da imagem do homem branco ao invés do negro. Como já apresentado, foi exatamente este o caso. O resultado obtido pela IA, em tese, é exatamente o esperado, uma vez que o algoritmo é treinado para encontrar pontos de maior saliência e o rosto branco apresenta maiores contrastes em relação ao negro.

Tanto que, voltando ao exemplo citado anteriormente envolvendo o presidente Obama, em que repetidos testes destacaram o senador Mitch McConnell (que na imagem tem cabelos branco, não tem nenhum pelo fácil e usa óculos), após um usuário remover os óculos do senador e colocá-lo no ex-presidente dos EUA, o algoritmo de corte do Twitter destacou o Obama. Isso aconteceu pois o rosto do senador deixou de apresentar maior concentração de saliência em relação ao rosto do Obama, que passou a ser o ponto mais relevante da imagem[6].

Apesar dos pouquíssimos resultados em que o rosto negro fora o destacado, podemos dizer que o algoritmo do Twitter está errado? Em tese não. O algoritmo nada mais é do que uma sequência numérica alimentado a partir de um banco de dados repleto de informações que a ele são dadas; o algoritmo faz exatamente aquilo que ele é programado para fazer. Se o algoritmo de corte de fotos do Twitter recebeu comandos para identificar pontos de maior saliência nas imagens, ele não está errado. O problema não está só no resultado que obtemos desse recurso; o problema está naquilo que o algoritmo é programado para fazer. Sabe-se que a IA tem problemas para identificar saliência existente no rosto negro em comparação com o branco, e que assim o rosto branco, inevitavelmente, será priorizado. Então por que utilizar este critério de seleção sabendo que é enviesado?

Essa questão não está nem um pouco distante da problemática existente em torno do uso de tecnologias de reconhecimento facial. A IA de softwares de reconhecimento facial é igualmente menos precisa em se tratando de rostos negros, e encontra maior dificuldade em identificar rostos quanto mais escura for a pele[7]. Carros autônomos apresentam maior probabilidade em atropelar pessoas negras, pois o sistema de reconhecimento facial tem maior facilidade em reconhecer peles claras[8]. As implicações disso para fins de policiamento e políticas sociais são seríssimas, razão pela qual o uso de tecnologias de reconhecimento facial foram proibidas, sobretudo para uso policial, em São Francisco, EUA – cidade berço do Vale do Silício[9]. Na realidade do Brasil, o uso dessas ferramentas teria consequências sérias para a população que é composta em mais de 50% por pessoas negras, que também são identificadas como a parcela mais desfavorável financeiramente[10]. O uso dessas tecnologias é no mínimo perigoso e irresponsável.  

Nesse sentido, e em meio às acusações de racismo algorítmico, o Twitter garantiu que foram feitos inúmeros testes no modelo de corte de imagens antes de implementá-lo, e que nenhum viés preconceituoso fora identificado. Disse ainda, que, a partir dos testes realizados pelos usuários evidenciando o problema, a empresa pôde perceber que existe muito trabalho a ser feito para resolver esse viés, e que o modelo de corte de imagens será revisado[11].

Mas o critério utilizado não é o único problema, pois os algoritmos nunca agem sozinhos. Os sistemas algorítmicos dependem de todo um conjunto de dados (informações) que são fornecidos a eles - input, que ajudará na tomada de decisão automatizada, produzindo um resultado - output. Em sendo essa estrutura de dados repleta de vieses, os resultados obtidos pela tomada de decisão das máquinas também serão contaminados. A frase garbage in, garbage out (entra lixo, sai lixo) é constantemente utilizada para demonstrar esse problema existente no resultado gerado por uma IA alimentada por um conjunto de dados enviesados.

Além do fato de os sistemas algorítmicos serem desenvolvidos, programados e alimentados por humanos, e estes serem, por natureza, repleto de vieses, existe ainda o fator relacionado à aprendizagem de máquina (machine learning). A IA do Twitter e do Youtube, por exemplo, são programadas para aprender a partir das interações com os usuários, tendo como objetivo aumentar a experiência na plataforma. Ela aprende quais são os gostos, desgostos e preferências das pessoas para então sugerir conteúdos similares ao perfil de cada usuário. Trata-se do sistema de recomendações (conteúdo também abordado em coluna anterior[12]) que funciona a partir de um modelo de redes neurais de máquina[13].

O Youtube apresentou recentemente uma atualização no seu algoritmo responsável pelo sistema de recomendações, que passou a funcionar a partir de duas redes neurais: i) Geração de candidatos, responsável pela seleção de um série de vídeos com maior probabilidade de interessarem ao usuário, levando em consideração as interações anteriores com a plataforma; e ii) Ranqueamento, responsável pela classificação dos vídeos selecionados com maior probabilidade de interesse, apresentados ao usuário da plataforma do mais relevante ao menos relevante. Uma das formas que a plataforma utiliza para entender os gostos do usuário é a partir dos ‘cliques’ nos vídeos, tanto pelo usuário quanto por outros com gostos similares, ou seja, o algoritmo estuda a quantidade de cliques, em que conteúdos foram realizados e qual a sua frequência[14].

Essa mesma sistemática de aprendizagem de máquina com redes neurais a partir de interações é utilizada pelo Twitter. A plataforma utiliza os dados coletados nas atividades dos usuários na plataforma para recomendar conteúdos com grande probabilidade de serem relevantes para ele. Mas não só isso. Voltando ao modelo de corte de imagens automático da plataforma, o algoritmo aprende, com a interação dos usuários, a identificar qual parte da imagem tem maior saliência e chama mais atenção a partir dos cliques – aprende que ponto da imagem tem maior probabilidade de receber um clique do usuário.

A partir disso, encontram-se dois grandes problemas com esse sistema algorítmico, sendo o primeiro referente à base de dados com possível viés racista, tendente a tomada de decisões preconceituosas desde sua criação em decorrência dos critérios adotados; e um segundo problema decorrente dos usuários, que ao interagirem com as plataformas com comportamentos racistas, faz com que o algoritmo aprenda e reproduza esse comportamento como algo “normal”. Esses dois fatores são somados para então o algoritmo produzir um resultado.

Um exemplo que demonstra o impacto que os usuários têm na interação com os algoritmos é o teste realizado pela Microsoft em 2016. A empresa criou um perfil no Twitter para que sua Inteligência Artificial denominada Tay pudesse interagir com adolescentes. Em menos de 24 horas a IA precisou ser desligada pois, a partir das breves interações realizadas, desenvolveu um comportamento racista, machista e repleto de preconceitos. Ao interagir com supremacistas brancos a IA passou a apoiar a causa.  Quando questionada se o holocausto havia acontecido, a Tay respondeu “Ele foi inventado”[15].

Essa não foi a primeira vez que um experimento feito com IA e humanos dá errado, e certamente não será a última. E em decorrência dos problemas existentes desde a origem até o pós implementação dos sistemas algorítmicos, questionamentos quanto a ética das máquinas se tornam cada vez mais latentes nas discussões envolvendo decisões automatizadas. Em 1988 a DARPA criou um Protocolo da Internet, elencando 7 objetivos fundamentais para a arquitetura/design da rede. A sétima e última meta apresentada no Protocolo é que “Os recursos usados na arquitetura da internet devem ser responsáveis (The resources used in the internet architecture must be accountable)[16]. Partindo de um ponto de vista histórico, na década de 60-70 já existia a noção de discriminação algorítmica; e na década de 80 quando da criação do Protocolo, essa preocupação foi expressa no item 7, mas o design ético da rede não era a prioridade naquele momento.

Atualmente, na sociedade da informação, plataformas como Twitter, Youtube, Facebook etc. ocupam importante papel no cenário político e social. A existência de transparência no funcionamento dos algoritmos que regem as plataformas é um primeiro passo para facilitar a discussão e fornecer respostas às inúmeras perguntas que surgem quanto à tomada de decisões algorítmicas. Mas existe ainda uma inquestionável necessidade de fortalecimento nas bases éticas sobre as quais esses sistemas são desenhados; somado ainda a um conjunto de testes mais eficazes para que problemas como o comportamento racista no corte de imagens automático do Twitter não ocorram, facilitando inclusive a atribuição de responsabilidades quando situações como essa acontecerem. Não é porque em 1988 o cuidado com a discriminação algorítmica não era a prioridade que isso deva continuar acontecendo. Na década de 80, os dilemas sociais existentes não eram os mesmo de hoje.

Claro, não se pode olvidar o papel que o usuário tem com as interações desenvolvidas com a IA, mas a realização de testes constantes nas empresas, como forma de auditoria, para entender a evolução do algoritmo a partir de seu contato com os usuários, pode ser um caminho promissor. Um exemplo que vale ser seguido é o adotado pela Nova Zelândia para regulação algorítmica, ao qual as empresas devem realizar testes contínuos em seus algoritmos a partir de uma matriz de risco, visando identificar o impacto negativo que as decisões tomadas pela IA podem gerar[17]. Redesenhar algoritmos para resolver problemas de vieses é fácil; o desafio maior está em criar algoritmos viáveis que funcionem para além desse problema.  

 

Notas e Referências

[1] Disponível em: https://emporiododireito.com.br/leitura/reconhecimento-facial-racismo-e-privacidade. Acessado em: 21.09.2020.

[2] Disponível em: https://brasil.elpais.com/brasil/2018/01/14/tecnologia/1515955554_803955.html. Acessado em: 21.09.2020.

[3] Disponível em: https://www.theguardian.com/technology/2020/sep/21/twitter-apologises-for-racist-image-cropping-algorithm. Acessado em: 22.09.2020.

[4] Disponível em: https://link.springer.com/chapter/10.1007/978-3-642-41181-6_78. Acessado em: 21.09.2020.

[5] Disponível em: https://blog.twitter.com/engineering/en_us/topics/infrastructure/2018/Smart-Auto-Cropping-of-Images.html. Acessado em: 22.09.2020.

[6] Disponível em: https://cultura.uol.com.br/noticias/12894_inteligencia-artificial-do-twitter-escolhe-destacar-rostos-brancos-em-vez-de-negros-testes-de-usuarios-levantam-debates-sobre-racismo-algoritmico.html. Acessado em: 25.09.2020.

[7] Disponível em: https://www.bbc.com/portuguese/geral-48889883. Acessado em: 25.09.2020.

[8] Disponível em: https://www.independent.co.uk/life-style/gadgets-and-tech/news/self-driving-car-crash-racial-bias-black-people-study-a8810031.html. Acessado em: 25.09.2020.

[9] Disponível: http://www.ihu.unisinos.br/159-noticias/entrevistas/599424-a-pandemia-acelerou-o-mundo-em-uma-decada-e-o-novo-nao-necessariamente-sera-um-ganho-social-entrevista-especial-com-marcelo-chiavassa. Acesso em: 25.09.2020.

[10] Disponível em: https://sidra.ibge.gov.br/tabela/6403. Acessado em: 25.09.2020.

[11] Disponível em: https://www.theguardian.com/technology/2020/sep/21/twitter-apologises-for-racist-image-cropping-algorithm. Acessado em: 22.09.2020.

[12] Disponível em: https://emporiododireito.com.br/leitura/sobre-liberdade-escolhas-e-sugestoes-as-nossas-decisoes-sao-n-v-ossas. Acessado em: 21.09.2020.

[13] Disponível em: https://www.ipea.gov.br/cts/pt/central-de-conteudo/artigos/artigos/106-inteligencia-artificial-e-redes-neurais. Acessado em: 22.09.2020.

[14] Disponível em: https://static.googleusercontent.com/media/research.google.com/pt-BR//pubs/archive/45530.pdf. Acessado em: 22.09.2020.

[15] Disponível em: https://veja.abril.com.br/tecnologia/exposto-a-internet-robo-da-microsoft-vira-racista-em-1-dia/. Acessado em: 22.09.2020.

[16] Disponível em: http://ccr.sigcomm.org/archive/1995/jan95/ccr-9501-clark.pdf. Acessado em: 22.09.2020.

[17] Disponível em: https://emporiododireito.com.br/leitura/a-tutela-juridica-da-ia-o-caso-da-nova-zelandia. Acessado em: 22.09.2020.

 

Imagem Ilustrativa do Post: twitter // Foto de: LoboStudioHamburg // Sem alterações

Disponível em: https://pixabay.com/photos/twitter-facebook-together-292994/

Licença de uso: https://pixabay.com/en/service/terms/#usage

O texto é de responsabilidade exclusiva do autor, não representando, necessariamente, a opinião ou posicionamento do Empório do Direito.

Sugestões de leitura