Dados, algoritmos, termos de uso e jardins murados

O texto abaixo foi escrito originalmente como parte de um projeto de pesquisa para a seleção do doutorado em Ciência Política da UFPR em 2018. Bati na trave no processo seletivo, mais ainda gosto muito do que produzi e deixo aqui para apreciação de quem, como eu, se interessa por esses temas. Em breve publico mais um pedaço dele.


Os últimos dez anos foram decisivos para a consolidação da internet como recurso de uso cotidiano. Pesquisas recentes mostram que, ainda que o crescimento da venda de computadores tenha desacelerado, os brasileiros têm estado cada vez mais conectados, principalmente por meio de dispositivos móveis. No início de 2017 havia mais de um celular por habitante no país, e mesmo no ano anterior mais de 90% dos domicílios brasileiros contava com pelo menos um smartphone.

Conforme essa integração da internet móvel se expandiu e se normalizou, ela trouxe consigo mudanças de hábito na vida de seus usuários: eles mesmos constroem ideias e imagens de si e do seu entorno para si e para os outros — em plataformas online de discussão — e todas essas construções, espontâneas ou provocadas, geram dados. Uma vez que as dimensões do “real” e do “virtual” não são facilmente dissociáveis (LÉVY, 1997), as atividades dos usuários acontecidas nessas plataformas e os dados que produzem geram traços e podem dizer muito sobre a realidade social em que cada usuário se insere.

Se o usuário não é uma peça passiva nas relações sociotécnicas em rede, tampouco são as plataformas por onde ele navega. Projetadas por humanos, o funcionamento desses sistemas estão de acordo com políticas de uso que muitas vezes não são claras em suas intenções e consequências. Os algoritmos que governam suas ações são formas abstratizadas de se resolver problemas complexos ou criar ordem em um conjunto de dados, dividindo sua atividade em uma série de passos ou etapas lógicas. Os dados gerados pelos usuários alimentam modelos matemáticos dos comportamentos e atitudes individuais com aplicações amplas o suficiente para preocupar governos e organizações [1].

De usos mais “inofensivos”, como no caso da arte generativa e de projetos que analisam dados abertos governamentais, como a Operação Serenata de Amor, essas técnicas de coleta e análise de dados também podem alimentar bases de ferramentas para reconhecimento facial que podem ter propósitos militares e comprometer liberdades civis, ou ainda gerar algoritmos que herdam os vieses e preconceitos de seus criadores e emitem julgamentos tão falhos quanto os de seus espelhos humanos.

Outra dimensão da complexidade desses sistemas sociotécnicos são as suas repercussões legais. No final de 2017, foi aprovada no congresso americano uma lei que modificava as antigas regras de tráfego de dados e dava às operadoras a possibilidade de cobrar dos usuários de forma diferente conforme a origem e a quantidade de dados que utilizassem em seus planos de assinatura. Caso ainda estivesse em vigor, essa lei poderia permitir a restrição de certos tipos de conteúdos mediante pagamento e a possibilidade de que grandes conglomerados midiáticos pudessem pagar mais para que seus conteúdos tivessem preferência na rede [2]. Dadas todas as suas implicações, ela foi revogada em maio de 2018, mas as discussões a respeito continuam, pois não existe ainda uma legislação satisfatória. No Brasil, é a lei n. 12.965 do Marco Civil da Internet, que regula esse tráfego de dados — e também outros temas, como a liberdade de expressão e a retirada de conteúdo difamatório do ar — e substitui a lei antiga, inespecífica.

A preocupação com a criação de “jardins murados” [3] na internet a partir do controle da circulação de dados não se restringe às operadoras de serviços de conexão, no entanto. Não muito diferente são as abordagens de algumas grandes empresas como Facebook e Google a situações de diferentes naturezas, mas com implicações semelhantes. No caso do Facebook, sua estratégia para penetração em “mercados periféricos” foi a de permitir o acesso gratuito a sua plataforma sem cobrança pelo plano de dados dos usuários. O Google, por sua vez, faz uso da tecnologia AMP na tentativa de tornar o carregamento das páginas mais rápido em ambiente móvel e, com isso, acaba ele mesmo decidindo o que será ou não exibido online. A empresa acabou abrindo o código do projeto e passou a discretamente se desassociar dele em seu site, mas é seu principal incentivador. Em ambos os casos, essas empresas acabam atuando como “a internet propriamente dita” para alguns usuários, criando um ambiente controlado restritivo, uma vez que é a partir de seus filtros que o acesso à rede acontece.

Quando a internet comercial começou a atingir grandes populações através de aumento do acesso, flexibilidade e barateamento da conexão e dos aparatos que a tornam possível (computadores, telefones móveis), fenômenos de movimentação política como a chamada “Primavera Árabe” [4] e projetos como WikiLeaks [5] começaram a despontar. Alguns estudiosos da Comunicação interpretaram essas manifestações como representantes legítimos de um poder popular de resistência a governos opressores e a favor da livre circulação de ideias (LEVY, 1997; MALINI e ANTOUN, 2013). Eles não puderam, no entanto, prever alguns dos desdobramentos das forças em “contra-revolução”. Os sistemas sociotécnicos onde essas tecnologias de informação e comunicação existem e atuam possuem como vantagem justamente o fato de serem sistemas fechados — “caixas-pretas” (FLUSSER, 1985) —, inacessíveis a usuários em geral, e a leigos em particular.

Se antes se achava que a distribuição de conhecimento e as trocas culturais seriam dinamizadas, aceleradas e democratizadas através das redes pelo efeito da “cauda longa” [6], casos como o da Cambridge Analytica [7] e outros onde houve o uso dos dados dos usuários para criar consenso, manipular a opinião pública e mobilizar massas mostram desafios ainda mais complexos. O poder dos conglomerados de mídia pode ter se tornado objeto de disputa, mas ele não se perdeu totalmente: antes, tem sido repartido entre novas e antigas organizações, que têm como fator de sucesso principal a ignorância dos usuários diante das plataformas.

A forma como os dados circulam na rede nessas plataformas depende de alguns fatores. Um deles são os Termos de Uso (ou Termos de Serviço), documentos com especificações legais que regulam o uso das plataformas e que, em caso de aceite, determinam que os usuários voluntariamente cedam algumas de suas informações à plataforma. Muitas vezes, isso é feito sem que haja uma leitura cuidadosa desses documentos, seja por causa de sua extensão textual ou do uso que fazem de linguagem jurídica obscura. Aliadas às APIs (Application Programming Interfaces) de desenvolvimento — ferramentas que permitem a criação de aplicações externas que funcionam a partir das possibilidades dessas plataformas, e alimentadas por elas —, o ambiente para que usuários sejam objetos das transações no comércio de dados está montado. Uma API como a do Facebook, por exemplo, permite integrações com hardware e software que possibilitam a coleta em massa de dados e seu uso em propósitos genéricos, que vão desde a observação de comportamento de consumidor até a difusão de conteúdo de origem duvidosa [8].

Alguns projetos, porém, visam usar os dados disponíveis nessas plataformas para conduzir pesquisas na área da ciência de dados. É o caso do Instituto Brasileiro de Pesquisa e Análise de Dados, do Monitor do Debate Político no Meio Digital e do LABIC da Universidade Federal do Espírito Santo. As análises conduzidas por esses grupos e organizações têm como objetivo a criação de cartografias e grafos das discussões online e de seus principais temas. Eles fazem uso de técnicas como processamento de linguagem natural (PLN) — apropriado para encontrar polaridades nos enunciados discursivos dos usuários —, e a relação dessas informações com sua fonte geográfica/geolocalizada, quando disponível — útil como camada complexa de informação que pode permitir a criação de mapas e o encontro de sutilezas que a PLN sozinha não é capaz de proporcionar.


Notas

[1] Uma dessas aplicações é a possibilidade de criar robôs que imitam o comportamento dos usuários. Sistemas de aprendizagem de máquina, dentro de certos contextos, podem se fazer passar por usuários legítimos em experimentos como o Teste de Turing (SAYGIN et al., 2000).
[2] Táticas de priorização de dados na tentativa de otimizar o uso da banda são relativamente comuns. Conhecidas como traffic shaping, essas práticas são condenadas por alguns órgãos de defesa do consumidor, uma vez que restringem o uso da rede de forma irregular.
[3] “Walled gardens” é uma expressão que tem sido usada no jornalismo de tecnologia para sinalizar sistemas fechados de software que têm alto controle sobre as possibilidades de ação do usuário na plataforma, e também a respeito do que fazer com os dados gerados pelos usuários nesses ambientes.
[4] “Primavera Árabe” é uma expressão usada para designar os movimentos civis acontecidos a partir do final de 2010 em países do Oriente Médio e norte da África que tiveram como ponto de partida a Tunísia e se espalharam pela região. Organizados e mobilizados através da internet, esses movimentos foram combatidos violentamente pelos governos estabelecidos. Alguns deles resultaram em conflitos armados, governos substituídos ou instabilidade política (HUSSAIN; HOWARD, 2013).
[5] A WikiLeaks é uma organização especializada em análise e publicação na internet de dados governamentais restritos relacionados a corrupção, guerra e espionagem. Fundada em 2006 por Julian Assange, a organização esteve envolvida em vários casos de vazamentos de dados que ocasionaram conflitos diplomáticos. Um desses conflitos, envolvendo dados sobre a Guerra do Afeganistão, culminou em um mandado de extradição de seu fundador para a Suécia, através de uma acusação de assédio sexual e estupro. Crimes graves, mas que em geral não mobilizam forças internacionais caso não haja outros interesses vinculados na acusação.
[6] “Cauda Longa” designa distribuições estatísticas decrescentes cujas representações gráficas seguem o padrão da curva de Pareto. O termo foi usado por Chris Anderson na primeira metade da década de 2000 para descrever as mecânicas de distribuição cultural em rede que poderiam concorrer diretamente com as grandes mídias (ANDERSON, 2006). No entanto, ainda que a princípio esses conglomerados da indústria cultural tenham sofrido certa desestabilização, sua adaptação ao novo contexto tem sido bastante bem sucedida (SLEE, 2017).
[7] Cambridge Analytica foi uma empresa especializada em marketing digital com fins eleitorais e comerciais que fazia uso de dados disponíveis em grandes plataformas sociais online. Em maio de 2018, a empresa foi alvo de uma investigação envolvendo a disseminação de notícias falsas no Facebook e o uso de dados de dez milhões de seus usuários de forma irregular, no intuito de influenciar as opiniões e os resultados de disputas políticas nos Estados Unidos, Reino Unido e mais uma série de outros países. O escândalo veio a público após Christopher Wylie, ex-funcionário da empresa, vazar informações sobre as operações de seus empregadores.
[8] A despeito das tentativas frustradas de combater a difusão de boatos na plataforma Facebook, seu criador segue tentando: em março de 2018, Mark Zuckerberg anunciou uma série de medidas e parcerias com agências de fact checking para melhorar a qualidade do conteúdo que circula na rede social.


Referências

ANDERSON, Chris. A Cauda Longa: a nova dinâmica de marketing e vendas. 1ª edição. São Paulo: Elsevier, 2006.

FLUSSER, Vilém. Filosofia da Caixa Preta: ensaios para uma futura filosofia da fotografia. São Paulo: Editora Hucitec, 1985.

HUSSAIN, Muzammil M.; HOWARD, Philip N. “What Best Explains Successful Protest Cascades? ICTs and the Fuzzy Causes of the Arab Spring”. In: International Studies Review. V. 15, N. 1. 1 March 2013. P. 48–66. Disponível neste link — Acesso em 6 de junho de 2018.

LÉVY, Pierre. Cibercultura. Tradução de Carlos Irineu da Costa. São Paulo: Editora 34, 1997.

MALINI, Fábio; ANTOUN, Henrique. A Internet e a Rua: ciberativismo e mobilização nas redes sociais. Porto Alegre: Sulina, 2013.

SAYGIN, Ayse P.; CICEKLI, Ilyas; AKMAN, Varol. “Turing Test: 50 years later”. In: Minds and Machines. V. 10. N. 4. Novembro de 2000. p. 463-518. Disponível neste link — Acesso em 18 de junho de 2018.

SLEE, Tom. Uberização: a nova onda do trabalho precarizado. São Paulo: Editora Elefante, 2017.

Join the Conversation

1 Comment

Leave a comment

Your email address will not be published.