Como o tabu molda a produção de conhecimento na Wikipédia – copyright

Observação: Não publiquei postagens em blogs sobre meus trabalhos acadêmicos nos últimos anos. Para garantir que meu blog contenha um registro mais abrangente de meus artigos publicados e para apresentá-los às pessoas que os perderam, (re)publicarei periodicamente postagens de blog sobre alguns projetos publicados “antigos”. Esta postagem extrai material de uma postagem publicada anteriormente por Campeã Kaylea sobre o blog comunitário de ciência de dados.

Assuntos tabus – como a sexualidade e a saúde mental – são tão importantes de discutir quanto difíceis de abordar numa conversa. Embora muitas pessoas recorram a recursos online para obter informações sobre assuntos tabus, a censura e a informação de baixa qualidade são comuns nos resultados de pesquisa. Em dois artigos que publiquei recentemente na CSCW – ambos liderados por Kaylea Champion – apresentamos uma série de análises que mostram como o tabu molda o processo de construção colaborativa de conhecimento na Wikipédia em inglês.

O primeiro estudo é uma análise quantitativa que mostra que os artigos sobre assuntos tabu são muito mais populares e são objecto de mais vandalismo do que artigos sobre temas não-tabu. Como notícia surpreendente, também descobrimos que eles eram editados com mais frequência e tinham qualidade superior!

Pequeno vídeo da apresentação de Kaylea do trabalho realizado na Wikimania em agosto de 2023.

O primeiro desafio que enfrentamos na condução deste trabalho foi identificar artigos tabus. Kaylea teve uma ideia brilhante para uma nova abordagem computacional para fazer isso sem depender de nossas intuições individuais sobre o que se qualifica como tabu (algo que entendemos que seria altamente específico para nossa própria cultura, classe, etc.). Sua abordagem foi fazer uso de um insight da linguística: as pessoas desenvolvem eufemismos como formas de falar sobre tabus (ou seja, pense em todos os eufemismos que inventamos para a morte, ou sexo, ou menstruação, ou saúde mental).

Usamos esse insight para construir um novo classificador de aprendizado de máquina baseado nas definições do Wikcionário em inglês. Se o “sentido” de uma palavra fosse rotulado como eufemístico, trataríamos as palavras na definição como indicadores de tabu. O resultado final foi uma série de palavras e frases que diferenciam de forma mais poderosa o tabu do não-tabu. Em seguida, fizemos uma correspondência simples entre essas palavras e frases e os títulos dos artigos da Wikipédia. Os tópicos eram tabu o suficiente para que ficássemos um pouco desconfortáveis ​​discutindo-os em nossas reuniões! Construímos uma amostra comparativa de artigos cujos títulos são palavras que, assim como nossos artigos tabu, aparecem nas definições do Wikcionário.

No primeiro artigo, usamos esse novo conjunto de dados para testar uma série de hipóteses sobre como o tabu molda a produção colaborativa na Wikipédia. Nossas hipóteses iniciais foram baseadas na ideia de que informações tabu são frequentemente muito procuradas, mas que os wikipedistas podem relutar em associar seus nomes (ou nomes de usuário) a tópicos tabu. O resultado, argumentamos, seriam artigos de alta demanda, mas de baixa qualidade.

Descobrimos que artigos tabu estão prosperando na Wikipedia! Em resumo, descobrimos que, em comparação com artigos não-tabu:

  • Artigos tabu são mais populares (como esperado).
  • Artigos tabu recebem mais contribuições (contrariamente às expectativas).
  • Artigos tabu recebem mais contribuições de baixa qualidade (como esperado).
  • Artigos tabu são de qualidade superior (contrariamente às expectativas).
  • Colaboradores de artigos tabu são mais propensos a contribuir sem uma conta (como esperado) e têm menos experiência (como esperado), mas é mais provável que os titulares de contas se tornem mais identificáveis ​​tendo uma página de usuário, divulgando seu gênero e tornando-se passíveis de e-mail (todos os três são contrários à expectativa!).
Imagem da qualidade estimada dos artigos dos quatro artigos do segundo artigo de métodos mistos. Quedas extremas refletem períodos de vandalismo frequente.

Kaylea tentou entender esses resultados um tanto confusos projetando uma fantástica análise de métodos mistos que buscava desvendar algumas das nuances que faltavam na análise quantitativa, investigando profundamente as “histórias de vida” de quatro artigos na Wikipédia em inglês: dois sobre tópicos tabus relacionados à anatomia feminina (Clitóris e Menstruação) e dois artigos não-tabu escolhidos para comparação (Membrana celular e Philip Pullman).

Embora possa ser difícil resumir sucintamente as conclusões da análise (tal como acontece com muitos estudos qualitativos), mostrámos como o sucesso dos artigos de exemplo tabu foi duramente conquistado no meio de desafios e ataques reais. O artigo descreve como os desafios foram superados através de uma liderança resiliente, muitas vezes fornecida por um único indivíduo dedicado. O artigo fornece um modelo de como o tabu pode ser – e frequentemente é – superado por wikipedistas dedicados de forma a fornecer recursos de conhecimento úteis com demanda real.

Para mais detalhes, visualizações, estatísticas e muito mais, esperamos que você dê uma olhada em nossos artigos, ambos nos links abaixo.


As citações completas dos artigos são: (1) Champion, Kaylea e Benjamin Mako Hill. 2023. “Tabu e produção colaborativa de conhecimento: evidências da Wikipedia.” Procedimentos da ACM sobre Interação Humano-Computador 7 (CSCW2): 299:1-299:25. https://doi.org/10.1145/3610090. (2) Campeão, Kaylea e Benjamin Mako Hill. 2024. “Histórias de vida de artefatos de conhecimento tabu”. Procedimentos da ACM: Interação Humano-Computador 8 (CSCW2): 505:1-505:32. https://doi.org/10.1145/3687044.

Também lançamos materiais de replicação para o papelincluindo todos os dados e códigos utilizados para realizar as análises.

Esta postagem do blog e o artigo que ela descreve são trabalhos colaborativos de Campeã Kaylea e Benjamin Mako Hill.

Deseja saber mais sobre Software Livre Clique Aqui!

Deixe um comentário

Translate »