Temporal and behavioral patterns in the use of Wikipedia
- Jesús M. González Barahona Director/a
Universidad de defensa: Universidad Rey Juan Carlos
Fecha de defensa: 30 de septiembre de 2011
- Carlos Delgado Kloos Presidente/a
- Gregorio Robles Martínez Secretario/a
- Eloisa Vargiu Vocal
- Rocío Muñoz Mansilla Vocal
- Israel Herráiz Tabernero Vocal
Tipo: Tesis
Resumen
La investigación que recoge esta tesis se centra en el uso de las distintas ediciones de Wikipedia por parte de sus respectivas comunidades de usuarios. Así el principal objetivo de investigación ha sido la obtención de patrones, tanto temporales como de comportamiento, que pueden servir para explicar la manera en que los usuarios interactúan con Wikipedia cuando navegan por sus contenidos. La metodología de investigación seguida se ha basado en el análisis de una muestra del tráfico dirigido a todos los proyectos, incluido Eikipedia, basados en plataformas wiki que mantiene la Fundación WikiMedia. De esta muestra, formada por casi 15.000 millones de solicitudes, se han extraído y analizado las peticiones que envían a Wikipedia sus usuarios. El extenso conjunto de datos, el rango temporal cubierto (todo el año 2009) y los elementos de información en que se centra el análisis realizado, convierten a este estudio en el más exhaustivo que se ha llevado a cabo hasta el momento en relación con la utilización de los recursos y servicios que Wikipedia ofrece a sus usuarios. Para llevar a cabo un análisis de esta envergadura, ha sido preciso habilitar una arquitectura de almacenamiento adecuada, así como desarrollar una aplicación específica, el proyecto WikiSquilter, para el proceso de toda la información disponible. Dicho proceso consiste básicamente en extraer los elementos de información más importantes de las URLs en que se expresan las peticiones de los usuarios de manera que se puedan filtrar aquellas consideradas de interés en base a las directivas del análisis. Para garantizar la representatividad y completitud del estudio, se han analizado las peticiones dirigidas a las ediciones con mayor volumen tanto de tráfico como de artículos. Además, se han considerado de interés las solicitudes de aquellas acciones que constituyen la interacción más habitual con la Enciclopedia. Por otro lado, el análisis efectuado también ha tenido en cuenta la naturaleza de los contenidos involucrados en los distintos tipos de peticiones consideradas. Dado que algunos parámetros obtenidos en nuestro análisis pueden ser contrastados con otras fuentes consideradas como fiables, su validación ha permitido elevar el nivel de confianza en el resto de resultados y conclusiones presentados en este estudio. Entre ellos, cabe destacar, por ejemplo los relativos a la composición del tráfico dirigido a las distintas ediciones de Wikipedia en términos de las proporciones de los distintos tipos de peticiones. Los patrones temporales hallados permiten concluir que determinados tipos de solicitudes se realizan con una determinada periodicidad mientras que otras presentan una naturaleza mucho más aleatoria. Además estos mismos patrones dejan entrever que, en ciertas ediciones, muchos usuarios que visitan sus contenidos actúan también, en un momento dado, como editores de los mismos. Sin embargo, en otras ediciones, los contenidos parecen estar mantenidos, casi exclusivamente, por las aportaciones de una minoría de usuarios que invierte parte de su tiempo libre del fin de semana en realizar sus contribuciones. En relación al comportamiento, destaca en primer lugar el gran número de edición que quedan abandonadas. Esto supone una especie de reticencia por parte de los usuarios a indicar el almacenamiento permanente de sus aportaciones. Los resultados del análisis de las tasas de contribuciones frente a visitas, por su parte permiten determinar el grado de actividad y participación de los usuarios de las distintas ediciones. Resulta de especial interés comprobar que las Wikiedias con tasas más altas de contribuciones frente a visitas son las mismas donde la reticencia de los usuarios a la hora de contribuir es menor. Esto indica que existen ediciones con una cierta tradición editora donde gran parte de las operaciones de edición iniciadas terminan con el traslado definitivo de los cambios a la base de datos. Finalmente, centrándonos propiamente en los contenidos, se analizó el impacto de la consideración de ciertos artículos como destacados en su número posterior de visitas, que resultó no ser tan alto como el debido a la aparición de estos artículos en las páginas de portada de algunas ediciones como ejemplos de artículos de calidad. Por otro lado, los contenidos más populares varían de unas ediciones de Wikipedia a otras. Así, mientras artículos relacionados con entretenimiento o temas de actualidad son los más visitados en algunas ediciones, en otras alcanzan un mayor protagonismo los relacionados con Ciencias o Humanidades. Finalmente, los resultados relativos a las operaciones de búsqueda, también objeto de análisis, indican que estas peticiones incluyen mayoritariamente temas relacionados con información de actualidad o con lugares geográficos en la totalidad de las ediciones y su influencia en las consiguientes visitas sólo resulta observable en una de ellas.