Entrevista a Carlos Castillo

Autora: Mari Carmen Marcos
Citación recomendada
: Mari Carmen Marcos. Entrevista a Carlos Castillo [on line]. "Hipertext.net", núm. 8, 2010. http://www.hipertext.net

Este apartado está formado por entrevistas a expertos en buscadores, posicionamiento y márqueting online realizadas para el Master en Buscadores (Universidad Pompeu Fabra)


Carlos Castillo (ChaTo)
http://research.yahoo.com/user/20
http://chato.cl/research/

Carlos Castillo

Es investigador de Yahoo! Research en Barcelona. Es Doctor en Ciencias de la Computación (Universidad de Chile, 2004). Fue investigador visitante en la Universitat Pompeu Fabra en el año 2005 y en la Universita di Roma La Sapienza en 2006. Cuenta con más de 30 publicaciones en congresos internacionales y revistas científicas. Entre otras actividades, ha co-organizado el Workshop " Adversarial Information Retrieval " y la competencia " Web Spam Challenge " en 2007 y 2008.

Entre sus áreas de investigación actuales está la recuperación de información en la Web, en particular el análisis de enlaces y datos de uso en la Web. Además es fundador y socio de Newtenberg Ltd.

La mayoría de las veces que oímos o leemos la palabra "spam" se refiere a mensajes de correo electrónico ¿qué es entonces el "spam" aplicado a páginas web?

El spamdexing, webspam, o spam en buscadores , se trata de páginas Web creadas por personas que intentan engañar a las máquinas de búsqueda para que les asignen un ranking más alto del que merecen. La definición incluye todo tipo de "trucos" que los creadores de estas páginas utilizan, desde insertar palabras clave no-relacionadas con el contenido de las páginas, hasta la creación de miles o millones de páginas cuyo único propósito es aumentar el conteo de enlaces de la página que quieren promocionar.

A nivel más general aún, hay dos formas de recibir un mensaje no-solicitado. Una es que nos lo envíen directamente, por ejemplo dejándolo en nuestro buzón de correo o en nuestra bandeja de entrada de e-mail. La otra es que el mensaje sea publicado en un lugar visible, pero inapropiado, como cuando los cerrajeros dejan una pegatina sobre las puertas de los edificios que dan a la calle. El spam en la Web es más similar a esto último.

Otros tipos de spam en la Web son el spam en comentarios de blogs y foros, el spam en la Wikipedia, o el spam en los sitios de social media , como YouTube o Flickr. Otros tipos de spam en comunicaciones electrónicas son el spam de e-mail, el SPIM (spam por mensajería instantánea), el SPIT (spam por telefonía internet), etc.

¿Por qué existe el spam web?

El spam web es la consecuencia de que los buscadores web tengan tanta importancia a la hora de localizar información. En la práctica, la mayoría de los usuarios de los buscadores solamente revisan los primeros resultados de una búsqueda, lo que significa que estar posicionado en los primeros lugares significa tener más tráfico. Los que buscan visibilidad, tienen un incentivo para tratar de distorsionar los resultados del ranking.

Hay dos tipos de razones para querer tener más visibilidad en la Web: monetarias y no monetarias. Algunas personas producen spam en la web para propagar un mensaje político o para ayudar a una organización no-comercial a lograr un objetivo. Este es el caso de la mayoría de las Google bombs que son intentos de asociar una frase a una página en particular como una forma de activismo político, como enlazar la frase " siempre ganamos algunos euros " al sitio web de la SGAE :-)

La mayoría del spam en la web, por otra parte, se hace por dinero, para promocionar un producto o servicio y quizás obtener una comisión a cambio de dicha promoción. Normalmente estas comisiones son unos pocos euros o incluso céntimos por cada venta. Dada la escasa tasa de respuesta de los mensajes, un spammer que quiera ganar dinero tiene que crear millones de páginas para poder mantenerse.

¿Qué impacto tiene el spam web en el índice de los buscadores y cómo éstos lo combaten?

El spam Web tiene dos efectos principales. El primero es que al abusar de la relación de confianza que existe entre los usuarios y los buscadores Web, la debilita. Una persona que observa la presencia de webspam en las páginas que el buscador le muestra como resultados, tenderá a creer menos en el resto de las páginas que encuentra en este buscador.

El segundo problema es que el webspam ocupa recursos computacionales que podrían ser destinados a páginas de mejor calidad. Una parte del webspam es detectado y eliminado automáticamente mientras se recorre la Web. En otras ocasiones, el buscador debe descargar, almacenar e indexar las páginas de webspam antes de poderlas clasificar automáticamente. Esto significa un malgasto de recursos.

De las múltiples técnicas que utilizan para el spam web ¿cuáles son las más comunes actualmente? ¿Cuáles se han combatido totalmente o casi totalmente, y cuáles están resultando más difíciles de combatir?

Las principales técnicas de webspam son modificaciones al contenido y modificaciones a los enlaces. Las modificaciones al contenido corresponden a insertar palabras clave no-relacionadas en las páginas, por ejemplo, repetir varias veces una consulta frecuente con la esperanza de atraer usuarios al sitio, o copiar un texto de alta calidad (por ejemplo un artículo de Wikipedia) y rodearlo de publicidad. Puedes ver algunos ejemplos de webspam .

Las modificaciones a los enlaces corresponden a la creación de miles o millones de páginas enlazadas de forma tal que el PageRank que les corresponde "fluya" hacia la página que se quiere promocionar.

Para el proceso de detección es relevante la magnitud de la modificación realizada. Si se trata de una modificación grande, que por ejemplo inserta tantas palabras clave que la página se transforma en algo indescifrable, o crea un gran número de páginas que solamente se apuntan entre ellas, es algo muy fácil de detectar. Por otra parte, si la página es adecuadamente "disfrazada" de una página normal, entonces es más difícil de detectar, pero al mismo tiempo su efecto en el ranking de búsquedas, es menor.

¿Ante qué tipo de consultas es más problable encontrar páginas spam?

Ante las consultas que tienen un mayor sesgo comercial, por ejemplo que tienen un mayor costo-por-click. Ejemplos : "cáncer del mesotelioma" (un cáncer producido por exposición al asbesto que ha sido el centro de varias demandas contra empleadores por parte de personas que padecen este cáncer), "cotización gratuita de seguro automotriz" (" free auto insurance quote "), "abogado en Las Vegas por accidente automotriz" (" las vegas car accident attorney "), etc.

También consultas que son muy frecuentes, como nombres de artistas famosos, búsquedas de sitios para adultos, etc. En general cualquier consulta que sea percibida como de alto valor o de alto tráfico puede ser objeto de web spam.

Al hablar de spam en los buscadores solemos pensar más en SEO, ¿hay spam en los anuncios, en SEM? ¿Qué técnicas utilizan? ¿Cómo se controla desde los buscadores?

En el caso de SEM hay más regulación porque el que contrata la publicidad está obligado a respetar ciertas reglas con el proveedor del espacio publicitario, en este caso el buscador web. Estas reglas indican por ejemplo que el mensaje no puede ser engañoso y que la página de landing de la publicidad debe estar relacionada con el texto de la publicidad. Bajo estas circunstancias, un SEM que intente pasarse de listo es más fácil de detectar y la solución para el buscador es simplemente cerrar la cuenta de publicidad.

Tenemos entendido que los enlaces de los blogs y otras sedes web pueden tener los parámetros nofollow y dofollow para controlar el spam, ¿es efectivo este método?

Tengo entendido que no hay estudios concluyentes al respecto (ej.: comparación entre dos sitios, uno que use nofollow / dofollow y otro que no lo use). Posiblemente los programas que publican contenido de spam indiscriminadamente no hacen distinción entre sitios que usen nofollow y sitios que no lo usen, pero el hecho de que este tag sea usado puede ayudar a disminuir el incentivo económico al disminuir la ganancia monetaria esperada por el spammer.

Por otra parte, a mí me parece interesante en este caso que varias máquinas de búsqueda se hayan puesto de acuerdo en un asunto de bien común que les beneficia a todas y a la comunidad en general. Sería bueno que en otros problemas similares tal grado de consenso pudiera ser alcanzado.

Otros espacios donde el spam puede llegar a ser una parte importante de los contenidos son los sitios web 2.0, donde los usuarios generan los contenidos, como los blogs. En estos casos la solución para algunos han sido los CAPTCHAs, pero ¿se están implementando filtros automáticos?

El foco de la investigación sobre spam en la web hasta el momento ha sido el spam que es generado automáticamente, mediante programas que crean páginas, o que recorren blogs/wikis publicando comentarios indiscriminadamente. Esto ha sido así porque son precisamente estos programas los que pueden hacer más daño, más rápidamente, si es que no son controlados a tiempo. Los CAPTCHA son una forma de detener a los programas que tratan de hacerse pasar por humanos.

Por otra parte, en las redes sociales puede aparecer un spam más amateur , en términos de usuarios cuya insistencia en publicar o promocionar repetitivamente un cierto tipo de contenido, resulte molesta para el resto de los usuarios.

En este sentido, en los sitios de redes sociales es importante controlar el grado de exposición que cada usuario recibe para evitar que contenido irrelevante acapare la atención y el tiempo de los demás. Al mismo tiempo, el diseñador o administrador de una red social debe considerar una cierta "presunción de inocencia" respecto al contenido generado por los usuarios y cuidarse de no ser percibido como alguien que censura lo que los usuarios escriben.

Hay otros casos de spam producido directamente por humanos sin programas intermedios. Por ejemplo, hay dueños de hoteles que escriben un review positivo (pero creíble) de su hotel en un sitio que se supone debiera recibir opiniones imparciales. Otro caso son autores que escriben un reviews de sus propio libro en Amazon (obviamente bajo una identidad falsa).

En las plataformas 2.0 en donde los usuarios pueden taggear contenidos (como Flickr o Delicious), o responder a otros usuarios (Yahoo! Respuestas), encontramos tags en el primer caso y respuestas en el segundo caso que no cumplen con lo esperado: tags que no están relacionados con las imágenes descritas o los recursos descritos; respuestas que tratan de dirigir a los lectores a sitios web que no responden, etc. ¿estaríamos ante spam, o se sale esto de lo que se considera spam? Si lo es ¿la propia comunidad lo va rechazando de manera que nunca llega a ser más importante que el contenido válido?

Sí, esto es tag spam ; también en estos sitios se observan ataques en que un usuario asume múltiples identidades y por ejemplo vota a favor o en contra de una cierta opción o de una cierta persona. La mayoría de estos sitios tienen métodos para detectar identidades múltiples (ej.: usuarios cuyo comportamiento está muy correlacionado) y formas en que otros usuarios pueden denunciar si ven a alguien que no cumpla con las reglas, o un contenido que sea inapropiado.

En mi opinión, estos sitios no son totalmente auto-regulables, y requieren siempre de un mínimo de intervención por parte de operadores que reciban estas denuncias y respondan adecuadamente.

Quien diseña o administra una plataforma así debe, nuevamente, ser muy cuidadoso a la hora de poner las reglas. Por ejemplo en el caso de la Wikipedia, (dado que cualquiera puede editar un artículo) seguramente se planteó numerosas veces qué hacer con los vándalos u otras personas que abusaran del sistema. Una clave aquí es haber considerado esta cuestión un asunto válido pero prematuro , en términos de que primero el sistema comienza siendo lo más abierto posible, y luego se introducen restricciones solamente cuando es absolutamente necesario para la operación del sistema.

¿Crees que para los spammers resulta económicamente ventajoso este tipo de actuaciones? ¿Cada vez más o cada vez menos?

Creo que este es un tema de percepción más que de realidad. Es posible que unos pocos spammers logren hacer algo de dinero haciendo spam, pero también es posible que desarrollando una actividad legítima tuvieran una fuente de ingresos mayor y más estable. El spam puede proveer momentáneamente de una fuente de ingresos muy pequeña y muy inestable. Una página que no es detectable hoy, posiblemente será detectable en algún momento futuro, dado que los buscadores mejoran constantemente sus métodos de detección de spam.

Además, alguien "de la competencia" del sitio que es optimizado puede reportar el sitio a un buscador, ocasionando que un editor humano revise el sitio y lo marque como spam. En este caso, la "pena" va desde disminuir drásticamente en la posición del ranking de búsqueda, o simplemente desaparecer del índice.

¡Gracias "ChaTo" por respondernos!

 

Licencia Creative Commons

Last updated 04-09-2012
© Universitat Pompeu Fabra, Barcelona