25 octubre, 2010

Nuevo método de búsqueda para localizar ideas influyentes

Nuevo método de búsqueda para localizar ideas influyentes: " Científicos de Princeton han desarrollado una nueva forma de rastrear el origen y la difusión de las ideas, una técnica que podría facilitar la evaluación de trabajos académicos notorios de gran influencia, avisando de noticias y otras fuentes de información.

 

El método se basa en unos algoritmos computacionales que analizan cómo se transforma el lenguaje en el tiempo dentro de un grupo de documentos, si son trabajos de investigación sobre física cuántica o entradas de blog sobre política, y para determinar qué documentos son los más influyentes.




'La cuestión es ser capaz de manejar la
posible proliferación de información en los ordenadores e Internet,' señaló David Blei, profesor adjunto de ciencias informáticas en Princeton e investigador principal del proyecto. 'Estamos tratando de darle sentido a cómo se mueven los conceptos en el entorno. Por ejemplo, si alguien quiere saber quién acuñó un término 'quark', o busca antiguas noticias para saber dónde se llevó a cabo las primeras protestas contra la guerra en la década de 1960.'Blei comentaba que, esta nueva técnica de búsqueda podría algún día ser usada por historiadores, sociólogos y otros académicos para estudiar cómo surgen y se propagan las ideas.



Los motores de búsqueda como Google
Y Bing ayudan a la gente a ordenar su búsqueda de información en la web, sus resultados se basan en una compleja mezcla de criterios, entre ellos, el número de enlaces y tráfico de visitantes, no reflejan precisamente la influencia de un documento.



Las revistas científicas, tradicionalmente, cuantifican el impacto de un documento midiendo la frecuencia con la que ha sido citado por otros documentos o en otras fuentes, como los periódicos, en las reclamaciones de patentes y en publicaciones de blogs, que no proporcionan medios para medir su influencia.



En lugar de centrarse en las citas, Blei y Sean Gerrish, estudiante de doctorado
en informática en Princeton, ha desarrolló un modelo estadístico que permite a los ordenadores analizar el texto de los documentos para ver cómo cambia el lenguaje a través del tiempo. Los documentos influyentes en un campo determinado establecen nuevos conceptos y términos que cambian los patrones de las palabras y las frases utilizadas en obras posteriores.



'Puede haber un documento que introduzca el láser, por ejemplo, y que se menciona en artículos posteriores', explicó Gerrish. 'La premisa es que un artículo dado introduce un lenguaje que será adoptado y utilizado en el futuro.'




En los
anteriores métodos desarrollados, el seguimiento de los investigadores de los cambios de idioma daba cuenta de cómo un grupo de documentos podía influir en un grupo posterior de los documentos, pero no eran capaces de aislar la influencia de los documentos individuales. Por ejemplo, estos modelos pueden analizar todos los artículos de una cierta revista de ciencia en un año y seguir la influencia que tuvieron sobre los documentos de la revista al año siguiente, pero no podía decir si un determinado documento ha introducido ideas innovadoras.



Para solucionar este problema, Blei y Garrish, desarrollaron su algoritmo para reconocer la contribución de trabajos individuales y lo utilizaron para analizar varias décadas de informes publicados en tres revistas científicas: 
Nature, las Proceedings of the National Academy of Sciences y la Association for Computational Linguistics Anthology. Debido a que estaban trabajando con revistas científicas, pudieron comparar sus resultados con un cálculo de las citas de los trabajos, que es el método tradicional de medir el impacto académico.



Encontraron que sus resultados concordaban en la comparativa con el método de
citas basadas en el impacto en cerca de un 40 por ciento del tiempo. En algunos casos, descubrieron documentos que tenía una fuerte influencia en el lenguaje científico, pero que no eran citados con frecuencia. En otros casos, hallaron que los documentos que a menudo se citaban no tenían mucho impacto en el lenguaje utilizado en ese campo.

No se hallaron citas, por ejemplo, de una columna influyente publicada en Nature en 1972, que predijo correctamente el papel cada vez más relevante de la Fundación Nacional de Ciencias en la financiación de la educación de postgrado en ciencias.




Por otro lado, este modelo dio una puntuación de baja influencia a un artículo muy citado de una base de datos lingüística de nueva investigación que se publicó en 1993, de la 
Association for Computational Linguistics Anthology. 'Ese documento presentó un recurso muy importante, sin embargo, no presentaba un cambio de paradigma en las ideas', apuntó Blei. 'Consecuentemente, nuestro enfoque basado en el lenguaje no pudo identificar correctamente su impacto.'



Blei dijo que, su modelo no está pensado para sustituir el recuento de citas; sino como método alternativo para medir la extensión de la influencia de un documento en las noticias, sitios web y otros documentos legales e históricos.




'También estamos explorando la idea de que puedan encontrarse patrones en los cambios de lenguaje en el tiempo', señló. 'Una vez que se haya identificado las formas de estos patrones, se podría reconocer algo importante en su desarrollo, y tal vez, predecir la próxima gran idea antes de expansión.'



  • - Referencia: EurekAlert.org, 20 de octubre 2010, por Chris Emery
  • - Fuente: Universidad de Princeton .
  • - Los investigadores presentaron su nuevo método en la Conferencia Internacional sobre Aprendizaje Automático, celebrada en junio en Haifa, Israel.
  • - Imagen: David Blei (izqda.) y Sean Garrish. Foto de Wojciechowski Frank.


"

No hay comentarios:

Publicar un comentario en la entrada