Más de 24,000 trabajos de investigación sobre coronavirus disponibles en un solo lugar
Los investigadores que colaboran en varias organizaciones integraron un conjunto de datos de investigación abierta sobre el COVID-19 (CORD-19), que incluye más de 24,000 artículos de investigación de revistas revisadas por pares, así como fuentes como bioRxiv y medRxiv (sitios web donde los científicos pueden publicar trabajos de preimpresión revisados por pares).
La investigación cubre SARS-CoV-2 (el nombre científico del coronavirus), COVID-19 (el nombre científico de la enfermedad) y el grupo de Coronavirus.
Esta iniciativa representa la colección más extensa de literatura científica relacionada con la pandemia en curso y continuará actualizándose en tiempo real a medida que se publique más investigación.
La base de datos se compiló a pedido de la Oficina de Política de Ciencia y Tecnología (OSTP) de la Casa Blanca a través de una colaboración entre tres organizaciones:
• La Biblioteca Nacional de Medicina (NLM) en los Institutos Nacionales de Salud proporcionó acceso a publicaciones científicas existentes;
• Microsoft usó sus algoritmos de curación de literatura para encontrar artículos relevantes;
• El Instituto Allen de Inteligencia Artificial (AI2) los convirtió de páginas web y archivos PDF a un formato estructurado que puede ser procesado por algoritmos.
La base de datos ahora está disponible en el sitio web: Semantic Scholar de AI2. <https://pages.semanticscholar.org/coronavirus-research>
Como parte de su servicio Semantic Scholar <https://www.technologyreview.com/collection/coronavirus/>, que permite a la comunidad científica buscar fácilmente a través de la literatura académica, AI2 ya ha procesado el nuevo corpus utilizando las mismas técnicas de extracción y análisis de información que aplica a todas las investigaciones nuevas. Están surgiendo piezas clave de información, como autores, métodos, datos y citas, para facilitar a los científicos evaluar rápidamente cómo cada artículo se suma a la investigación existente.
También se está utilizando modelos de lenguaje natural de última generación como ELMo y BERT para trazar las similitudes entre los documentos. Este mapa ahora está impulsando una nueva característica en Semantic Scholar que permite a los investigadores crear una fuente de investigación personalizada basada en sus intereses.
Por qué es importante: los científicos se apresuran contrarreloj para responder preguntas urgentes sobre la naturaleza del virus con la esperanza de detener su propagación. La base de datos no solo les ayuda a consolidar la investigación existente en un solo lugar, sino que también hace que la literatura sea más fácil de extraer para obtener información con algoritmos de procesamiento de lenguaje natural. El OSTP ha lanzado una convocatoria abierta para que los investigadores de IA desarrollen nuevas técnicas para la minería de texto y datos que ayudarán a la comunidad médica a analizar la masa de información más rápidamente.