Seleccionar página

CASO DE USO

Automatización de extracción de noticias y sus entidades

Implementación de descarga automática de feeds de noticias de distintas fuentes, extracción de sus entidades mediante NLP y su posterior visualización en DOMO.

EL RETO

Automatización del proceso de búsqueda de noticias de diferentes fuentes e integración en un único espacio, así como la localización de las entidades dentro de ellas para la posterior visualización.

 

El reto a enfrentar es la reducción del tiempo que conlleva la búsqueda de noticias en distintos medios, facilitando la localización de aquellas noticias relacionadas con temas de interés de forma automática sin tener que navegar por las distintas páginas de los posibles periódicos, mediante la extracción de entidades del título y el contenido de las noticias.

También se plantea como objetivo la creación de alertas de noticias nuevas sobre temas que puedan suscitar interés.

LA SOLUCIÓN

Una solución de búsqueda y visualización de noticias de diferentes medios.

 

A partir de los conectores de RSS que nos proporciona DOMO ha sido posible la descarga automática de noticias, dando lugar a conjuntos de datos que se procesarán para almacenar los datos que nos interesan.

Posteriormente, este Dataset alimentará un algoritmo de NLP importado en un script de Python ejecutado en el Workspace de Jupyter que proporciona DOMO, para obtener las entidades de cada noticia en otro Dataset de salida.

Por último, se crea un cuadro de mando en el cual se muestran estadísticas de las noticias, su contenido, permitiendo realizar filtros, por la fecha de publicación, fuente de la noticia, por las entidades detectadas…

Además, DOMO también permite la creación de alertas que podrían avisar, por ejemplo, cuando se añaden noticias sobre un tema de nuestro interés.

La experiencia de Panel en el ámbito de integración y automatización de procesos ha permitido de la alianza con DOMO maximizar el uso de su plataforma.

ALCANCE

Conexiónes a RSS

Realización cuadros de mandos

ENTORNO TECNOLÓGICO

DOMO | Python | Conectores de RSS | NLP

METODOLOGÍA

Metodología Ciencia de Datos de Panel

FOCOS DE INTERÉS

NLP

 

ÉXITOS ALCANZADOS

La fácil carga de feeds de las fuentes de interés y su automatización.

panel_icono_tiempo

Reducción del tiempo necesario para realizar el proceso de extracción de noticias debido a la capacidad de automatización que nos permite DOMO.

La posibilidad de integrar la conexión a las urls de las fuentes, el posterior procesamiento de las noticias mediante el ETL y los cuadernos de Jupyter y la visualización de los resultados, todo dentro de una misma herramienta.

ico-servicios-azul_0002_Capa-4

La creación de alertas que permite disminuir la dependencia a los cuadros de mando, pudiendo ser revisados únicamente cuando se generaran las alertas de interés.

Ejemplos de KPIs utilizados:

  • Número total de noticias descargadas diariamente.
  • Número de noticias relevantes (según criterios predefinidos) descargadas diariamente.
  • Porcentaje de noticias descargadas con al menos una entidad relevante detectada.
  • Tiempo promedio de procesamiento de noticias (desde la descarga hasta la visualización).
  • Número de alertas generadas por temas de interés.
  • Número de alertas activas en un momento dado.
  • Porcentaje de alertas que resultan en la visualización de noticias relevantes.
  • Número de entidades detectadas por noticia.
  • Número de fuentes de noticias conectadas al sistema.
  • Número de visualizaciones de las estadísticas de noticias y entidades en el cuadro de mando.