Title:
|
Savana: a global information extraction and terminology expansion framework in the medical domain
|
Author:
|
Espinosa-Anke, Luis; Tello, Jorge; Pardo, Alberto; Medrano, Ignacio; Ureña, Alberto; Salcedo, Ignacio; Saggion, Horacio
|
Abstract:
|
Terminological databases constitute a fundamental source of information
in the medical domain. They are used daily both by practitioners in the area, as well
as in academia. Several resources of this kind are available, e.g. CIE, SnomedCT
or UMLS (Unified Medical Language System). These terminological databases are
of high quality due to them being the result of collaborative expert knowledge.
However, they may show certain drawbacks in terms of faithfully representing the
ever-changing medical domain. Therefore, systems aimed at capturing novel terminological
knowledge in heterogeneous text sources, and able to include them in
standard terminologies have the potential to add great value to such repositories.
This paper presents, first, Savana, a Biomedical Information Extraction system
which, combined with a validation phase carried out by medical practitioners, is
used to populate the Spanish branch of SnomedCT with novel knowledge. Second,
we describe and evaluate a system which, given a novel medical term, finds its most
likely hypernym, thus becoming an enabler in the task of terminological database
enrichment and expansion. |
Abstract:
|
Las bases terminológicas médicas constituyen una fuente de información
fundamental en el dominio médico, ya que son utilizadas a diario tanto por profesionales
en el sector como en el ámbito académico. Existen numerosos recursos de este
tipo, tales como la Clasificación Internacional de Enfermedades (CIE), SnomedCT,
o UMLS (Unified Medical Language System). La calidad de estas bases terminológicas
es en general alta, dado que están construidas manualmente por expertos.
Sin embargo, su capacidad para representar fielmente un dominio como el médico,
que se encuentra en constante evolución, es limitada. Por tanto, el desarrollo de
sistemas capaces de capturar nuevo conocimiento en fuentes textuales heterogéneas
e incluirlas en terminologías estándar tienen el potencial de añadir un gran valor
añadido a dichas terminologías. Este artículo presenta, en primer lugar, Savana,
un sistema de extracción de información biomédica que, combinado con validación
por parte de profesionales médicos, es utilizado para popular la rama española de
SnomedCT con nuevo conocimiento. En segundo lugar, describimos y evaluamos un
sistema que, dado un término médico nuevo, le asigna su hiperónimo más probable,
constituyendo así un facilitador en tareas de enriquecimiento y expansión de bases
terminológicas médicas. |
Abstract:
|
This work is partially funded by the Spanish Ministry of Economy and Competitiveness under the following sponsorships: Maria de Maeztu Units of Excellence Programme (MDM-2015-0502), and TUNER project (TIN2015-65308-C5-5-R, MINECO/FEDER, UE). |
Subject(s):
|
-Medical terminologies -Knowledge bases -Snomed -Word2vec -Semantics -Savana -Terminologías médicas -Bases de conocimiento -Snomed -Word2vec -Semántica -Savana |
Rights:
|
© Sociedad Española para el Procesamiento de Lenguaje Natural
|
Document type:
|
Article Article - Published version |
Published by:
|
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)
|
Share:
|
|