Títol:
|
Un detector de la unidad central de un texto basado en técnicas de aprendizaje automático en textos científicos para el euskera
|
Autor/a:
|
Bengoetxea, Kepa; Atutxa, Aitziber; Iruskieta, Mikel
|
Abstract:
|
En este artículo presentamos el primer detector de la Unidad Central
(UC) de resúmenes cient´ıficos en euskera basado en técnicas de aprendizaje
automático. Después de segmentar el texto en unidades de discurso elementales, la
detección de la unidad central es crucial para anotar de forma más fiable la estructura
relacional de textos bajo la Teoría de la Estructura Retórica o Rhetorical
Structure Theory (RST). Además, la unidad central puede ser explotada en diversas
tareas como resumen automático, tareas de pregunta y respuesta o análisis del
sentimiento. Los resultados obtenidos demuestran que las técnicas de aprendizaje
automático superan a las técnicas basadas en reglas a pesar del pequeño tamaño del
corpus y de la heterogeneidad de los dominios que éste muestra, dejando todavía
lugar para mejoras y desarrollo. |
Abstract:
|
This paper presents an automatic detector of the discourse central unit
(CU) in scientific abstracts based on machine learning techniques. After segmenting
a text in its elementary discourse units, the detection of the central unit is a crucial
step on the way to robustly build discourse trees under the Rhetorical Structure
Theory (RST). Besides, CU detection may also be useful in automatic summarization,
question answering and sentiment analysis tasks. Results show that the CU
detection using machine learning techniques for Basque scientific abstracts outperform
rule based techniques, even on a small size corpus on different domains. This
leads us to think that there is still room for improvement. |
Abstract:
|
Este trabajo a sido financiado en parte por el siguiente proyecto: TIN2015-65308-C5-1-R (MINECO/FEDER). |
Matèries:
|
-Unidad central -Tópico principal -RST -Aprendizaje automático -Central unit -Main topic -RST -Machine learning |
Drets:
|
© Sociedad Española para el Procesamiento de Lenguaje Natural
|
Tipus de document:
|
Article Article - Versió publicada |
Publicat per:
|
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)
|
Compartir:
|
|