Title:
|
Spanish morphological generation with wide-coverage lexicons and decision trees
|
Author:
|
Ferrés, Daniel; AbuRa’ed, Ahmed; Saggion, Horacio
|
Abstract:
|
Morphological Generation is the task of producing the appropiate in-
flected form of a lemma in a given textual context and according to some morphological
features. This paper describes and evaluates wide-coverage morphological
lexicons and a Decision Tree algorithm that perform Morphological Generation in
Spanish at state-of-the art level. The Freeling, Leffe and Apertium Spanish lexicons,
the J48 Decision Tree algorithm and the combination of J48 with Freeling and Leffe
lexicons have been evaluated with the following datasets for Spanish: i) CoNLL2009
Shared Task dataset, ii) Durrett and DeNero dataset of Spanish Verbs (DDN), and
iii) SIGMORPHON 2016 Shared Task (task-1) dataset. The results show that: i)
the Freeling and Leffe lexicons achieve high coverage and precision over the DDN
and SIGMORPHON 2016 datasets, ii) the J48 algorithm achieves state-of-the-art
results in all of the three datasets, and iii) the combination of Freeling, Leffe and the
J48 algorithm outperformed the results of our other approaches in the three evaluation
datasets, improved slightly the results of the CoNLL2009 and SIGMORPHON
2016 reported in the state-of-the-art literature, and achieved results comparable to
the ones reported in the state-of-the-art literature on the DDN dataset evaluation. |
Abstract:
|
La Generación Morfológica es la tarea de producir la forma flexionada
apropiada de un lemma en un determinado contexto textual y en concordancia
con algunas características morfol´ogicas. En este artículo se presentan y se evaluan
algunos lexicones morfológicos de amplia cobertura y un algoritmo de árboles de
decisión para la Generación Morfólogica en español. Los lexicones para el español
Freeling, Leffe y Apertium, el algoritmo de árboles de decisión J48 y la combinación
de los lexicones Freeling y Leffe con el J48 han sido evaluados con los siguientes conjuntos
de datos para el español: i) conjunto de datos de la CoNLL2009 Shared Task,
ii) el conjunto de datos de verbos para el español de Durrett y DeNero (DDN), y iii)
el conjunto de datos para el español de la evaluación SIGMORPHON 2016 Shared
Task (task-1). Los resultados muestran que: i) los lexicones morfológicos consiguen
alta cobertura y precisión en los conjuntos de datos DDN y SIGMORPHON 2016,
ii) el algoritmo J48 por si sólo alcanza resultados en el estado del arte en los tres
conjuntos de evaluación, y iii) que la combinación de predicciones de Freeling, Leffe
y el algoritmo J48 mejora los resultados de nuestras otras implementaciones en los
tres conjuntos de datos evaluados, que además mejoran ligeramente los resultados
reportados en el estado del arte en los conjuntos de datos del CoNLL2009 y del
SIGMORPHON 2016, y que consiguen resultados comparables con los reportados
en el estado del arte de la evaluación del conjunto de datos DDN. |
Abstract:
|
This work was partly funded by the ABLETO-INCLUDE
project (European Commission
CIP Grant No. 621055), the
TUNER project (TIN2015-65308-C5-5-R,
MINECO/FEDER, UE), and the Spanish
MINECO Ministry (MDM-2015-0502). |
Subject(s):
|
-Morphological generation -Morphological lexicons -Decision trees -Natural language generation -Generador morfológico -Lexicones morfológicos -Árboles de decisión -Generación de lenguaje natural |
Rights:
|
© Sociedad Española para el Procesamiento de Lenguaje Natural
|
Document type:
|
Article Article - Published version |
Published by:
|
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN)
|
Share:
|
|