OCR per documents manuscrits

Otros/as autores/as

Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions

Morros Rubió, Josep Ramon

Fecha de publicación

2020-06-14

Resumen

Handwritten text transcription allows amounts of written information to be stored in digital files, but people have different font style and unique writing characteristics that make it very difficult to develop methods that can be used for transcribing many different styles and still maintain a good level of results. In this project, a text recognition system has been trained to be able to transcribe a specific font and get good results, but not having a large amount of data had determined that it has to use transfer learning to specialize the system in a writing style, having to train it with more generic data before. Also, it has been developed a method that segments the images of the document into lines so that the images can be adapted to the input of the neural network when training happens. Transcription results after training are as expected and have a low error rate. ?


La transcripción de texto escrito a mano permite almacenar mucha información escrita en ficheros digitales, pero cada ser humano tiene un estilo de letra diferente y unas características únicas de escritura que hacen muy difícil elaborar métodos que sirvan para muchos estilos diferentes y mantengan un buen nivel de resultados. En este proyecto, se ha entrenado un sistema de reconocimiento de texto para que sea capaz de transcribir un tipo de letra específico y obtener buenos resultados, pero al no poseer una gran cantidad de datos se ha optado por el uso de transfer learning para especializar el sistema en un estilo de escritura, habiéndolo entrenado de forma más genérica previamente. Se ha desarrollado también un método que segmenta las imágenes del documento en líneas para poder adaptarse a la entrada de la red neuronal en el momento de entrenarse. Los resultados de la transcripción una vez finalizado el entrenamiento son los esperados y presentan una baja tasa de error.

Tipo de documento

Bachelor thesis

Lengua

Catalán

Publicado por

Universitat Politècnica de Catalunya

Citación recomendada

Esta citación se ha generado automáticamente.

Derechos

S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada'

Open Access

Este ítem aparece en la(s) siguiente(s) colección(ones)