Extracción automática de pistas para la generación de crucigramas a partir de textos en inglés.

Por favor, use este identificador para citar o enlazar este ítem: https://hdl.handle.net/20.500.12008/39107 Cómo citar

Título:	Extracción automática de pistas para la generación de crucigramas a partir de textos en inglés.
Autor:	Collazo Gil, Arturo Sellanes Salomón, Diego Berruti Bengoechea, Santiago
Tutor:	Rosá, Aiala Chiruzzo, Luis
Tipo:	Tesis de grado
Palabras clave:	Generación de crucigramas, Extracción de pistas, Procesamiento del lenguaje natural
Fecha de publicación:	2023
Resumen:	En este proyecto se plantea el diseño y la implementación de un sistema de generación de crucigramas de forma automática a partir de textos para niños en inglés. Se trabaja sobre la existente aplicación del proyecto CINACINA de la Universidad de la República, el cual consiste en una herramienta utilizada para la enseñanza de inglés en diversos centros educativos del Uruguay. La aplicación incluye varias aplicaciones lúdicas para la enseñanza de inglés, una de las cuales permite generar crucigramas. Previamente, los crucigramas se generaban en forma dinámica a partir de conjuntos de pistas de una base estática. Con la mejora presentada, los crucigramas son generados de forma dinámica y variada, tomando como base un texto de entrada. Es decir, el sistema propuesto es capaz de extraer de forma automática, a partir de un texto ingresado en inglés, pares de pistas y definiciones relacionadas al texto y con esto generar un crucigrama completo. En particular, se desarrolla el módulo de extracción de pares «definiendum: definición» de posibles pistas para la generación del crucigrama entero. La implementación del módulo se basa en un corpus de textos no etiquetados, extraídos a partir del sitio web “ReadWorks”, consistente en 400 textos en inglés para niños, desde los cuales se obtienen los pares relevantes para crucigramas. La implementación propuesta utiliza diversas herramientas de procesamiento del lenguaje natural, donde distintos métodos se aplican de manera secuencial con el fin de obtener los pares. Cada método está basado en reglas y/o patrones comunes encontrados en los textos de entrada. Adicionalmente, se implementa un clasificador con un enfoque neuronal, capaz de clasificar las pistas generadas por el módulo anterior como buenas o malas. Este modelo es entrenado a partir de un corpus etiquetado manualmente por integrantes del proyecto e interesados en el mismo. Finalmente, se trabaja en la creación de una API para así soportar la integración con la aplicación ya existente sobre los crucigramas. Respecto a los resultados obtenidos, por cada texto del corpus se generan en promedio 6 pistas, donde el módulo tiene una accuracy del 72% de las pistas generadas. Estos resultados superan el método definido como línea base. Además, el clasificador implementado obtiene un 84% de accuracy y un 78% de F1, superando ampliamente el clasificador definido como linea base. Todos los objetivos son satisfechos por el proyecto, agregando el nuevo módulo al sistema.
Editorial:	Udelar. FI.
Citación:	Collazo Gil, A., Sellanes Salomón, D. y Berruti Bengoechea, S. Extracción automática de pistas para la generación de crucigramas a partir de textos en inglés [en línea] Tesis de grado. Montevideo : Udelar. FI. INCO, 2023.
Título Obtenido:	Ingeniero en Computación.
Facultad o Servicio que otorga el Título:	Universidad de la República (Uruguay). Facultad de Ingeniería.
Licencia:	Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0)
Aparece en las colecciones:	Tesis de grado - Instituto de Computación

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
CBS23.pdf	Tesis de grado	4,59 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons