Por favor, use este identificador para citar o enlazar este ítem:
https://hdl.handle.net/20.500.12008/45678
Cómo citar
Título: | Sistema de identificación de segmentos relacionados temáticamente. |
Autor: | Barreto, Martín Bedat, Ricardo |
Tutor: | Prada, Juan José Rosá Furman, Aiala |
Tipo: | Tesis de grado |
Palabras clave: | Identificación temática, Expansión de consultas, Extracción de Información, Recuperación de Información, Relación Semántica |
Fecha de publicación: | 2009 |
Resumen: | El crecimiento de la cantidad de información digital se ha producido de manera exponencial
y desordenada. Esto conlleva a una necesidad de herramientas y mecanismos que nos
faciliten la tarea de recuperar y extraer información útil de manera eficaz y eficiente.
Un proceso eficaz para poder encontrar información útil es emplear mecanismos de Recuperación de Información seguido de procesos de Extracción de Información.
Nuestro trabajo se ubica dentro del área de Extracción de Información y tiene como
objetivo principal la búsqueda de segmentos de texto que estén relacionados temáticamente a una expresión de consulta. Desde un principio y durante todo el desarrollo del proyecto se optó por la construcción de una herramienta genérica y por tal motivo se consideró un dominio de documentos no acotado. Durante el desarrollo del proyecto nos enfrentamos a desafíos de diversa índole vinculados al procesamiento del lenguaje natural; como son el reconocimiento de oraciones, la identificación de entidades con nombre, el reconocimiento de locuciones, el análisis de categoría gramatical, el reconocimiento de los significados de las palabras, la identificación del lema de una palabra, el reconocimiento de sinónimos, hiperónimos, merónimos y otros tipos de relaciones, la expansión de la consulta, descarte de palabras que no aportan información semántica, la desambiguación automática, entre otros. Herramientas como Freeling y WordNet fueron claves para el éxito. Freeling nos brinda varios servicios para el análisis lingüístico y la posibilidad de poder mapear las palabras con conjuntos de sinónimos presentes enWordNet. WordNet nos permite encontrar las relaciones semánticas y léxicas entre conceptos del documento y de la expresión ingresada por el usuario. También fue determinante para obtener una arquitectura flexible, robusta y escalable la utilización de UIMA. Este framework es de gran ayuda para poder manipular información no estructurada y asignar metadatos al documento a medida que se procesa, así como también, para dividir el sistema en componentes independientes y reutilizables. La utilización de UIMA nos permitió integrar nuestro sistema a Lavinia, que es un ambiente web basado en este framework para procesamiento del lenguaje natural desarrollado en el ámbito del Grupo de Procesamiento de Lenguaje Natural de la Facultad de Ingeniería. Los resultados alcanzados por nuestro sistema son altamente alentadores, obteniendo una precisión de 74,80% y un recall de 78,28 %, valores superiores a trabajos relacionados realizados para otras lenguas. Quedamos muy conformes con los resultados del trabajo, consideramos que tanto la investigación
realizada como el producto obtenido son un valioso aporte al área, especialmente
para el idioma español. Y aunque queda mucho por hacer y mejorar, nuestro proyecto es
un buen punto de partida. |
Editorial: | Udelar.FI. |
Citación: | Barreto, M. y Bedat, R. Sistema de identificación de segmentos relacionados temáticamente [en línea]. Tesis de grado. Montevideo : Udelar. FI. INCO, 2009. |
Título Obtenido: | Ingeniero en Computación. |
Facultad o Servicio que otorga el Título: | Universidad de la República (Uruguay). Facultad de Ingeniería. |
Licencia: | Licencia Creative Commons Atribución - No Comercial - Sin Derivadas (CC - By-NC-ND 4.0) |
Aparece en las colecciones: | Tesis de grado - Instituto de Computación |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | ||
---|---|---|---|---|---|
BB09.pdf | Tesis de grado | 4,96 MB | Adobe PDF | Visualizar/Abrir |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons