List view
Implementación de un Sistema de Recuperación de Información utilizando Lucene. Parte I: Indexación Parte II: Búsqueda Parte III: Facetas
Overdue by 7 year(s)•Due by November 30, 2018•4/4 issues closedPreprocesado de documentos. Análisis del texto, parte II. Manipulación del lenguaje humano, Apache Lucene, Procesado de texto con Lucene, Estudio de Analyzers y su creación, Stemmers
Overdue by 7 year(s)•Due by October 26, 2018•5/5 issues closedSe pide realizar un programa que sea capaz de extraer toda la información de los documentos que cuelgan de un directorio, que será pasado como entrada el pro- grama. Para ello nos crearemos un directorio en que almacenaremos ficheros con distinto formato (por ejemplo, podemos utilizar el proyecto Gutenberg (http://www.gutenberg.org/) para descargarnos libros en distintos idiomas y formatos) y debemos generar las siguientes salidas: - Realizar de forma automática una tabla que contenga el nombre del fichero, tipo, codificación e idioma. - Todos los enlaces que se pueden extraer de cada documento - Para cada documento, generar un fichero que contenga la ocurrencia de cada una de los términos en el mismo. Estos deben aparecer en orden decreciente de frecuencia. - En este apartado nos centraremos en aquellos documentos que sean libros (descargados del proyecto Gutenberg), considerar al menos tres idiomas diferentes. Una vez obtenida la salida del apartado anterior, debemos hacer un gráfico donde se presenten en el eje de las X los términos ordenados en orden decreciente de frecuencia y el el eje de las Y la frecuencia de los mismos. De igual forma se presentará el gráfico log-log.
Overdue by 7 year(s)•Due by October 5, 2018•5/5 issues closed