====== Examen Parcial - 75.06. Organización de Datos ====== **Cátedra:** Servetto\\ **Fecha:** Primera Oportunidad - Segundo Cuatrimestre 2006\\ **Día:** 6/11/2006\\ **Modulo:** Sistema de recuperación de textos (FTRS) Esta página está incompleta; podés ayudar completando el material. ===== Enunciado ===== Para aprobar es necesario tener 10/16 puntos. Además no debe haber ningún error conceptual grave. ==== Punto I ==== Considerar que cada palabra es un término y cada línea un documento. * Resuelva la consulta rankeada "P y Q" para los siguientes documentos, utilizando la distancia euclidea sobre la representación TF-IDF. (3) D1: P Q Q Q R\\ D2: P P Q\\ D3: O P\\ D4: Q Q Q R\\ D5: O O O R\\ * Represente los documentos D1 y D4 utilizando representación vectorial booleana y calcule el índice de similitud de Jaccard. (1) * Escriba la estructura del indice invertido para representar los términos de estos documentos. (3) ==== Punto II ==== Un término aparece en los siguientes documentos: Doc 9, Doc 12, Doc 17, Doc 23, Doc 35, Doc 39, Doc 42 Dicho término representa bastante bien al resto de los términos que existen en el sistema, por lo que se quiere analizaar en base a él si conviene utilizar códigos unarios, delta o gamma. Calcule la forma de almacenamiento utilizando los 3 códigos y determine cual es el mejor. (3) ==== Punto III ==== Explicar cómo puede resolverse la siguiente consulta (*ATA ) utilizando léxico rotado suponiendo que se tienen los siguientes términos: CASA\\ GATA\\ GATO\\ MATA\\ MATO\\ TASA\\ (3) ==== Punto IV ==== Mostrar el ahorro que podría efectuarse en un índice si se utiliza Front Coding para almacenamiento de los términos del punto anterior. Calcular el ahorro que se produciriía si se usara front coding parcial de 3 en 4. (3) ===== Resolución ===== ===== Discusión ===== Si ves algo que te parece incorrecto en la resolución y no te animás a cambiarlo, dejá tu comentario acá.