Proceso Latente Semantico (LSP)

En un típico proceso LSI (Latent Semantic Indexing) hay 3 pasos principales: Indexing del documento, construcción de la matríz Términos-Documento, y Retorno del documento (mediante Singular Vector Decomposition). Durante el indexing del documento, filtrado, tokenización, eliminación de tags, y stemming son añadidos opcionalmente.

Normalización y relevancia local y global pueden ser usadas en el paso de dar el valor de relevancia. El uso de logs o escalas aumentadas podría ser parte de los pesos locales. La entropía podría ser puesta en ejecución si la opción sería utilizar pesos globales. En todo caso, la frecuencia de términos no serían bastantes.

Donde términos son sinónimos o no son inaplicables a SVD. La coocurrencia de las diferentes ordenes (1r nivel, 2do nivel, 3ro nivel, etc) es lo qué causa un term clustering, después del reconstruccion  hecho por SVD. LSI causa una redistribución de los pesos del término, a través de la matriz que representa la colección de documentos. Esto significa que cualquier cambio puede causar una nueva distribución de estos términos dentro de cualquiera de estos documentos. El proceso se puede utilizar investigacion de keywords, extensiones de queries, o reformulaciones de querys.