Búsqueda y
recuperación de la información
La búsqueda
y recuperación de información consiste en
la
búsqueda de información en documentos electrónicos y cualquier tipo de
colección documental digital, encargada de la búsqueda dentro de éstos mismos,
búsqueda de metadatos que describan documentos, o también la búsqueda
en bases de datos
relacionadas,
ya sea a través de internet, intranet,
y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de
otras características. Se puede recuperar a través de diferentes herramientas: bases de
datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas
herramientas contribuye a una recuperación de calidad.
Es necesario tener en cuenta los elementos clave que permiten
hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como
son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en
el proceso como son el ruido y silencio documental. Uno de los problemas que
surgen en la búsqueda de información es si lo que recuperamos es "mucho o
poco" es decir, dependiendo del tipo de búsqueda se pueden recuperar
multitud de documentos o simplemente un número muy reducido. A este fenómeno se
denomina Silencio o Ruido documental.
- Silencio documental: Son aquellos documentos almacenados en
la base de datos pero que no han sido recuperados, debido a que la
estrategia de búsqueda ha sido demasiado específica o que las palabras
clave utilizadas no son las adecuadas para definir la búsqueda.
- Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la información es demasiado genérica.
En la búsqueda y recuperación de
información, se accede a una información previamente almacenada, que permiten
establecer ecuaciones de búsqueda específicas. Dicha información, ha debido de
ser estructurada previamente a su almacenamiento. Las bases de datos donde
estén almacenados los documentos deben definir lenguajes de interrogación y
operadores que soportará la base de datos y establecer que tipo de ecuaciones
serán permitidas.
Las
ecuaciones de búsqueda permiten convertir los términos de búsqueda en conjuntos
matemáticos, y operar con ellos como si fuesen conjuntos.
- Las operaciones básicas son la suma
(OR), la resta (NOT) y el producto (AND). Se conocen como operadores
lógicos o boléanos:
- Y lógico (AND)
- NO lógico (NOT)
- O lógico (OR)
- Otros operadores permiten especificar la
posición de las palabras dentro del documento. A estos se les llama
operadores posicionales:
- Cerca (NEAR)
- Junto (ADJ)
- Frases
- Hay operadores que indican cuando se
requiere la presencia o ausencia de una palabra en los documentos
recuperados. A estos operadores se les conoce como operadores de
existencia:
- Presencia / Ausencia
- Ausencia
- Los operadores de exactitud se utiliza
cuando la consulta que se pretende es menos específica ya que, permite la
posibilidad de cortar una palabra de búsqueda a su raíz:
- Proximidad
- Por campos
- Los CCL (siglas en inglés de Common Comand Language) permiten restringir las búsquedas mediante calificadores, es decir, la búsqueda se puede llevar a cabo en campos específicos como autor, título... Este recurso es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.
Se
considera que una recuperación ha sido de calidad cuando cumple los siguientes
criterios básicos:
- Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
- Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
- Relevancia: Característica de un documento recuperado que cumple con la necesidades de información.
- Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
- Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.
También
se puede comparar la calidad de dos búsquedas usando las siguientes tasas:
- Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.
- Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.
- Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados.
- Tasa de precisión: coeficiente que surge
de dividir el número de documentos relevantes recuperados, sobre el número
total de documentos de la colección.