jueves, 25 de abril de 2013

Búsqueda y recuperación de la información


Búsqueda y recuperación de la información

            La búsqueda y recuperación de información consiste en  la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionadas, ya sea a través de internet, intranet, y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una recuperación de calidad.
      Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es "mucho o poco" es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental.
  • Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
  • Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la información es demasiado genérica.

En la búsqueda y recuperación de información, se accede a una información previamente almacenada, que permiten establecer ecuaciones de búsqueda específicas. Dicha información, ha debido de ser estructurada previamente a su almacenamiento. Las bases de datos donde estén almacenados los documentos deben definir lenguajes de interrogación y operadores que soportará la base de datos y establecer que tipo de ecuaciones serán permitidas.
Las ecuaciones de búsqueda permiten convertir los términos de búsqueda en conjuntos matemáticos, y operar con ellos como si fuesen conjuntos.
  • Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND). Se conocen como operadores lógicos o boléanos:
    • Y lógico (AND)
    • NO lógico (NOT)
    • O lógico (OR)
  • Otros operadores permiten especificar la posición de las palabras dentro del documento. A estos se les llama operadores posicionales:
    • Cerca (NEAR)
    • Junto (ADJ)
    • Frases
  • Hay operadores que indican cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados. A estos operadores se les conoce como operadores de existencia:
    • Presencia / Ausencia
    • Ausencia
  • Los operadores de exactitud se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz:
    • Proximidad
    • Por campos 
  • Los CCL (siglas en inglés de Common Comand Language) permiten restringir las búsquedas mediante calificadores, es decir, la búsqueda se puede llevar a cabo en campos específicos como autor, título... Este recurso es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.

Se considera que una recuperación ha sido de calidad cuando cumple los siguientes criterios básicos:
  • Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
  • Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información. 
  • Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
  • Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.

También se puede comparar la calidad de dos búsquedas usando las siguientes tasas:
  • Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.
  • Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.
  • Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados.
  • Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección.

No hay comentarios:

Publicar un comentario