jueves, 25 de abril de 2013

Búsqueda y recuperación de la información


Búsqueda y recuperación de la información

            La búsqueda y recuperación de información consiste en  la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionadas, ya sea a través de internet, intranet, y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una recuperación de calidad.
      Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es "mucho o poco" es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental.
  • Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
  • Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la información es demasiado genérica.

En la búsqueda y recuperación de información, se accede a una información previamente almacenada, que permiten establecer ecuaciones de búsqueda específicas. Dicha información, ha debido de ser estructurada previamente a su almacenamiento. Las bases de datos donde estén almacenados los documentos deben definir lenguajes de interrogación y operadores que soportará la base de datos y establecer que tipo de ecuaciones serán permitidas.
Las ecuaciones de búsqueda permiten convertir los términos de búsqueda en conjuntos matemáticos, y operar con ellos como si fuesen conjuntos.
  • Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND). Se conocen como operadores lógicos o boléanos:
    • Y lógico (AND)
    • NO lógico (NOT)
    • O lógico (OR)
  • Otros operadores permiten especificar la posición de las palabras dentro del documento. A estos se les llama operadores posicionales:
    • Cerca (NEAR)
    • Junto (ADJ)
    • Frases
  • Hay operadores que indican cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados. A estos operadores se les conoce como operadores de existencia:
    • Presencia / Ausencia
    • Ausencia
  • Los operadores de exactitud se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz:
    • Proximidad
    • Por campos 
  • Los CCL (siglas en inglés de Common Comand Language) permiten restringir las búsquedas mediante calificadores, es decir, la búsqueda se puede llevar a cabo en campos específicos como autor, título... Este recurso es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.

Se considera que una recuperación ha sido de calidad cuando cumple los siguientes criterios básicos:
  • Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
  • Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información. 
  • Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
  • Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.

También se puede comparar la calidad de dos búsquedas usando las siguientes tasas:
  • Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.
  • Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.
  • Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados.
  • Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección.

martes, 16 de abril de 2013

Buscadores



Buscadores
En la década de los 90 las páginas web disponibles eran en su mayoría de carácter científico y técnico y en un 90% provenían de las universidades y estamentos oficiales. Pero esto cambio rápidamente y a mediados de los 90, en los albores del año 2000, las páginas personales y dominios privados crecieron de forma inusitada, inundando como una ola gigante la World Wide Web con contenidos de toda índole. Fue en ese momento de explosión de la red cuando los buscadores comenzaron a cobrar relevancia a la hora de encontrar páginas web con los contenidos deseados.
La primera década del nuevo milenio no ha sido particularmente fructífera en cuanto a la aparición de nuevos servicios. La hegemonía de Google parece haber desalentado su creación, y lo cierto es que buena parte de las propuestas más interesantes que han surgido a lo largo de los últimos años han desaparecido sin dejar rastro. Es el caso de Cuil, que fue lanzado en 2008 y cerró su página a finales de 2010. Aun así, Google no es la única herramienta de búsqueda. A continuación exponemos la lista de los 10 buscadores más usados en los últimos años y sus países de origen: 

1.       Google (USA)
2.       Yahoo (USA)
3.       Bing (USA)
4.       Baidu (China)
5.       MSN (USA)
6.       NHN Corporation (Korea)
7.       Ebay (USA)
8.       Ask Network (USA)
9.       Yandex (Rusia)
10.   Alibaba (China)

El hecho de que 6 de 10 de los buscadores tengan su origen en los Estados Unidos se puede deber al idioma, el inglés es el idioma que más comúnmente se habla en el mundo, es el idioma en el que se publican la mayoría de los artículos científicos y, sin duda, el que más resultados ofrece en prácticamente cualquier buscador web.
Sin embargo, realizar búsquedas en buscadores diferentes no garantiza obtener distintos resultados ya que, en varios casos, hay buscadores que comparten motores de búsqueda, bases de datos y resultados en general. Como sucede con Ask Network y AOL.com que comparten los resultados de Google; AltaVista y Terra.com comparten los resultados de búsqueda de Yahoo!; y MSN e Hispavista comparten los resultados de Bing.
En España, la hegemonía de Google es abrumadora siendo prácticamente el único motor de búsqueda usado por los usuarios de internet:
Buscadores
Idioma
% de uso
Google
Español
96 %
Yahoo!
Español
2 %
MSN
Español
0,34 %
Search
Español
0,33 %
Live
Español
0,29 %
Terra
Español
0,27 %
AOL
Español
0,09 %
Altavista
Español
0,08 %
Ask
Español
0,02 %
Lycos
Español
0,02 %
Alltheweb
Inglés
0,01 %

Y no solo en España, en el resto del mundo Google es el buscador más utilizado:

El porcentaje de Google en los países más característicos
España
99%
Alemania
91%
Holanda
91%
Francia
85%
Bélgica
85%
Australia
80%
Reino Unido
75%
USA
42%
Japón
39%
China
21%

En un panorama tan compartimentado como el que nos ocupa, donde prácticamente solo se habla de Google, de Bing y de Yahoo!, ha provocado la aparición de un sinfín de servicios de metabúsqueda. En vez de crear sus propios índices mediante robots que exploran la Red recopilando y clasificando la información, los metabuscadores se nutren de los datos que proporcionan servicios ya existentes.
Los ejemplos abundan y, al margen de las soluciones analizadas, tenemos Bingle (http://bingle.nu), que busca simultáneamente en Bing y en Google, o Triplify (www.triplify.com), que además de recolectar información de estos dos buscadores suma a sus resultados las coincidencias de Yahoo!
Particularmente interesante resulta en este sentido la página de BlindSearch (http://blindsearch.fejus.com), que nos propone el siguiente experimento: los resultados de los tres principales servicios se muestran en tres columnas independientes sin que se identifique su procedencia. Solo tras votar por la columna que juzguemos más ajustada a los términos que hemos tecleado se nos revelará a qué buscador corresponden.