martes, 7 de mayo de 2013

Business Intelligence



Business Intelligence

Cualquier persona con cierto grado de responsabilidad en su empresa es conocedora de la ingente cantidad de datos con los que cuenta su compañía. Estos datos,  relevantes para el buen funcionamiento de la misma, son manejados, manipulados y traspasados de un compañero a otro, de unos departamentos a otros, a través de cientos de archivos de Excel, PDF, Word o incluso notas escritas a mano, que cada empleado apila en su PCs de forma local y que comparte mediante email que se pierden en el olvido. Esto provoca una enorme pérdida de tiempo en localizar de datos, reunirlos y verificarlos. Hoy en día, tanto las multinacionales como las PYMES, cuentan en el mercado con soluciones de Business Intelligence que ayudan a resolver este problema, y facilitan el acceso a la información y por tanto a la toma de decisiones.
Se denomina business intelligence al conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa. Algunos de los beneficios que aportan estas soluciones de Business Intelligence:
  • Facilita la recogida y validación diaria de la información: Todos los días el sistema carga los datos que cada departamento haya generado. 
  • Da accesibilidad la información de la empresa: La información agregada diariamente es traducida a lenguaje de negocio y se hace visible y  accesible a todos los miembros de la organización. Lo primero que debe garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con independencia de la procedencia de estos. Lo que produce una unión interdepartamental: toda la empresa irá en la misma dirección, hablará el  mismo lenguaje y dispondrá de la misma información.
  • Se busca ir más allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular sólo aquellos datos que les interesen. Ofrece información en tiempo real sobre el estado de la empresa: lo que permite tomar decisiones acertadas y en base a la realidad presente de la compañía.
  • Permite realizar simulaciones “What if”, pudiendo dar respuesta a preguntas como: ¿Qué necesitaré si consigo más clientes? ¿Qué ocurrirá si pierdo a mi mejor cliente? Permite valorar si la estrategia empresarial es la adecuada e introducir los cambios necesarios en función de los resultados , lo que ayudan enfrentarse a posibles necesidades o problemáticas que el mercado  plantee y  facilita la adopción de respuestas más agiles, rápidas y acertadas. Esto también conlleva un ahorro de costes.
  • Mejora de la calidad del dato al eliminar o reducir el tratamiento manual de la información. No dependemos del factor humano para la recogida de la información, que se realiza de manera automática
  • Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios y su capacidad para utilizar estas herramientas. 

jueves, 25 de abril de 2013

Búsqueda y recuperación de la información


Búsqueda y recuperación de la información

            La búsqueda y recuperación de información consiste en  la búsqueda de información en documentos electrónicos y cualquier tipo de colección documental digital, encargada de la búsqueda dentro de éstos mismos, búsqueda de metadatos que describan documentos, o también la búsqueda en bases de datos relacionadas, ya sea a través de internet, intranet, y como objetivo realiza la recuperación en textos, imágenes, sonido o datos de otras características. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una recuperación de calidad.
      Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, como son: los índices, palabras clave, tesauros y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental. Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es "mucho o poco" es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental.
  • Silencio documental: Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.
  • Ruido documental: Son aquellos documentos recuperados por el sistema pero que no son relevantes. Esto suele ocurrir cuando la información es demasiado genérica.

En la búsqueda y recuperación de información, se accede a una información previamente almacenada, que permiten establecer ecuaciones de búsqueda específicas. Dicha información, ha debido de ser estructurada previamente a su almacenamiento. Las bases de datos donde estén almacenados los documentos deben definir lenguajes de interrogación y operadores que soportará la base de datos y establecer que tipo de ecuaciones serán permitidas.
Las ecuaciones de búsqueda permiten convertir los términos de búsqueda en conjuntos matemáticos, y operar con ellos como si fuesen conjuntos.
  • Las operaciones básicas son la suma (OR), la resta (NOT) y el producto (AND). Se conocen como operadores lógicos o boléanos:
    • Y lógico (AND)
    • NO lógico (NOT)
    • O lógico (OR)
  • Otros operadores permiten especificar la posición de las palabras dentro del documento. A estos se les llama operadores posicionales:
    • Cerca (NEAR)
    • Junto (ADJ)
    • Frases
  • Hay operadores que indican cuando se requiere la presencia o ausencia de una palabra en los documentos recuperados. A estos operadores se les conoce como operadores de existencia:
    • Presencia / Ausencia
    • Ausencia
  • Los operadores de exactitud se utiliza cuando la consulta que se pretende es menos específica ya que, permite la posibilidad de cortar una palabra de búsqueda a su raíz:
    • Proximidad
    • Por campos 
  • Los CCL (siglas en inglés de Common Comand Language) permiten restringir las búsquedas mediante calificadores, es decir, la búsqueda se puede llevar a cabo en campos específicos como autor, título... Este recurso es muy utilizado en bases de datos. La característica de este sistema es que puede mezclar los dos lenguajes, calificadores y operadores lógicos, obteniendo de esta forma una búsqueda muy exhaustiva.

Se considera que una recuperación ha sido de calidad cuando cumple los siguientes criterios básicos:
  • Consistencia: Capacidad que tiene un sistema de búsqueda en coordinar su sistema de clasificación con el lenguaje de búsqueda, permitiendo de esta manera establecer ecuaciones de búsqueda sobre términos admitidos.
  • Exhaustividad: Es la cualidad de un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda.
  • Relevancia: Característica de un documento recuperado que cumple con la necesidades de información. 
  • Pertinencia: Es la cualidad que tiene el documento recuperado de adaptarse a las necesidades de información.
  • Precisión: es la capacidad que tiene el sistema de búsqueda en coordinar la ecuación con los documentos más relevantes. De otra forma son aquellos documentos relevantes recuperados.

También se puede comparar la calidad de dos búsquedas usando las siguientes tasas:
  • Tasa de acierto: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos relevantes de la colección.
  • Tasa de relevancia: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos recuperados.
  • Tasa de pertinencia: coeficiente que surge de dividir el número de documentos pertinentes recuperados, sobre el número total de documentos recuperados.
  • Tasa de precisión: coeficiente que surge de dividir el número de documentos relevantes recuperados, sobre el número total de documentos de la colección.

martes, 16 de abril de 2013

Buscadores



Buscadores
En la década de los 90 las páginas web disponibles eran en su mayoría de carácter científico y técnico y en un 90% provenían de las universidades y estamentos oficiales. Pero esto cambio rápidamente y a mediados de los 90, en los albores del año 2000, las páginas personales y dominios privados crecieron de forma inusitada, inundando como una ola gigante la World Wide Web con contenidos de toda índole. Fue en ese momento de explosión de la red cuando los buscadores comenzaron a cobrar relevancia a la hora de encontrar páginas web con los contenidos deseados.
La primera década del nuevo milenio no ha sido particularmente fructífera en cuanto a la aparición de nuevos servicios. La hegemonía de Google parece haber desalentado su creación, y lo cierto es que buena parte de las propuestas más interesantes que han surgido a lo largo de los últimos años han desaparecido sin dejar rastro. Es el caso de Cuil, que fue lanzado en 2008 y cerró su página a finales de 2010. Aun así, Google no es la única herramienta de búsqueda. A continuación exponemos la lista de los 10 buscadores más usados en los últimos años y sus países de origen: 

1.       Google (USA)
2.       Yahoo (USA)
3.       Bing (USA)
4.       Baidu (China)
5.       MSN (USA)
6.       NHN Corporation (Korea)
7.       Ebay (USA)
8.       Ask Network (USA)
9.       Yandex (Rusia)
10.   Alibaba (China)

El hecho de que 6 de 10 de los buscadores tengan su origen en los Estados Unidos se puede deber al idioma, el inglés es el idioma que más comúnmente se habla en el mundo, es el idioma en el que se publican la mayoría de los artículos científicos y, sin duda, el que más resultados ofrece en prácticamente cualquier buscador web.
Sin embargo, realizar búsquedas en buscadores diferentes no garantiza obtener distintos resultados ya que, en varios casos, hay buscadores que comparten motores de búsqueda, bases de datos y resultados en general. Como sucede con Ask Network y AOL.com que comparten los resultados de Google; AltaVista y Terra.com comparten los resultados de búsqueda de Yahoo!; y MSN e Hispavista comparten los resultados de Bing.
En España, la hegemonía de Google es abrumadora siendo prácticamente el único motor de búsqueda usado por los usuarios de internet:
Buscadores
Idioma
% de uso
Google
Español
96 %
Yahoo!
Español
2 %
MSN
Español
0,34 %
Search
Español
0,33 %
Live
Español
0,29 %
Terra
Español
0,27 %
AOL
Español
0,09 %
Altavista
Español
0,08 %
Ask
Español
0,02 %
Lycos
Español
0,02 %
Alltheweb
Inglés
0,01 %

Y no solo en España, en el resto del mundo Google es el buscador más utilizado:

El porcentaje de Google en los países más característicos
España
99%
Alemania
91%
Holanda
91%
Francia
85%
Bélgica
85%
Australia
80%
Reino Unido
75%
USA
42%
Japón
39%
China
21%

En un panorama tan compartimentado como el que nos ocupa, donde prácticamente solo se habla de Google, de Bing y de Yahoo!, ha provocado la aparición de un sinfín de servicios de metabúsqueda. En vez de crear sus propios índices mediante robots que exploran la Red recopilando y clasificando la información, los metabuscadores se nutren de los datos que proporcionan servicios ya existentes.
Los ejemplos abundan y, al margen de las soluciones analizadas, tenemos Bingle (http://bingle.nu), que busca simultáneamente en Bing y en Google, o Triplify (www.triplify.com), que además de recolectar información de estos dos buscadores suma a sus resultados las coincidencias de Yahoo!
Particularmente interesante resulta en este sentido la página de BlindSearch (http://blindsearch.fejus.com), que nos propone el siguiente experimento: los resultados de los tres principales servicios se muestran en tres columnas independientes sin que se identifique su procedencia. Solo tras votar por la columna que juzguemos más ajustada a los términos que hemos tecleado se nos revelará a qué buscador corresponden.

viernes, 22 de marzo de 2013

Sistemas de almacenamiento actuales



Sistemas de almacenamiento actuales

                 Los dispositivos en los que almacenamos información actualmente han sufrido grandes cambios en relativamente pocos años: nuevos formatos y con mayor capacidad.

                -Discos duros: en el mercado se consiguen de hasta 1000 GB (1 Terabyte), siendo los más comunes los que van de 120 a 500 GB, pero al estar alojados, normalmente, dentro del ordenador (discos internos), no son extraíbles fácilmente. Para intercambiar información con otros equipos (si no están conectados en red) se tienen que usar, o traspasar la información, a otro tipo de dispositivo de almacenamiento. En la actualidad, contamos con discos duros externos que nos permiten utilizar nuestra información en distintos ordenadores.
Un disco duro está formado por varios discos apilados sobre los que se mueve una pequeña cabeza magnética que graba y lee la información. Este componente, al contrario que el micro o los módulos de memoria, no se pincha directamente en la placa, sino que se conecta a ella mediante un cable. También va conectado a la fuente de alimentación.

-Disquete o disco flexible: es un medio de almacenamiento o soporte de almacenamiento de datos formado por una pieza circular de material magnético, fina y flexible encerrada en una cubierta de plástico, cuadrada o rectangular. Actualmente está prácticamente en desuso. La máxima capacidad comercializada en este formato fue 240 MB aunque la más habitual era de 150 a 200 MB. Este tipo de dispositivo de almacenamiento es vulnerable a la suciedad y los campos magnéticos externos, por lo que, en muchos casos, deja de funcionar con el tiempo.

-Discos ópticos: dentro de esta clase tenemos 3 formatos que son CDs, DVDs y Blu-ray.

-CD´s: El disco compacto es un soporte digital óptico utilizado para almacenar cualquier tipo de información. Los discos compactos se hacen de un disco grueso, de 1,2 mm, de policarbonato de plástico, al que se le añade una capa reflectante de aluminio, utilizada para obtener más longevidad de los datos. Así se reflejará la luz del láser, posteriormente se le añade una capa protectora de laca, que actúa como protector del aluminio. En el caso de los CD-R y CD-RW se usa oro, plata, y aleaciones de las mismas, que por su ductilidad permite a los láseres grabar sobre ella, cosa que no se podría hacer sobre el aluminio con láseres de baja potencia. Tipos de disco compacto:
    ·Sólo lectura: CD-ROM (Compact Disc - Read Only Memory).
    ·Grabable: CD-R (Compact Disc - Recordable).
    ·Regrabable: CD-RW (Compact Disc - Re-Writable).
    ·De audio: CD-DA (Compact Disc - Digital Audio).
Un CD-ROM estándar puede albergar 650 o 700 MB, pudiendo doblar esta capacidad si es de doble capa.

-DVDs: es un disco de almacenamiento de datos. Sus siglas corresponden con Digital Versatile Disc en inglés (disco versátil digital traducido al español). Los DVD se dividen en dos categorías: los de capa simple y los de doble capa. Además el disco puede tener una o dos caras, y una o dos capas de datos por cada cara; el número de caras y capas determina la capacidad del disco. Los DVD de capa simple pueden guardar aproximadamente 4GB. Los DVD se pueden clasificar:

o   Según su capacidad de regrabado (La mayoría de las grabadoras de DVD nuevas pueden grabar en ambos formatos y llevan ambos logotipos, «+RW» y «DVD-R/RW»):
· DVD-ROM: solo lectura, manufacturado con prensa. Almacena desde 4,7 GB hasta 17 GB
   · DVD-R y DVD+R: grabable una sola vez. La diferencia entre los tipos +R y -R radica en la forma de grabación y de codificación de la información. En los +R los agujeros son 1 lógicos mientras que en los –R los agujeros son 0 lógicos.
   · DVD-RW y DVD+RW: regrabable.
   · DVD-RAM: regrabable de acceso aleatorio. Lleva a cabo una comprobación de la integridad de los datos siempre activa tras completar la escritura.
   · DVD+R DL: grabable una sola vez de doble capa.

o   Según su número de capas o caras:
   · DVD-5: una cara, capa simple; 4,7 GB o 4,38 GiB. Discos DVD±R/RW.
   · DVD-9: una cara, capa doble; 8,5 GB o 7,92 GiB. Discos DVD+R DL. La grabación de doble capa permite a los discos DVD-R y los DVD+RW almacenar significativamente más datos, hasta 8,5 GB por disco, comparado con los 4,7 GB que permiten los discos de una capa.
· DVD-10: dos caras, capa simple en ambas; 9,4 GB o 8,75 GiB. Discos DVD±R/RW.
· DVD-14: dos caras, capa doble en una, capa simple en la otra; 13,3 GB o 12,3 GiB. Raramente utilizado.
· DVD-18: dos caras, capa doble en ambas; 17,1 GB o 15,9 GiB. Discos DVD+R.
· También existen DVD de 8 cm (no confundir con miniDVD, que son CD que contienen información de tipo DVD video) que tienen una capacidad de 1,5 GB.

-Blu-ray: es un formato de disco óptico de nueva generación empleado para vídeo de alta definición y con una capacidad de almacenamiento de datos de alta densidad mayor que la del DVD. El disco Blu-ray hace uso de un rayo láser de color azul con una longitud de onda de 405 nanómetros, a diferencia del láser rojo utilizado en lectores de DVD, que tiene una longitud de onda de 650 nanómetros, de ahí viene el nombre de este formato. Esto, junto con otros avances tecnológicos, permite almacenar sustancialmente más información que el DVD en un disco de las mismas dimensiones y aspecto externo. El DVD ofreció en su momento una alta calidad, ya que era capaz de dar una resolución de 720x480 ó 720x576, lo que es ampliamente superado por la capacidad de alta definición ofrecida por el Blu-ray, que es de 1920x1080. Este último es el formato utilizado por los estudios para archivar sus producciones, que anteriormente se convertía al formato que se quisiese exportar. Una capa de disco Blu-ray puede contener alrededor de 25 GB o cerca de 6 horas de vídeo de alta definición más audio; también está en el mercado el disco de doble capa, que puede contener aproximadamente 50 GB.

-Memoria flash: permite la lectura y escritura de múltiples posiciones de memoria en la misma operación. Se trata de la tecnología empleada en los dispositivos denominados pendrive. Ofrecen características como gran resistencia a los golpes, bajo consumo y completo silencioso, ya que no contiene ni actuadores mecánicos ni partes móviles. Su pequeño tamaño también es un factor determinante a la hora de escoger para un dispositivo portátil, así como su ligereza y versatilidad para todos los usos hacia los que está orientado. Sin embargo, todos los tipos de memoria flash sólo permiten un número limitado de escrituras y borrados, generalmente entre 10.000 y un millón, dependiendo de la celda, de la precisión del proceso de fabricación y del voltaje necesario para su borrado. Las aplicaciones más habituales son:
· El pendrive o memoria USB de 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 GB, y hasta 1 TB de memoria.
· Las PC Card.
· Las tarjetas de memoria flash que son el sustituto del carrete en la fotografía digital, ya que en las mismas se almacenan las fotos y pueden almacenar hasta 32 GB.

-Cintas magnéticas de almacenamiento: La principal diferencia entre el almacenamiento en cintas y en discos es que la cinta es un medio de acceso secuencial, mientras que el disco en un medio de acceso aleatorio. Hay dos características clave para clasificar las tecnologías de cintas magnéticas:

· Anchura de la cinta: La anchura más común de una cinta de alta capacidad ha sido como máximo de media pulgada. Existen muchos otros tamaños y la mayoría han sido desarrollados para tener menor encapsulado o mayor capacidad.

· Método de grabación. Más específicamente, la diferencia radica en si los datos son escritos linealmente o por escaneo 'helical'. El método lineal ordena en pistas paralelas a la longitud de la cinta. El escaneo 'helical' escribe pequeñas pistas curvada desde un borde de la cinta hasta el otro. Originalmente, la grabación lineal significaba ocupar completamente la anchura de la cinta y escribiendo o leyendo todas las pistas a la vez. Una variación de esta tecnología, es la llamada grabación lineal 'serpentine' que solo graba una fracción de las pistas en la cinta a la vez. Después de realizar una pasada completa, la cabeza se desplaza ligeramente y hace otra pasada en la dirección contraria. Este procedimiento es repetido hasta que todas las pistas han sido leídas o escritas. Usando este método, la cinta puede tener más pistas que las usadas con el método linear normal. En contraste a esto, el método de escaneo 'helical' solo necesita una pasada para leer o escribir toda la cinta.

Suelen usarse para backup de información, donde también hay varias medidas de almacenamiento, por ejemplo la Digital Linear Tape, DLT-S4 de 800 GB de capacidad sin compresión.

-Almacenamiento online: son servicios, de pagos o gratuitos, que nos permiten almacenar información y acceder a esta, desde cualquier parte del mundo a través de internet. Las capacidades dependen de cada servicio.


Aparte de los dispositivos físicos donde podemos guardar nuestros datos hay que mencionar también las distintas bases de datos que podemos encontrar:

- MySQL: es una base de datos con licencia GPL basada en un servidor. Se caracteriza por su rapidez. No es recomendable usar para grandes volúmenes de datos. MySQL es muy utilizado en aplicaciones web, como Drupal o phpBB, en plataformas (Linux/Windows-Apache-MySQL-PHP/Perl/Python), y por herramientas de seguimiento de errores como Bugzilla. Su popularidad como aplicación web está muy ligada a PHP, que a menudo aparece en combinación con MySQL.

- PostgreSQL: es un SGBD relacional orientado a objetos y libre, publicado bajo la licencia BSD. Mediante un sistema denominado MVCC (Acceso concurrente multiversión, por sus siglas en inglés) PostgreSQL permite que mientras un proceso escribe en una tabla, otros accedan a la misma tabla sin necesidad de bloqueos. Cada usuario obtiene una visión consistente de lo último a lo que se le hizo “commit”. Esta estrategia es superior al uso de bloqueos por tabla o por filas común en otras bases, eliminando la necesidad del uso de bloqueos explícitos. Algunas de las ventajas de este SGBD son: seguridad en términos generales, integridad en BD (restricciones en el dominio), integridad referencial, afirmaciones (Assertions), disparadores (Tiggers), autorizaciones, conexión a DBMS, transacciones y respaldos.

-Oracle: es un sistema de gestión de base de datos objeto-relacional (o ORDBMS por el acrónimo en inglés de Object-Relational Data Base Management System), desarrollado por Oracle Corporation. Se considera a Oracle como uno de los sistemas de bases de datos más completos, destacando: soporte de transacciones, estabilidad, escalabilidad y Soporte multiplataforma. Su dominio en el mercado de servidores empresariales ha sido casi total hasta hace poco, recientemente sufre la competencia del Microsoft SQL.

-Microsoft SQL Server: es un sistema para la gestión de bases de datos desarrollado por Microsoft basado en el modelo relacional. Se utiliza para manejar grandes volúmenes de informaciones. Sus lenguajes para consultas son T-SQL y ANSI SQL. Sus características más relevantes son: soporte de transacciones, soporta procedimientos almacenados, incluye también un entorno gráfico de administración (que permite el uso de comandos DDL y DML gráficamente), permite trabajar en modo cliente-servidor, donde la información y datos se alojan en el servidor y los terminales o clientes de la red sólo acceden a la información. Además permite administrar información de otros servidores de datos.