UNIDAD III

LAS 10 BASES DE DATOS MÁS GRANDES DEL MUNDO.


1.- CENTRO MUNDIAL DE DATOS PARA EL CLIMA.

La base de datos de Wold Data Center for Climate es la más grande del mundo. Realiza una extensa investigación científica sobre el clima, modelos y predicción de fenómenos climatológicos a nivel mundial.

CIFRAS: 
220 terabytes de datos en la web.
6 petabytes de datos adicional.

2.- NATIONAL ENERGY RESEARCH SCIENTIFIC COMPUTING CENTER.

La NERSC es manejado en parte por el Departamento de Energía de Estados Unidos. Almacena información sobre investigación de energía atómica, experimentos de física de alta energía  Las supercomputadoras con las que cuenta son: Sistema distribuido IBM de 6,80 procesadores y cosas así. Su base de datos tiene 2.0 Petabytes y 53 millones de filas.

CIFRAS: 
2.8 Petabytes de datos. Capacidad de crecimiento a 22 petabytes. Transfiere en promedio más de 100 Megabytes por segundo, 24 horas al día.
Llegando a picos de 450 MB/s.
Opera por 2 mil científicos de la computación.

3.- AT&T.

Es también una de las compañías de telecomunicaciones del mundo, tal como Sprint, pero es la mas antigua de EEUU. AT&T almacena datos sobre el numero marcado, la duración de la llamada, facturación, etc. Almacena datos de llamadas realizadas hace décadas.

CIFRAS:
323 Terabytes de información.
1.9 billones de registro de llamadas.

4.- GOOGLE.

No se sabe mucho sobre el verdadero tamaño de la base de datos de Google (guarda celosamente esta información). Pero se sabe bastante sobre las cifras que maneja. Aproximadamente recibe unos 91 millones de consultas al día, y almacena absolutamente todas las consultas que sus usuarios realizan. En todos estos años, eso debe de dar como resultado unos 33 billones de entradas en la base de datos. Dependiendo de su arquitectura, esto puede significar cientos de terabytes de información. A eso hay que sumarle la información guardada de cada usuario, Google Vídeo, Gmail, Ad Sense, etc.

CIFRAS:
91 millones de consultas diarias. 
Maneja el 50% de las búsquedas por Internet.
Perfiles virtuales de un número gigantesco de usuarios.

5.- SPRINT.

Sprint es una de las compañías de telecomunicaciones más grandes del mundo (tiene unos 53 millones de clientes). Las grandes compañías de telecomunicaciones disponen de inmensas bases de datos para poder llevar el control de las llamadas que se hacen desde y hacia su red.

CIFRAS:
2.85 de filas en sus bases de datos.
365 ,millones de detalles de llamadas procesadas diariamente.
70 millones de inserciones de detalles de llamadas por segundo en sus horas altas.

6.- CHOICEPOINT.

El negocio de ChoicePoint es recolectar información sobre la población de EEUU (direcciones, números telefónicos, historial de manejo, antecedentes criminales , datos de ADN, etc. La mayor parte de su información la vende al gobierno de EEUU y a grandes corporaciones (todo regulado por la ley federal). 

CIFRAS:
250 terabytes de datos personales.
Información de 250 millones de personas.

7.- YOUTUBE.

EEn menos de dos años, YouTube ha conseguido tener la biblioteca de vídeos más grande del mundo (lo que lleva a tener una de las bases de datos más grandes del mundo).
Actualmente sus visitantes ven más de 100 millones de vídeos diariamente. Se calcula que si cada vídeo subido tiene en promedio unos 10 MB, mensualmente su base de datos crece unos 18.6 TB pues diariamente se suben unos 65 mil vídeos.

CIFRAS:
100 millones de vídeos vistos diariamente.
65 mil vídeos agregados diariamente.
Más de 45 terabytes de vídeos.

8.- AMAZON.

Amazon es la tienda más grande del mundo. Empezaron vendiendo libros y ahora se puede encontrar hasta llantas para autos. Su base de datos incluye información personal (direcciones, tarjetas de crédito  etc.) de más de 59 millones de clientes, recetas, listas de compras, y paginas que los clientes pueden revisar de más de 250 mil libros. Ademas almacena millones de items de su inventario y del inventario de sus tiendas asociadas.

CIFRAS:
59 millones de clientes activos.
Más de 42 terabytes de datos.

9.-AGENCIA CENTRAL DE INTELIGENCIA DE EEUU (CIA).

Encargada de recolectar información sobre personas, cosas y lugares. No se sabe mucho sobre esta base de datos, pero hay algunas partes a las que el público común puede acceder, como la Sala de Lectura de la FOIA, (Free Or Infornation Act).

CIFRAS:
100 artículos añadidos cada mes a la FOIA.
Estadísticas amplias de más de 250 países y entidades.

10.- BIBLIOTECA DEL CONGRESO DE EEUU.

Esta biblioteca almacena cosas tan variadas como libros de cocina, tarjetas de béisbol o periódicos de la época colonial, La base de datos incluye el catálogo y material digitalizado. Lamentablemente no hay planes de digitaliza todos los ítems, pero se pueden acceder a los que están en este enlace.

CIFRAS:
130 millones de ítems (libro, fotografías, mapas).
29 millones de libros.
10 mil nuevos ítems agregadas cada día.
530 millas de estanterías.
5 millones de documentos digitales.
20 terabytes de texto.






REGLAS DE CODD.

REGLA 0.
-Para que un sistema se denomine sistema de gestión de bases de datos relacionales, este sistema debe usar (exclusivamente) sus capacidades relacionales para gestionar la base de datos.

REGLA 1.
Regla de la Información.
-Toda la información en una base de datos relacional se representa explícitamente en el nivel lógico exactamente de una manera: con valores en tablas.

REGLA 2.
Regla del Acceso Garantizado.
-Para todos y cada uno de los datos (valores atómicos) de una BDR se garantiza que son accesibles a nivel lógico utilizando una combinación de nombre de tabla, valor de clave primaria y nombre de columna.

REGLA 3.
Tratamiento Sistemático de Valores Nulos.
-Los valores nulos (que son distintos de la cadena vacía, blancos, 0, ...) se soportan en los SGBD totalmente relacionales para representar información desconocida o no aplicable de manera sistemática, independientemente del tipo de datos.

REGLA 4.
Catálogo Dinámico  en Línea Basado en el Modelo Relacional.
-La descripción de la base de datos se representa a nivel lógico de la misma manera que los datos normales, de modo que los usuarios autorizados pueden aplicar el mismo lenguaje relacional a su consulta, igual que lo aplican a los datos normales.

REGLA 5.
Regla del Sublenguaje de Datos Completo.
-Un sistema relacional debe soportar varios lenguajes y varios modos de uso de terminal (ej: rellenar formularios, etc.). Sin embargo, debe existir al menos un lenguaje cuyas sentencias sean expresables, mediante una sintaxis bien definida, como cadenas de caracteres y que sea completo, soportando:

            - Definición de datos
            - Definición de vistas
            - Manipulación de datos (interactiva y por programa)
            - Limitantes de integridad
            - Limitantes de transacción (iniciar, realizar, deshacer) (Begin, commit, rollback).

REGLA 6.
Regla de Actualización de Visitas.
-Todas las vistas que son teóricamente actualizables se pueden actualizar por el sistema.

REGLA 7.
Inserción, Actualización y Borrador de Alto Nivel.
-La capacidad de manejar una relación base o derivada como un solo operando se aplica no sólo a la recuperación de los datos (consultas), si no también a la inserción, actualización y borrado de datos.

REGLA 8.
Independencia Física de Datos.
-Los programas de aplicación y actividades del terminal permanecen inalterados a nivel lógico cuandoquiera que se realicen cambios en las representaciones de almacenamiento o métodos de acceso.

REGLA 9.
Independencia Logica de Datos.
-Los programas de aplicación y actividades del terminal permanecen inalterados a nivel lógico cuandoquiera que se realicen cambios en las representaciones de almacenamiento o métodos de acceso.

REGLA 10.
Independencia de Integridad.
-Los limitantes de integridad específicos para una determinada base de datos relacional deben poder ser definidos en el sublenguaje de datos relacional, y almacenables en el catálogo, no en los programas de aplicación.

REGLA 11.
Independencia de Dsitribución.
-Una BDR tiene independencia de distribución.
- Las mismas órdenes y programas se ejecutan igual en una BD centralizada que en una distribuida.

            - Las BDR son fácilmente distribuibles:
                        - Se parten las tablas en fragmentos que se distribuyen.
                        - Cuando se necesitan las tablas completas se recombinan usando operaciones relacionales con los fragmentos.
                        - Sin embargo se complica más la gestión interna de la integridad, etc.

            - Esta regla es responsable de tres tipos de transparencia de distribución:
                        - Transparencia de localización. El usuario tiene la impresión de que trabaja con una BD local. (aspecto de la regla de independencia física)
                        - Transparencia de fragmentación. El usuario no se da cuenta de que la relación con que trabaja está fragmentada. (aspecto de la regla de independencia lógica de datos).
                        - Transparencia de replicación. El usuario no se da cuenta de que pueden existir copias (réplicas) de una misma relación en diferentes lugares.




REGLA 12.
Regla de la No Subversión.
Si un sistema relacional tiene un lenguaje de bajo nivel (un registro de cada vez), ese bajo nivel no puede ser usado para saltarse (subvertir) las reglas de integridad y los limitantes expresados en los lenguajes relacionales de más alto nivel (una relación (conjunto de registros) de cada vez).







No hay comentarios:

Publicar un comentario