En esta publicación, exploraremos los conceptos de albufera de datos, centro de datos y laboratorio de datos. Hay muchas opiniones e interpretaciones de estos conceptos y son en gran medida comparables. De hecho, muchos podrían opinar que son sinónimos y que simplemente nos separamos. Pero echemos otro vistazo más de cerca. Podemos detectar algunas tendencias sutiles en la forma en que las personas hacen las cosas y encontrar diferencias en estas expresiones.
Tabla de Contenidos
Bienvenido al albufera de datos
Los lagos son tranquilos, grandes charcos de agua fría, ¿verdad? Perfectamente quizás. Crecí en Escocia, donde los lagos se llaman lagos y abundan los rumores de monstruos que acechan en las profundidades de los viejos lagos. Escocia asimismo tiene lagos de agua salada llenos de medusas. Una cosa es segura, los lagos, lagos, como sea que los llames, son lugares de pesca populares.
En la galimatías tecnológica contemporáneo, un Estanque de datos es esencialmente una gran cantidad de datos interesantes, que normalmente varían en tamaño desde 100 terabytes hasta petabytes. El albufera de datos se diferencia de otros sistemas de almacenamiento geniales como MAID (Massive Array of Idle Disks), depósitos de almacenamiento y bibliotecas de cintas porque los datos permanecen en recta y son totalmente accesibles en medios de almacenamiento económicos. Apache HDFS, Ceph, o Servicio de almacenamiento simple de AWS (s3). Esto lo convierte en una decisión interesante y económica para realizar investigaciones, exploración e informes a propósito sobre los datos agregados. Básicamente, esto permite expediciones de captura de datos y es la materia prima para las aplicaciones que utilizan el educación profundo u otros enfoques de inteligencia de datos artificiales intensivos en datos. No es necesario restaurar los macrodatos desde una cinta ni extraerlos de una cúpula o una decisión de almacenamiento profundo para poder consultarlos. Estas son tareas que generalmente tienen un costo significativo.
Los datos en el albufera pueden tomar muchas formas. El formato más popular son los datos de máquina semiestructurados, por ejemplo, datos de telemetría (sistema, registros de aplicaciones y actividades, seguimiento de usuarios, etc.), registros de datos (weblogs, registros de fallos, red), registros de nociones, registros de aplicaciones, registros de firewall, registros industriales. datos de la máquina, etc.) y feeds de datos (como datos de cotizaciones bursátiles, datos meteorológicos, etc.). Otro formato popular son los datos SoR (System of Record): extractos de bases de datos operativas, sumario de datos de cambios en el almacén de datos, etc. Y muchos lagos de datos recopilan grandes cantidades de datos no estructurados (texto evadido, como transcripciones de chat o audio, escaneos de documentos, etc.). fotos e imágenes binarias como rayos X, audio binario, como grabaciones de centros de llamadas y vídeo binario, como grabaciones de cámaras de vigilancia). .
Asimismo es importante comprender que los administradores del mar de datos a menudo emplean lo que se conoce como una logística de «esquema en la leída» para los conjuntos de datos que componen el albufera. Básicamente, esto significa que los datos se almacenan en el albufera sin tratamiento y con total fidelidad. Esto parece violar todas las mejores prácticas de almacenamiento de datos, donde la normalización de datos es uno de los principios secreto por razones de eficiencia e integridad. Sin confiscación, el argumento es sólido: adecuado a la cantidad de datos, es difícil avalar la integridad a través del modelado relacional y, al mismo tiempo, avalar el comunicación oportuno a los datos. Y cualquier capital generado por la eficiencia del almacenamiento se compensa de forma masiva por aventajado con los costos laborales de ingeniería de los datos. Finalmente, manejar los datos a menudo significa descartar o resumir los datos, lo que puede ser indeseable ya que esto puede excluir futuras aplicaciones y casos de uso (por ejemplo, algunos casos de uso de minería de datos o IA), por lo que el valencia del modelado de datos auténtico y el gimnasia de ingeniería es incierto.
Si correctamente los datos de procesamiento residual, como los weblogs y los crashlogs a pequeña escalera, pueden considerarse pequeños, estos datos pueden ser entradas extremadamente valiosas en universal y durante largos períodos de tiempo. Por ejemplo, los datos se pueden utilizar para impulsar la investigación y la excelencia empresarial como materia prima para productos nuevos e innovadores (por ejemplo, IA) y para tomar decisiones comerciales informadas.
Junto a señalar que los lagos de datos se utilizan normalmente para juntar lo que se conoce como datos «geniales». Con esto nos referimos a datos a los que rara vez se accede y que rara vez se modifican. Mientras que los datos “calientes”, es opinar, los datos a los que se accede con frecuencia y se actualizan, generalmente se almacenan en otro ocupación (por ejemplo, en una almohadilla de datos OLTP).
Soy robusto y, por lo tanto, poderoso: el laboratorio de datos
Donado que el costo de almacenamiento por GB es conveniente bajo, la eficiencia del almacenamiento es menos importante en comparación con la accesibilidad. Exponer fielmente datos en un albufera de datos a científicos y analistas de datos para realizar la ingeniería de características o el modelado necesarios para crear los datos en la forma requerida para el esquema o producto específico aumenta la agilidad a desembolso de la duplicación de conjuntos de datos.
Todo esto reduce los costos iniciales asociados con la experimentación e investigación de datos avanzados. De esta forma, cualquier ordenamiento ínclito o pequeña con ganas de construir un albufera de datos puede alcanzar la agilidad, la innovación y la precisión de las prácticas empresariales empíricas o basadas en datos.
Cue el Laboratorio de ciencia de datos. Los laboratorios de datos son un tipo emergente de servicios compartidos, un tipo de equipo o división de “Servicios de conocimiento” centrado en ofrecer exploración avanzados, pronósticos, juegos de conflagración, botones digitales, aplicaciones de educación inevitable (ML) y herramientas de inteligencia industrial (IA) enfocadas. Estos servicios generalmente se brindan como proyectos cortos y respaldan a todas las partes de la empresa que necesitan sus servicios, desde el marketing hasta la fabricación, desde el equipo de suministro hasta el equipo de personas.
Por lo tanto, el laboratorio de datos podría usar un albufera de datos, pero es un tipo diferente según nuestra definición.
El centro clave: el centro de datos
Como hemos aprendido, los datos agregados en grupos grandes pueden ser muy aperos. No sin su parte de los costes de mandato patrimonial, por supuesto, pero sin duda es un procedimiento útil con muchas posibilidades. El uso de estos lagos de datos se puede acelerar reuniendo un equipo calificado en un laboratorio de datos.
Escribimos sobre citas interesantes. Pero ¿qué pasa, sin duda, con las citas calientes? ¿Qué sucede si aprovechamos las fuentes de datos que tenemos y queremos usarlas para hacer predicciones o tomar decisiones comerciales informadas basadas en lo que hacemos? ahora mismo? En nuestro vocabulario, este es el reino de Centro de datos.
Un centro de datos es un punto de integración de incorporación capacidad y suspensión rendimiento, como Apache Kafka Sistema de correo que se puede utilizar para monitorear, revisar, enrutar y procesar datos en movimiento. La idea es que cualquier número accidentado se alimente que la empresa haya conectado al centro de datos, donde se realizan exploración de datos o modelos predictivos en recta sobre los datos.
Donado que el centro de datos es una decisión en recta que asegura a las fuentes de datos, se debe hacer una distinción cuidadosa Trozo de datos y Fuentes de datos. Los centros de datos no son adecuados para procesar datos por lotes y, si correctamente es posible utilizar técnicas de captura de datos modificados para convertir los datos de estilo de registro orientados por lotes en una fuente de datos, a menos que se proporcione el contexto, este tipo de datos se puede utilizar para proporcionar valencia comercial reducido en el centro de datos a cambio de mucho trabajo duro.
¿Son datos o son datos?
Así que ahí lo tenemos. Sutil, matizado y quizás un poco controvertido; nuestras definiciones de lo que es un albufera de datos, un laboratorio de datos o un centro de datos están notablemente diferente.
Para resumir poco:
- Utilice un albufera de datos cuando desee juntar macrodatos a extenso plazo y seguir utilizándolos para exploración, informes, investigación y entrenamiento de modelos de ML / AI.
- Utilice un laboratorio de datos cuando desee un equipo diestro de científicos, ingenieros y analistas de datos que lo ayuden a obtener valencia rápidamente de sus datos.
- Use un centro de datos cuando desee una pinta más operativa y en tiempo vivo de su negocio y utilícelo para impulsar exploración, pronósticos, informes y toma de decisiones automatizados en recta utilizando datos de ruta activa