Noticias

Almacenamiento Ceph para IA | Ubuntu

Utilice el almacenamiento Ceph de código abierto para impulsar su visión de IA

El uso de la inteligencia artificial es hoy un tema candente en cualquier organización. El atractivo de obtener conocimientos operativos, ganancias y reducciones de costos a partir de datos existentes la ha convertido en una tecnología que se está implementando a un ritmo increíble incluso en organizaciones que se resisten al cambio.

Sin embargo, los sistemas de inteligencia artificial que brindan estos conocimientos, ahorros de costos y ganancias dependen en gran medida del acceso a grandes cantidades de datos. Incluso las soluciones de inteligencia artificial más innovadoras no pueden proporcionar resultados oportunos sin sistemas de almacenamiento eficientes y confiables. Además, estas nuevas cargas de trabajo relacionadas con la IA no deben afectar las aplicaciones empresariales existentes; ambas deben funcionar juntas en armonía.

En este blog, exploraremos algunos de los requisitos del sistema de almacenamiento para soluciones de inteligencia artificial y los tipos de datos utilizados. Presentaremos Ceph como una de las opciones disponibles para almacenar datos relacionados con la IA y datos comerciales típicos.

Requisitos de almacenamiento de la inteligencia artificial

Las nuevas aplicaciones de IA implican estrés y exigencias adicionales para sus sistemas de almacenamiento. Para admitir nuevas cargas de trabajo de IA, su sistema de almacenamiento debe cumplir con los siguientes requisitos:

alto rendimiento

Las cargas de trabajo de IA requieren un acceso rápido a grandes cantidades de datos: en primer lugar, al leer datos sin procesar y, en segundo lugar, al escribir los resultados después del procesamiento. ¡Los requisitos de 100 GBps y más de 1 TBps no son infrecuentes!

Las soluciones de almacenamiento como Ceph permiten agregar elementos de caché para soportar cargas de trabajo de escritura en ráfagas y escalar para aumentar el rendimiento general del sistema.

LEER  WeBaCoo - Kit de secuencia de comandos de cookies de puerta trasera web

Escalabilidad

La infraestructura de IA de hoy es diferente de la infraestructura de IA del mañana. Los sistemas de almacenamiento deben poder adaptarse a las demandas de las cargas de trabajo de IA, no solo pudiendo aumentar por capacidad y razones generales, sino también pudiendo reducirse cuando el hardware debe reutilizarse en otra parte de la infraestructura de la organización.

flexibilidad

Además de la escalabilidad, los sistemas de almacenamiento deben ser lo suficientemente flexibles para adaptarse a diferentes tipos de cargas de trabajo de IA. No todos los datos son iguales; algunos pueden ser más importantes que otros y su valor puede cambiar con el tiempo. Por ejemplo, es más probable que se acceda a los datos de transacciones bancarias dentro de los primeros 30 a 60 días, cuando las personas verifican saldos y ven estados de cuenta de fin de mes, que dentro de 3 años. Sin embargo, sigue siendo importante conservar los datos y ponerlos a disposición cuando sea necesario acceder a ellos.

Por lo tanto, su sistema de almacenamiento debe poder proporcionar diferentes niveles de almacenamiento para cumplir con este requisito. Los sistemas de almacenamiento como Ceph permiten a los usuarios combinar hardware heterogéneo, lo que les permite mezclarlos y combinarlos a lo largo del tiempo según las necesidades del sistema.

fiabilidad

La función más importante de un sistema de almacenamiento es almacenar datos. Rara vez se utilizan sistemas de almacenamiento que son eficientes pero que no pueden almacenar datos de manera confiable; ¿de qué sirve generar y procesar datos si no se pueden recuperar? Soluciones como Ceph permiten a los usuarios elegir entre estrategias de protección basadas en replicación y codificación de borrado, lo que nuevamente permite que la configuración del sistema haga coincidir el valor comercial con los costos de almacenamiento.

Tipos de datos de inteligencia artificial

Ahora que entendemos las características que debe ofrecer un sistema de almacenamiento de alta calidad, veamos cuáles son los tipos de datos más típicos utilizados en las aplicaciones de IA. No existe sólo “un” tipo de datos de IA. Hay varios tipos diferentes, todos utilizados en distintas etapas del desarrollo, entrenamiento e implementación de modelos de inteligencia artificial.

Datos sin procesar y datos preprocesados

Se trata de datos de origen extraídos y recuperados de una variedad de aplicaciones y sistemas: herramientas de chat, archivos de correo electrónico, grabaciones de CCTV, grabaciones de llamadas de soporte o telemetría de vehículos autónomos, solo por nombrar algunos. Estos datos pueden estar en varias formas: tablas de bases de datos, texto, imágenes, audio o video.

Una vez que los datos se extraen de estos sistemas, a menudo se preprocesan para garantizar que estén en un formato útil para la capacitación. El preprocesamiento también puede eliminar pasos redundantes más adelante en el proceso, ahorrando tiempo y recursos informáticos. Para algunos conjuntos de datos, se utiliza el preprocesamiento para anonimizar los datos y garantizar que se cumpla el cumplimiento normativo.

conjunto de datos de entrenamiento

Un conjunto de datos de entrenamiento suele ser un subconjunto de datos preprocesados ​​que se utilizan para entrenar un modelo de IA. Lo especial de este conjunto de datos es que los resultados esperados del modelo ya están definidos. Es importante conservar estos conjuntos de datos para que puedan usarse para perfeccionar el modelo o evaluar su desempeño.

modelo a seguir

La estructura (capas y nodos) de un modelo de IA debe almacenarse de manera confiable para que el modelo pueda volver a implementarse en el futuro. Además, los modelos de IA contienen parámetros y pesos que se ajustan durante el entrenamiento del modelo. Estas variables se pueden ajustar en el futuro para afinar el modelo o implementarlo en una función de inferencia.

resultado

Este es el paso más importante entre todos los pasos de importación, preprocesamiento, capacitación e implementación. Los datos de salida o de inferencia suelen ser los datos más útiles y valiosos para fines comerciales y deben almacenarse para su uso. En algunos casos, estos datos deben conservarse para su revisión y mejoras futuras.

Opciones de código abierto para el almacenamiento de IA

Encontrar una solución de almacenamiento que ofrezca todo lo que necesita (costo, velocidad, flexibilidad, escalabilidad y soporte para múltiples conjuntos y tipos de datos) puede resultar complicado. Las soluciones de almacenamiento patentadas pueden ser inflexibles y, a medida que crece, los servicios de nube pública pueden volverse costosos rápidamente; en ambas áreas, una solución de código abierto local será la respuesta ideal.

Canonical Ceph es una solución de almacenamiento para todos los tamaños y todas las cargas de trabajo (desde el borde hasta el modelado de IA a gran escala) y todos los protocolos de almacenamiento. Se pueden satisfacer cargas de trabajo mixtas con diferentes requisitos de rendimiento, capacidad y acceso con un solo clúster. La naturaleza escalable de Ceph significa que se puede agregar hardware de forma incremental para satisfacer las necesidades de rendimiento o capacidad.

Descripción general arquitectónica de los clústeres de Ceph

obstruido

Los requisitos de almacenamiento en bloques se cumplen a través del protocolo RADOS Block Device (RBD), una transferencia en bloques nativa multiruta altamente escalable. Para admitir entornos heredados, iSCSI también se puede alojar a través de una puerta de enlace y en una versión futura se admitirá NVMeoF de alta disponibilidad.

documento

El almacenamiento de archivos compartidos se puede proporcionar a través del protocolo CephFS nativo compatible con POSIX de Ceph, o nuevamente a través de una puerta de enlace a través del protocolo NFS.

Objetivo

Los clústeres de Ceph son totalmente compatibles con las API de almacenamiento de objetos que son compatibles con las API de S3 y Swift.

aprende más

Únase a nuestro seminario web sobre el uso de Ceph para cargas de trabajo de IA aquí y aprenda:

  • Casos de uso de almacenamiento de inteligencia artificial
  • economía del almacenamiento
  • Consideraciones de rendimiento
  • Configuración típica de hardware
  • almacenamiento seguro

Otros recursos

LEER  10 de nuestras historias favoritas de administradores de sistemas para 2021

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba