Apache Spark es un marco popular para desarrollar aplicaciones de procesamiento de datos paralelos descentralizadas. Nuestra solución para Apache Spark en Kubernetes Hemos logrado avances significativos en el último año desde nuestro lanzamiento, agregando soporte para Apache Iceberg, un nuevo Imágenes aceleradas por GPU Utiliza el complemento NVIDIA Spark-RAPIDS y es compatible con el programador de cargas de trabajo Volcano Kubernetes.
Tabla de Contenidos
Almacenamiento de datos en un lago de datos nativo de la nube utilizando Apache Kyuubi
También hemos estado ocupados agregando soporte inicial para Apache Nueve Colas a nuestra solución Charmed Spark para que pueda implementar un almacén de datos de nivel empresarial, tolerante a fallas y compatible con ANSI-SQL sobre una infraestructura de lago de datos de Kubernetes, creando la llamada «casa del lago». Puede implementar una infraestructura de lago de datos integral e hiperautomatizada utilizando nuestro Plano de control de código abierto completoalmacenamiento definido por software y soluciones de infraestructura informática nativa de la nube. Incluso hemos creado algunos procedimientos para ayudarle a comenzar con ambos. nube y implementación local contexto.
Existen muchos beneficios al crear un lago de datos utilizando un enfoque nativo de la nube:
- La desagregación del almacenamiento significa que puede aumentar y administrar el nivel de almacenamiento independientemente del nivel de cómputo, cerrar o reducir el nivel de cómputo cuando no esté en uso y aprovechar un sistema de almacenamiento de objetos de costo optimizado para alojar big data.
- El uso de tecnología nativa de la nube (es decir, Kubernetes) en la capa informática garantiza un alto nivel de portabilidad entre proveedores de infraestructura, por lo que no estará atrapado en ningún proveedor de servicios en la nube o proveedor de sistemas de centro de datos.
- Utilizar un enfoque nativo de la nube significa que puede configurar clústeres en la nube y en las instalaciones, pero de manera coherente utilizando los mismos métodos de gestión operativa.
- Si lo desea, puede «empaquetar» otras aplicaciones en la misma plataforma nativa de la nube que su infraestructura de lago de datos para utilizar los recursos de manera más eficiente.
- ¿Quiere utilizar GPU para acelerar sus aplicaciones Spark? Kubernetes proporciona un excelente soporte para exponer GPU a Spark y puede simplificar enormemente la configuración de esta útil función de aceleración.
Si bien todavía tenemos trabajo por hacer hasta que nuestra integración de Kyuubi esté completamente lista, ya puedes probarla. Vea nuestra documentación Información privilegiada.
Spark 4.0 beta: novedades de Spark mañana y hoy
Otra cosa que estaba ansioso por anunciar es nuestro nuevo producto. chispa 4 beta imagen. Esta nueva imagen Beta se une a nuestra colección de imágenes de Spark 3: si bien la imagen Beta no es elegible para recibir soporte oficial de Canonical, le brinda una manera fácil de probar las últimas funciones Beta de Apache Spark 4 hoy mismo.
Algunas de las nuevas características de Spark 4 incluyen:
- nuevo API de conexión de chispa Simplifica la escritura de aplicaciones que se conectan a clústeres remotos de Spark e incluye soporte para los lenguajes Python, Java, Scala, Golang y Rust.
- ANSI SQL está habilitado de forma predeterminada.
- Una nueva API de fuente de datos basada en Python simplifica el proceso de creación de conectores de datos Spark utilizando Python. Esto brinda una oportunidad para los ingenieros de software que no desean aprender o utilizar el lenguaje Scala para desarrollar conectores.
- Las UDTF (funciones de tabla definidas por el usuario) basadas en Python permiten a los usuarios crear funciones personalizadas que se pueden usar en consultas, similares a las UDF en los sistemas de administración de bases de datos más tradicionales.
Hay algunas cosas nuevas e interesantes, excelentes para la gestión avanzada de datos a escala, así que si quieres probarlo, visita Nuestra documentación de usuario Aprenda cómo configurar rápidamente una solución Charmed Spark para Apache Spark en Kubernetes.
Obtenga una vista previa hoy usando Charmed Spark y nuestra imagen del contenedor Spark
Puede acceder a las imágenes del contenedor beta de Apache Spark 4 de forma gratuita en el registro de contenedores de Github aquí:
Si desea obtener más información sobre cómo obtener soporte de nivel empresarial para Apache Spark de Canonical, Contáctenos Estaremos encantados de llamarte para discutir más, o puedes navegar por nuestra Página del producto Charmed Spark Si quieres.