Tabla de Contenidos
Plataforma de datos estandarizada: estamos en 2021
Es esa época del año otra vez: muchas personas están comprando una lata de spray antihielo para el parabrisas y ropa interior térmica, llevando los pinos a la sala del frente y preparándose para disfrutar de unas vacaciones más largas con sus familias. Entonces pensamos, ¿qué mejor momento que ahora para revisar el año pasado de Canonical Data Platform?
Calentamiento de Data Lab-Charmed Kubeflow
En marzo, Aymen investigó la ejecución de un laboratorio de datos de IA localmente e investigó los beneficios de este enfoque y las herramientas y los impulsores para hacerlo. Entendemos las herramientas de la plataforma necesarias para reducir costos, cumplir fácilmente con las regulaciones de gobernanza de datos y construir una plataforma de pronóstico del mercado financiero lista para uso local y agnóstica en la nube para la simulación basada en datos y el comercio activo.
En abril, Rui estudió cómo usar Kubeflow para construir una infraestructura de servidor de puntuación de modelo de IA que se puede usar en producción. Servicio KF motor. Aprendimos cómo configurar reglas de escalado automático para servidores de puntuación de AI y ML que ejecutan cargas de trabajo de Tensorflow, PyTorch, XGBoost, ScikitLearn y ONNX, y una configuración más detallada de la implementación de nuevos modelos de canary (también conocido como azul / verde), datos Los usos de preprocesamiento Kubeflow para construir la tubería y también tiene cierta comprensión de la interpretabilidad del modelo.
También en abril, Maciej nos llevó a través del proceso de implementación y configuración de contenedores NVIDIA RAPIDS y NGC en Ubuntu, así como las decisiones de diseño detrás de la configuración recomendada.
En mayo, Rui profundizó en el campo de los servidores de modelos e introdujo los servicios de modelos de ML en profundidad. Aprendimos sobre diferentes métodos de servicios de modelos, como incorporar modelos AI / ML en aplicaciones, exponer modelos AI / ML como API o modelos de empaquetado como bibliotecas. También aprendimos algunas de las complejidades de administrar y automatizar AI / ML a escala.
También en mayo, yo (Rob) estudié en profundidad las diferencias, similitudes y superposiciones entre los laboratorios de datos, los centros de datos y los lagos de datos, y traté de responder a las preguntas de qué es un laboratorio de datos y cómo construir un laboratorio de datos en profundidad. Estudié el vocabulario y los conceptos del laboratorio de datos, los beneficios de construir un laboratorio de datos, el modelo y las tecnologías de ejemplo del laboratorio de datos utilizando los componentes básicos de las soluciones de código abierto y la estrategia de acelerar el programa del laboratorio de datos como parte de la transformación empresarial plan.
En julio, Aymen intentó usar los cuadernos de Jupyter y KALE para crear una canalización de Kubeflow. Aprendimos a usar las anotaciones de las libretas y Python para impulsar nuestra canalización y ejecutarlos automáticamente en Kubernetes a gran escala. Esta guía práctica de YouTube¡Un día de trabajo!
¡Datos sobre Ubuntu cada vez más calientes!
En mayo, en Let’s play: Sharded Big Data PostgreSQL, estudié las ventajas de usar PostgreSQL fragmentado para procesar cantidades masivas de datos y configurar un lago de datos. Entendemos las ventajas de usar GPU para acelerar el tiempo de consulta de los almacenes de datos a gran escala; la integración del sistema y Hadoop; las consultas simultáneas también son beneficiosas.También verificamos brevemente la implementación de PostgreSQL fragmentada utilizando esta máquina fdw_postgresql Función de servidor remoto.
En agosto, nos divertimos mucho en una serie de blogs de cuatro partes que ejecuta Apache Spark en MicroK8s y Ubuntu Core y usa clústeres LXD, cuadernos Jupyter y virtualización anidada en la nube. Todo fue super practicado. Google Cloud Platform.
Después de tomarnos el tiempo para desearle a Linux un feliz cumpleaños número 30, analizamos más de cerca cómo el equipo de DataOps puede beneficiarse de la adopción de un paradigma operativo basado en modelos. Aprendimos cómo el equipo a menudo se pierde en la tubería y, a menudo, pasa más tiempo reparando cosas dañadas en lugar de enfocarse en el trabajo productivo; y a través del modelado y finalmente automatizando sus tareas, pueden ahorrar más tiempo para ingresar al estado de flujo.
También en agosto, miré Cloud PaaS a través de la lente del código abierto, el modelo de responsabilidad compartida y algunos desafíos y desventajas de PAAS en relación con el software de código abierto, y expresé mi visión de cómo PAAS, como software de código abierto, proporciona lo mejor de ambos mundos. .
En septiembre, lanzamos 7 formas de acelerar Apache Kafka en K8. Este es un documento técnico que profundiza en las opciones y compensaciones de la creación de clústeres Kafka de ultra alta capacidad y baja latencia.
En octubre, se lanzó Ubuntu 21.10 e incluyó una implementación de clúster de Cassandra de Apache Cassandra más fácil que nunca.El 21.10, anunciamos la ECR oficial y Colección de imágenes de contenedor Dockerhub Ubuntu LTS Docker, ¡Incluidas imágenes de PostgreSQL, MySQL, Redis, Memcached y Cassandra!
También en octubre, volví a estudiar el servidor mascota y me pregunté si desarrollar una infraestructura compleja como una solución de automatización de implementación de código es siempre el enfoque correcto para los sistemas con estado.
Microsoft SQL Server es lo mismo que Microsoft SQL Server
En noviembre, lanzamos SQL Server en Ubuntu Pro para la solución Azure, que fue co-diseñado por Canonical y Microsoft. Portal de AzureRevisé la larga historia de SQL Server en SQL Server en Ubuntu Pro: llévelo todo a casa, levantamos el capó y estudiamos cuidadosamente el mecanismo interno del clúster de alta disponibilidad de SQL Server en el seminario web. Presentación de SQL Server en Ubuntu Pro para Azure, parte 1.
En diciembre, en el informe técnico Evaluación de las opciones de Microsoft SQL Server para Azure, discutimos el valor que SQL Server en la solución Ubuntu Pro para Azure aporta a los departamentos de TI empresariales, y verificamos el modelo de precios, las opciones de soporte, SLA, licencias y cumplimiento Seguridad, administración de parches, mejora, certificación y TCO de una serie de diferentes opciones de SQL Server en Azure.
Entrada basada en datos en 2022 y más allá
2022 será un año importante para Canonical Data Platform y estamos muy entusiasmados con todas las cosas maravillosas que compartiremos con ustedes el próximo año.
Hasta entonces, manténgase abrigado, tome su manta y su computadora portátil, disfrute del tiempo de tranquilidad y del espacio que le brinda para perfeccionar sus datos y habilidades de inteligencia artificial.