
En abril, Jon Seager de Canonical presentó plan de empresa Para trabajar con IA en Ubuntu. Este marco divide las cosas en dos grupos, inteligencia artificial implícita Mejora silenciosamente lo que ya estás usando inteligencia artificial explícita Estas son las funciones que realmente invocas intencionalmente.
En ese momento, Jon mencionó la conversión de voz a texto y de texto a voz como uno de los ejemplos de funcionalidad implícita. Unas semanas más tarde, parte del rompecabezas se hizo realidad en la forma de: Estornino.
Aunque la herramienta aún se encuentra en las primeras etapas de su ciclo de desarrollo, Debutará en Ubuntu 26.10cuyo lanzamiento se espera para octubre.
El inicio de la accesibilidad impulsada por la inteligencia artificial
Jean-Baptiste LamentEl Director de Ingeniería de Escritorio Ubuntu de Canonical hizo el anuncio y dijo que el dictado de voz se ha convertido en una característica común en las plataformas modernas.
Para Ubuntu 26.10, se espera que el lanzamiento inicial de Myna sea Herramienta de dictado de escritorio construida alrededor de GNOME en Wayland Un mecanismo de pulsar para hablar comprueba cuándo su micrófono acepta entradas.
Usarlo significa mantener presionada la tecla de acceso rápido, hablar y luego soltarse. Mientras dicta, aparece un pequeño indicador de actividad y el texto transcrito cae donde está la marca de hora de inicio del dictado.
¿Cómo funcionará?

La identificación en sí ocurre dentro de un componente llamado sandbox. instantánea del razonamiento normativoal mismo tiempo un Arreglista de voz Gestionar sesiones y adaptador de audio Procese todo lo que capte el micrófono, eliminándolo y bloqueándolo antes de que llegue al modelo.
Diseño de perno a presión para portabilidad Modelos de habla en tres tamaños., luz, por defectoy calidady un tiempo de ejecución que coincida con cualquier hardware utilizado para ejecutar Myna. Podría ser una GPU NVIDIA, una NPU Intel o simplemente una CPU.
Antes de que grites: «¡Mis datos se enviarán al servidor en la nube!«¿Sabes? El reconocimiento de voz se realizará localmente.una vez instalado el modelo apropiado, no se requiere conexión de red.
Además, el texto sólo aparece una vez finalizado, por lo que no verás destellos de media palabra como algunos asistentes que muestran subtítulos en vivo. este Los datos de audio no se conservarán Alternativamente, se almacena en un pequeño buffer de memoria que se descarta al final de la sesión.
Funciones como el campo de contraseña de dictado, palabra de activación, escucha continua, asistente de voz, comandos de voz, traducción, reconocimiento de hablante y detección automática de idioma no están disponibles.
letra pequeña
Ninguno de estos está bloqueado todavía. este GitHub El repositorio solo contiene carpetas para la licencia, el archivo Léame y la documentación y las especificaciones de arquitectura.
Y, según el rendimiento de funciones anteriores en versiones provisionales de Ubuntu, pudimos ver a Myna aparecer en Compilaciones diarias para Ubuntu 26.10 en las próximas semanas.
También debe saber que antes de finalizar las especificaciones de Myna, Canonical busca comentarios, especialmente de usuarios que ya dependen de herramientas de dictado o accesibilidad en Linux.









