Microsoft integra un nuevo modelo de lenguaje en Edge
Microsoft está incorporando un nuevo modelo de lenguaje pequeño directamente en Edge, y no se detiene ahí. El navegador está adoptando funciones de traducción y reconocimiento de voz en el dispositivo, lo que permitirá que mucho más trabajo de IA se realice en tu PC sin tener que enviarlo todo a la nube.
El nuevo modelo se llama Aion-1.0-Instruct. Microsoft lo describe como un sucesor más pequeño y rápido del modelo Phi-4-mini que comenzó a probar en Edge el año pasado a través de las API de Asistencia de Escritura y Prompt. Básicamente, en lugar de que cada aplicación web incluya su propio modelo o llame a un servicio remoto, Edge expone uno integrado al que los sitios pueden acceder para tareas como reescribir texto, resumir contenido o proporcionar asistencia de escritura.
En este momento, Aion-1.0-Instruct solo está en vista previa. Necesitas los canales Canary o Dev de Microsoft Edge y un indicador de función para probarlo. Microsoft afirma que el modelo está ajustado para funcionar en una gama más amplia de hardware, incluyendo máquinas que no podrían manejar cómodamente modelos LLM más grandes que residen en la nube o en aplicaciones separadas. Esto se alinea perfectamente con lo que la empresa ha estado promoviendo en torno a las PC Copilot+ y las «PCs AI» en general, donde se supone que los modelos locales deben sentirse instantáneos y no colapsar tu laptop cada vez que pides una reescritura.
Edge también está recibiendo dos nuevos modelos específicos de tareas que residen en el navegador. Hay una API de Detección de Idioma que puede identificar qué idioma está utilizando un fragmento de texto dado, y una API de Traductor que puede convertir entre más de 145 idiomas en el dispositivo. Las aplicaciones web y las extensiones pueden llamar a estas desde JavaScript. Esto significa que un sitio podría darse cuenta de que estás escribiendo en hindi y, por ejemplo, mantener actualizada una versión traducida en inglés de tu mensaje en otro campo sin enviar cada pulsación de tecla a un servicio de traducción en la nube.
Microsoft también se aseguró de destacar el ángulo de privacidad y costo. Si la traducción ocurre localmente, entonces no hay nada que un servidor pueda registrar y no hay facturación por solicitud vinculada a cada pequeña función en una aplicación web. Para los desarrolladores, eso también significa una dependencia externa menos que gestionar. Pueden confiar en la pila de IA del navegador siempre que el usuario esté en una versión suficientemente nueva de Edge.
En cuanto al reconocimiento de voz, Edge está integrando el reconocimiento de voz en el dispositivo en la API estándar de Web Speech, comenzando nuevamente en las versiones Canary y Dev. Si funciona como Microsoft lo describe, un sitio web podría ofrecer dictado o comandos de voz que se sientan más cercanos a una aplicación nativa, mientras que el navegador canaliza silenciosamente el audio a un modelo local primero en lugar de enviarlo inmediatamente a un servidor. Microsoft aún deja espacio para los servicios de voz en la nube, pero la oferta predeterminada es más rápida y privada, ya que el audio no tiene que salir de la máquina para escenarios básicos.
Ya vimos la primera parte de esta historia el año pasado cuando la API de Prompt de Edge apareció con Phi-4-mini, convirtiendo al navegador en una especie de anfitrión para pequeños modelos de lenguaje que cualquier sitio podría utilizar. Ahora, Microsoft está completando esto con un modelo más nuevo, herramientas de traducción que se incluyen en Edge 148, y funciones de voz que aún están en vista previa.
Dicho esto, a medida que Microsoft y Google incorporan más IA en sus navegadores, alternativas como Vivaldi están ganando usuarios que huyen de la carrera de la IA. ¡Tiempos interesantes por delante!