
Casi nada unas horas posteriormente de que OpenAI actualizara su maniquí saco insignia GPT-5 a GPT-5.1, prometiendo un uso limitado de tokens en normal y una personalidad más agradable con más opciones preestablecidas, el gigantesco de búsqueda chino Baidu presentó su maniquí central de próxima gestación, ERNIE 5.0, conexo con un conjunto de actualizaciones de productos de IA y expansiones internacionales estratégicas.
El objetivo: posicionarse como un competidor completo en el cada vez más competitivo mercado de la IA empresarial.
Anunciado en el evento Baidu World 2025 de la compañía, ERNIE 5.0 es un maniquí omnimodal nativo y patentado diseñado para procesar y ocasionar contenido de forma conjunta a través de texto, imágenes, audio y video.
A diferencia del ERNIE-4.5-VL-28B-A3B-Thinking animado recientemente por Baidu, que es de código despejado bajo una abuso Apache 2.0 permisiva y entrañable para las empresas, ERNIE 5.0 es un maniquí propietario y está arreglado solo a través de Bot ERNIE de Baidu sitio web (tenía que seleccionarlo manualmente en el menú desplegable del selector de maniquí) y el Interfaz de programación de aplicaciones (API) de la plataforma en la abundancia de Qianfan para clientes empresariales.
Pegado con el tiro del maniquí, Baidu introdujo importantes actualizaciones en su plataforma humana digital, herramientas sin código y agentes de IA de uso normal, todos ellos destinados a ampliar su huella de IA más allá de China.
La compañía igualmente presentó ERNIE 5.0 Preview 1022, una cambio optimizada para tareas con uso intensivo de texto, conexo con el maniquí de aspecto previa normal que equilibra las modalidades.
Baidu enfatizó que ERNIE 5.0 representa un cambio en la forma en que se implementa la inteligencia a escalera, y el director ejecutor Robin Li afirmó: “Cuando se internaliza la IA, se convierte en una capacidad nativa y transforma la inteligencia de un costo a una fuente de productividad”.
Donde ERNIE 5.0 eclipsa a GPT-5 y Gemini 2.5 Pro
Los resultados comparativos de ERNIE 5.0 sugieren que Baidu ha conseguido la paridad (o casi la paridad) con los principales modelos de fundaciones occidentales en un amplio espectro de tareas.
En las diapositivas públicas de relato compartidas durante el evento Baidu World 2025, ERNIE 5.0 Preview superó o igualó a GPT-5-High de OpenAI y Gemini 2.5 Pro de Google en razonamiento multimodal, comprensión de documentos y control de calidad basado en imágenesmientras que igualmente demostrando sólidas habilidades de modelado de idioma y ejecución de código.
La empresa enfatizó su capacidad para manejar entradas y panorama conjuntas en todas las modalidades, en extensión de someterse de la fusión de modalidades post-hoc, que enmarcó como un diferenciador técnico.
En tareas visuales, ERNIE 5.0 logró puntuaciones destacadas en OCRBench, DocVQA y ChartQA, tres puntos de relato que prueban el examen, la comprensión y el razonamiento de datos estructurados de documentos.
Baidu afirma que el maniquí superó tanto a GPT-5-High como a Gemini 2.5 Pro en estos puntos de relato basados en documentos y gráficos, áreas que describe como fundamentales para aplicaciones empresariales como el procesamiento automatizado de documentos y el investigación financiero.
En gestación de imágenes, ERNIE 5.0 igualó o superó a Veo3 de Google en todas las categorías, incluida la columna semántica y la calidad de la imagen, según la evaluación interna basada en GenEval de Baidu. Baidu afirmó que la integración multimodal del maniquí le permite ocasionar e interpretar contenido visual con viejo conciencia contextual que los modelos que dependen de codificadores específicos de modalidad.
Para tareas de audio y voz, ERNIE 5.0 demostró resultados competitivos en los puntos de relato de comprensión de audio MM-AU y TUT2017, así como respuesta a preguntas a partir de entradas de idioma hablado. Su rendimiento de audio, si admisiblemente no se destaca tanto como la visión o el texto, sugiere una huella de capacidad amplia destinada a confesar aplicaciones multimodales de espectro completo.
En las tareas de idioma, el maniquí mostró resultados sólidos en el seguimiento de instrucciones, la respuesta a preguntas objetivas y el razonamiento matemático, áreas centrales que definen la utilidad empresarial de los modelos de idioma grandes.
La cambio Preview 1022 de ERNIE 5.0, diseñada para rendimiento textual, mostró resultados específicos del idioma aún más sólidos en el ataque temprano de los desarrolladores. Si admisiblemente Baidu no afirma una amplia superioridad en el razonamiento del idioma normal, sus evaluaciones internas sugieren que ERNIE 5.0 Preview 1022 cierra la brecha con los modelos de primer nivel en inglés y los supera en rendimiento en chino.
Si admisiblemente Baidu no publicó públicamente los detalles completos de los puntos de relato ni las puntuaciones brutas, su posicionamiento de rendimiento sugiere un intento deliberado de enmarcar a ERNIE 5.0 no como un sistema multimodal de hornacina sino como un maniquí alegórico competitivo con los modelos cerrados más grandes en razonamiento de propósito normal.
Donde Baidu afirma tener una clara delantera es en la comprensión de documentos estructurados, el razonamiento de gráficos visuales y la integración de múltiples modalidades en una única construcción de modelado nativa.. La comprobación independiente de estos resultados aún está irresoluto, pero la amplitud de las capacidades reclamadas posiciona a ERNIE 5.0 como una alternativa seria en el panorama del maniquí de cimentación multimodal.
Táctica de precios empresariales
ERNIE 5.0 se sitúa en el final premium de la estructura de precios maniquí de Baidu. La compañía ha publicado precios específicos para el uso de API en su plataforma Qianfan, alineando el costo con otras ofertas de primer nivel de competidores chinos como Alibaba.
|
Maniquí |
Costo de entrada (por 1K tokens) |
Costo de producción (por 1K tokens) |
Fuente |
|
ERNIE 5.0 |
$0,00085 (¥0,006) |
$0,0034 (¥0,024) |
|
|
ERNIE 4.5 Turbo (ej.) |
$0,00011 (¥0,0008) |
$0,00045 (¥0,0032) |
|
|
Qwen3 (Codificador ej.) |
$0,00085 (¥0,006) |
$0,0034 (¥0,024) |
El contraste de costo entre ERNIE 5.0 y modelos anteriores como ERNIE 4.5 Turbo subraya la táctica de Baidu de diferenciar entre modelos de detención grosor y bajo costo y modelos de ingreso capacidad diseñados para tareas complejas y razonamiento multimodal.
En comparación con otras alternativas estadounidenses, su precio sigue estando en el rango medio:
|
Maniquí |
Entrada (/1 M de tokens) |
Salida (/1 M de tokens) |
Fuente |
|
GPT-5.1 |
$1.25 |
$10.00 |
|
|
ERNIE 5.0 |
$0.85 |
$3.40 |
|
|
ERNIE 4.5 Turbo (ej.) |
$0.11 |
$0.45 |
|
|
Cerrar Trabajo 4.1 |
$15.00 |
$75.00 |
|
|
Géminis 2.5 Pro |
$1,25 (≤200k) / $2,50 (>200k) |
$10,00 (≤200k) / $15,00 (>200k) |
|
|
Grok 4 (grok-4-0709) |
$3.00 |
$15.00 |
Expansión completo: productos y plataformas
Pegado con el tiro del maniquí, Baidu se está expandiendo internacionalmente:
-
GenFlow 3.0ahora con más de 20 millones de usuarios, es el agente de IA de propósito normal más ínclito de la compañía y presenta memoria mejorada y manejo de tareas multimodal.
-
Reconocidoun agente autoevolucionante capaz de resolver dinámicamente problemas complejos, ahora está arreglado comercialmente mediante invitación.
-
Miedola lectura internacional del creador sin código Miaoda de Baidu, está arreglado a nivel mundial a través de medo.dev.
-
oxigenarun espacio de trabajo de productividad con soporte para documentos, diapositivas, imágenes, vídeos y podcasts, ha llegado a más de 1,2 millones de usuarios en todo el mundo.
La plataforma humana digital de Baidu, ya implementada en Brasil, igualmente es parte del impulso completo. Según datos de la compañía, el 83% de los transmisores en vivo durante el evento de compras “Doble 11” de este año en China utilizaron la tecnología humana digital de Baidu, lo que contribuyó a un aumento del 91% en el GMV.
Mientras tanto, el servicio autónomo de transporte compartido de Baidu, Apollo Go, ha superado los 17 millones de viajes, operando flotas sin conductor en 22 ciudades y reclamando el título de la red de robotaxi más ínclito del mundo.
El maniquí de idioma de visión de código despejado atrae la atención de la industria
Dos días ayer del evento alegórico ERNIE 5.0, Baidu igualmente lanzó un maniquí multimodal de código despejado bajo la abuso Apache 2.0: ERNIE-4.5-VL-28B-A3B-Thinking.
Como informó mi colega Michael Nuñez de VentureBeat, el maniquí activa solo 3 mil millones de parámetros mientras mantiene un total de 28 mil millones, utilizando una construcción de Mezcla de Expertos (MoE) para una inferencia eficaz.
Las innovaciones técnicas esencia incluyen:
-
“Pensar con imágenes”, que permite un investigación visual dinámico basado en teleobjetivo
-
Soporte para interpretación de gráficos, comprensión de documentos, conexión visual y conciencia temporal en video.
-
Tiempo de ejecución en una única GPU de 80 GB, haciéndolo accesible para organizaciones medianas
-
Compatibilidad total con Transformers, vLLM y los kits de herramientas FastDeploy de Baidu
Este tiro agrega presión sobre los competidores de código cerrado. Con la abuso Apache 2.0, ERNIE-4.5-VL-28B-A3B-Thinking se convierte en un maniquí saco viable para aplicaciones comerciales sin restricciones de abuso, poco que ofrecen pocos modelos de detención rendimiento en esta clase.
Comentarios de la comunidad y respuesta de Baidu
Tras el tiro de ERNIE 5.0, la desarrolladora y evaluadora de IA Lisan al Gaib (@scaling01) publicó una crítica mixta sobre X. Si admisiblemente inicialmente quedaron impresionados por el rendimiento de relato del maniquí, informaron de un problema persistente en el que ERNIE 5.0 invocaba herramientas repetidamente, incluso cuando se le indicaba explícitamente que no lo hiciera, durante las tareas de gestación de SVG.
“Los puntos de relato de ERNIE 5.0 parecían una disparate hasta que lo probé… desafortunadamente tiene daño cerebral en RL o tienen un problema trascendental con su plataforma de chat/indicador del sistema”, escribió Lisan.
En cuestión de horas, la cuenta de soporte centrada en desarrolladores de Baidu, @ErnieforDevs, respondió:
“¡Gracias por los comentarios! Es un error conocido; cierta sintaxis puede activarlo constantemente. Estamos trabajando para solucionarlo. Puede intentar reformular o cambiar el mensaje para evitarlo por ahora”.
El rápido cambio refleja el creciente vehemencia de Baidu en la comunicación con los desarrolladores, especialmente cuando corteja a los usuarios internacionales a través de ofertas tanto patentadas como de código despejado.
Perspectivas para Baidu y su comunidad LLM fundacional de ERNIE
ERNIE 5.0 de Baidu marca una ascensión estratégica en la carrera del maniquí de fundación completo. Con afirmaciones de rendimiento que lo sitúan a la par de los sistemas más avanzados de OpenAI y Google, y una combinación de precios premium y alternativas de ataque despejado, Baidu está señalando su aspiración de convertirse no sólo en un líder doméstico en IA, sino en un proveedor de infraestructura completo probable.
En un momento en que los usuarios empresariales de IA exigen cada vez más rendimiento multimodal, licencias flexibles y eficiencia de implementación, el enfoque de dos vías de Baidu (API alojadas premium y versiones de código despejado) puede ampliar su atractivo en las comunidades corporativas y de desarrolladores.
Queda por ver si las afirmaciones de desempeño de la compañía se mantienen bajo las pruebas de terceros. Pero en un panorama impresionado por costos crecientes, complejidad de modelos y cuellos de botella informáticos, ERNIE 5.0 y su ecosistema de soporte le dan a Baidu una posición competitiva en la próxima ola de implementación de IA.





