Las reacciones iniciales a los modelos de código extenso de código extenso de OpenAi son muy variadas y mixtas

¿Quieres ideas más inteligentes en tu bandeja de entrada? Regístrese en nuestros boletines semanales para obtener solo lo que importa a los líderes de IA, datos y seguridad empresariales. Suscríbete ahora

OpenAi ‘El tan esperado regreso al “extenso” de su homónimo ocurrió ayer con el tirada de dos nuevos modelos de idiomas grandes (LLM): GPT-OSS-120B y GPT-OSS-20B.

Sin requisa, a pesar de obtener puntos de relato técnicos a la par con las otras poderosas ofertas de modelos de IA propietarios de OpenAI, el desarrollador de IA y la comunidad de usuarios más amplio y la comunidad de usuarios La respuesta hasta ahora se ha mezclado. Si este tirada se estrenara y se clasificara en Rotten Tomatoes, estaríamos viendo una división de cerca del 50%, según mis observaciones.

Primero, algunos circunstancias: OpenAi ha decidido estos dos nuevos modelos de jerga solo de texto (sin engendramiento o exploración de imágenes), Entreambos bajo la abuso permisiva de código extenso Apache 2.0 – La primera vez desde 2019 (antaño de chatgpt) Que la compañía lo ha hecho con un maniquí de idioma de vanguardia.

El La era completa de Chatgpt de los últimos 2.7 primaveras ha sido impulsada hasta ahora por modelos patentados o de código cerradolos que OpenAi controlaron y que los usuarios tuvieron que remunerar para aceptar (o usar un nivel sin cargo sujeto a límites), con una personalización limitada y no hay forma de ejecutarlos fuera de confín o en hardware de computación privado.

AI Scaling alcanza sus límites

Los límites de potencia, el aumento de los costos del token y los retrasos de inferencia están remodelando Enterprise AI. Únase a nuestro salón exclusivo para descubrir cómo son los mejores equipos:

Convertir la energía en una superioridad estratégica

Inmueble de inferencia apto para ganancias reales de rendimiento

Desbloquear ROI competitivo con sistemas de IA sostenibles

Asegure su área para mantenerse a la vanguardia: https://bit.ly/4mwgngo

Pero todo eso cambió gracias al tirada del par de modelos GPT-OSS ayer, uno más sobresaliente y más potente para usar en un solo NVIDIA H100 GPU en Say, un pequeño o cortijo de servidores de empresas o de tamaño mediano, y una aún más pequeña que funciona en una sola computadora portátil de consumo o PC de escritorio como el tipo en su oficina en casa.

Por supuesto, los modelos son tan nuevos, que la comunidad de usuarios de AI Power tarda varias para ejecutarlos y probarlos de forma independiente en sus propios puntos de relato individuales (medidas) y tareas.

Y Ahora estamos recibiendo una ola de comentarios que van desde el entusiasmo eufórico sobre el potencial de estos modelos nuevos, libres y eficientes a una corriente subterránea de insatisfacción y consternación con lo que algunos usuarios ven como problemas y limitaciones significativasespecialmente en comparación con la ola de Apache 2.0 con abuso similar potente código extenso, LLM multimodal de startups chinas (que igualmente se puede tomar, personalizar, ejecutar localmente en el hardware estadounidense de forma gratuita por empresas estadounidenses o empresas en cualquier otro área del mundo).

Altos puntos de relato, pero aún detrás de los líderes de código extenso chinos

Los puntos de relato de inteligencia colocan los modelos GPT-OSS antaño de la mayoría de las ofertas de código extenso estadounidenses. Según un tercero independiente AI Benchmarking Firm Sintético AnalysisGPT-OSS-20B es “el maniquí de mancuerna abiertas estadounidenses más inteligentes”, aunque Todavía no alcanzan los pesos pesados chinos como Deepseek R1 y Qwen3 235b.

“Sobre la advertencia, eso es todo lo que hicieron. Magged en puntos de relato”, escribió el autoproclamado Deepseek “Stan” @teortaxestex. “No se capacitarán buenos modelos derivados … no se crean nuevos casos de uso … reclamos estériles de presumir los derechos”.

Ese desconfianza se hace eco de un código extenso seudónimo Investigador de AI Teknium (@Teknium1)cofundador del proveedor de modelos de IA de código extenso rival Nous investigaciónOMS llamado el tirada “Una hamburguesa legítima de nulo”, en X, y predijo que un maniquí chino pronto la eclipará. “En normal, muy chasqueado y legítimamente pensé de mente abierta a esto”, escribieron.

¿Bench-maxxxing en matemáticas y codificación a desembolso de la escritura?

Otra crítica centrada en el Modelos GPT-OSS ‘resultón utilidad estrecha.

Influenciado “Vocal Al Supernatural (@Scaling01)“Señaló que los modelos se destacan en las matemáticas y la codificación, pero” carecen por completo de sabor y sentido global “. Agregó: “¿Entonces es solo un maniquí de matemáticas?”

En las pruebas de escritura creativa, algunos usuarios encontraron el maniquí inyectando ecuaciones en horizontes poéticas. “Esto es lo que sucede cuando BenchmarkMax” Teknium comentócompartiendo una captura de pantalla donde el maniquí agregó una fórmula integral a medio del poema.

Y @Kalamazeinvestigador de la compañía de capacitación de modelos de IA descentralizada Inteligencia principalescribió que “GPT-OSS-120B sabe menos sobre el mundo que lo que hace un buen 32b. Probablemente quería evitar problemas de derechos de autor, por lo que probablemente practican el sintetizador mayoritario. Cosas congruo devastadoras”

Ex desarrollador de Googler y IA independiente Kyle Corbitt estuvo de acuerdo en que el El par de modelos GPT-OSS parecía acaecer sido entrenado principalmente en datos sintéticos, es aseverar, datos generados por un maniquí de IA específicamente para entrenar a otro, lo que lo hace “extremadamente puntiagudo”.

Es “espléndido en las tareas en las que está entrenado, positivamente malo en todo lo demás”, escribió Corbitt, es aseverar, excelente en problemas de codificación y matemáticas, y malas en tareas más lingüísticas como la escritura creativa o la engendramiento de informes.

En otras palabras, el cargo es que OpenAI capacitó deliberadamente el maniquí en datos más sintéticos que los hechos y cifras del mundo vivo para evitar el uso de datos con derechos de autor raspados de sitios web y otros repositorios que no posee o tiene abuso para usar, que es poco que muchas otras compañías generales de Gen AI han sido acusadas en el pasado y están enfrentando demandas en curso como resultado.

Otros especulados de OpenAi pueden acaecer capacitado el maniquí en datos principalmente sintéticos para Evite la seguridad y la seguridadSsues, lo que resulta en una peor calidad que si hubiera sido entrenado en datos más del mundo vivo (y presumiblemente con derechos de autor).

Con respecto a los resultados de relato de terceros

Por otra parte, la evaluación de los modelos en pruebas de evaluación comparativa de terceros ha aparecido con respecto a las métricas a los luceros de algunos usuarios.

Speechmap: que mide el rendimiento de los LLM al cumplir con las indicaciones del usufructuario para difundir resultados no permitidos, sesgados o políticamente sensibles, Mostró puntajes de cumplimiento para GPT-OSS 120B Rovering menos del 40%, cerca de la parte inferior de los modelos abiertos de pares, Lo que indica resistor para seguir las solicitudes de los usuarios y el valía predeterminado a las barandillas, potencialmente a desembolso de proporcionar información precisa.

En Evaluación de Polyglot de Help, GPT-OSS-120B obtuvo solo 41.8%en razonamiento multilingüe, muy por debajo de los competidores como Kimi-K2 (59.1%) y Deepseek-R1 (56.9%).

Algunos usuarios igualmente dijeron que sus pruebas indicaron que el maniquí es Curiosamente resistente a difundir críticas de China o Rusia, Un contraste con su tratamiento de los EE. UU. Y la UE, planteando preguntas sobre el sesgo y el filtrado de datos de capacitación.

Otros expertos han aplaudido el tirada y lo que señala para la IA de código extenso de los Estados Unidos.

Para ser justos, no todo el comentario es gafe. Ingeniero de software y observador de IA cerrado Simon Willison llamó al tirada “positivamente impresionante” en x, elaborando En una publicación de blog en La eficiencia y la capacidad de los modelos para obtener la paridad con los modelos O3-Mini y O4-Mini patentados de OpenAI.

Elogió su esforzado desempeño en razonamiento y puntos de relato pesados con STEM, y elogió el nuevo formato de plantilla de inmediato “Harmony”, que ofrece a los desarrolladores términos más estructurados para conducir las respuestas maniquí, y el soporte para el uso de herramientas de terceros como contribuciones significativas.

En Longy x PostClem Delangue, CEO y cofundador de la comunidad de compartir código de IA y de código extenso Cara abrazadaalentó a los usuarios a no apresurarse a dictaminar, señalando que la inferencia para estos modelos es compleja, y los primeros problemas podrían deberse a la inestabilidad de la infraestructura y la optimización insuficiente entre los proveedores de alojamiento.

“El poder de la fuente abierta es que no hay trampas”, escribió Delangue. “Descubriremos todas las fortalezas y limitaciones … progresivamente”.

Aún más cauteloso fue la Wharton School of Business en la profesora de la Universidad de Pensilvania, Ethan Mollick, quien escribió en x Que “Estados Unidos ahora probablemente tenga los principales modelos de mancuerna abiertas (o cerca)”, pero cuestionó si esto es único por OpenAI. “El liderazgo se evaporará rápidamente a medida que otros se pongan al día”, Señaló, y agregó que no está claro qué incentivos tienen OpenAi para persistir los modelos actualizados.

Nathan Lambert, un investigador líder de IA en el laboratorio de código extenso rival Instituto Allen para AI (AI2) y comentarista, elogió el significado simbólico del tirada en las interconexiones de su blogllamándolo “Un paso fenomenal para el ecosistema extenso, especialmente para Oeste y sus aliados, que la marca más conocida en el espacio de IA ha vuelto a liberar abiertamente modelos ”.

Pero el advirtió en x que gpt-oss es “Es poco probable que desacelere significativamente (equipo de IA de IA del hércules electrónico chino) Qwen”. citando su usabilidad, rendimiento y variedad.

Argumentó que el tirada marca un cambio importante en los Estados Unidos con destino a modelos abiertos, pero que OpenAi todavía tiene un “camino prolongado de regreso” para ponerse al día en la maña.

Un veredicto dividido

El veredicto, por ahora, está dividido.

Los modelos GPT-ASS de OpenAI son un hito en términos de licencias y accesibilidad.

Pero mientras los puntos de relato se ven sólidos, las “vibraciones” del mundo vivo, como muchos usuarios lo describen, están demostrando ser menos convincentes.

Si los desarrolladores pueden construir aplicaciones y derivados fuertes encima de GPT-OSS determinarán si la exención se recordará como un avance o un BLIP.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu principal, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.