Sakana presenta una nueva edificio de IA, ‘máquinas de pensamiento continuo’ para hacer que los modelos razonen con menos orientación, como los cerebros humanos

Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información

La startup de inteligencia sintético con sede en Tokio, Sakana, cofundada por los ex científicos de Google AI, incluidos Llion Jones y David Ha, ha presentado un nuevo tipo de Bloque del maniquí de IA llamado Máquinas de pensamiento continuo (CTM).

Los CTM están diseñados para marcar el manifestación de una nueva era de modelos de jerigonza de IA que serán más flexibles y capaces de manejar una matiz más amplia de tareas cognitivas, como la resolución de laberintos complejos o tareas de navegación sin señales posicionales o incrustaciones espaciales preexistentes, moviéndolas más cerca de la forma en que los seres humanos razonan a través de problemas familiares.

En área de encomendar en capas fijas y paralelas que procesan las entradas todas a la vez, como lo hacen los modelos de transformadores, los ctms despliegan el cálculo en los pasos internamente de cada pelotón de entrada/salida, conocida como una “neurona” sintético.

Cada neurona en el maniquí conserva una breve historia de su actividad antedicho y usa esa memoria para atreverse cuándo activarse nuevamente.

Este estado interno añadido permite a los CTM ajustar la profundidad y la duración de su razonamiento dinámicamente, dependiendo de la complejidad de la tarea. Como tal, cada neurona es mucho más densa en la información y compleja que en un maniquí de transformador representativo.

La startup ha publicado un Documento en el diario de camino hendido arxiv describiendo su trabajo, un micrositio y Repositorio de Github.

Cómo los CTM difieren de los LLM basados en transformadores

La mayoría de los modelos de jerigonza prócer modernos (LLM) todavía se basan fundamentalmente en la edificio “transformador” descrita en el documento seminal de 2017 de los investigadores de Google Brain titulado “La atención es todo lo que necesitas. ”

Estos modelos utilizan capas de neuronas artificiales paralelizadas y de profundidad fija para procesar entradas en una sola pasada, ya sea que esas entradas provienen de indicaciones del adjudicatario al momento de inferencia o datos etiquetados durante la capacitación.

Por el contrario, los CTM permiten que cada neurona sintético opere en su propia sarta de tiempo interna, tomando decisiones de activación basadas en una memoria a corto plazo de sus estados anteriores. Estas decisiones se desarrollan en los pasos internos conocidos como “garrapatas”, lo que permite que el maniquí ajuste la duración de su razonamiento dinámicamente.

Esta edificio basada en el tiempo permite que los CTM razonen progresivamente, ajustando cuánto tiempo y cuán profundamente calculan, tomando un número diferente de garrapatas en función de la complejidad de la entrada.

La memoria y la sincronización específicos de la neurona ayudan a determinar cuándo el cálculo debe continuar, o detenerse.

El número de garrapatas cambia de acuerdo con la información ingresada, y puede ser más o menos incluso si la información de entrada es idéntica, porque cada neurona está decidiendo cuántas garrapatas para sufrir antaño de proporcionar una salida (o no proporcionar una).

Esto representa una desviación técnica y filosófica del estudios profundo convencional, avanzando alrededor de un maniquí más basado en biológicamente. Sakana ha enmarcado CTM como un paso alrededor de una inteligencia más cerebral: los sistemas que se adaptan con el tiempo, procesan la información de forma flexible y participan en un cálculo interno más profundo cuando sea necesario.

El objetivo de Sakana es “alcanzar eventualmente niveles de competencia que rivalicen o superen los cerebros humanos”.

Uso de plazos variables y personalizados para proporcionar más inteligencia

El CTM se construye cerca de de dos mecanismos esencia.

Primero, cada neurona en el maniquí mantiene una breve “historia” o memoria de trabajo de cuándo se activó y por qué, y usa esta historia para tomar una valor de cuándo disparar a continuación.

Segundo, sincronización neuronal: cómo y cuándo grupos de las neuronas artificiales de un maniquí “fuego”, o la información del proceso juntas, se permite que ocurra orgánicamente.

Los grupos de neuronas deciden cuándo disparar en función de la formación interna, no las instrucciones externas o la conformación de la remuneración. Estos eventos de sincronización se utilizan para modular la atención y producir resultados, es asegurar, la atención se dirige a aquellas áreas donde se disparan más neuronas.

El maniquí no es solo procesar datos, es cronometrar su pensamiento para que coincida con la complejidad de la tarea.

Juntos, estos mecanismos permiten que los CTM reducen la carga computacional en tareas más simples mientras aplican un razonamiento más profundo y prolongado donde sea necesario.

En demostraciones que van desde la clasificación de imágenes y la resolución de caos 2D hasta el estudios de refuerzo, los CTM han demostrado tanto interpretabilidad como adaptabilidad. Sus pasos internos de “pensamiento” permiten a los investigadores observar cómo se forman las decisiones a lo desprendido del tiempo, un nivel de transparencia rara vez manido en otras familias maniquí.

Resultados tempranos: cómo se comparan los CTMS con los modelos de transformadores en puntos de narración y tareas esencia

La máquina de pensamiento continuo de Sakana AI no está diseñada para perseguir puntajes de narración que encabezan la tabla de clasificación, pero sus primeros resultados indican que su diseño de inspiración biológica no tiene costo de la capacidad destreza.

En el punto de narración ImageNet-1k ampliamente utilizado, el CTM alcanzó 72.47% Top-1 y 89.89% de precisión top-5.

Si acertadamente esto no tiene en cuenta modelos de transformadores de última gestación como VIT o ConvNext, sigue siendo competitivo, especialmente teniendo en cuenta que la edificio CTM es fundamentalmente diferente y no estaba optimizada exclusivamente para el rendimiento.

Lo que se destaca más son los comportamientos de CTM en tareas secuenciales y adaptativas. En escenarios de resolución de laberinuras, el maniquí produce futuro direccionales paso a paso de imágenes sin procesar, sin usar incrustaciones posicionales, que son típicamente esenciales en los modelos de transformadores. Las trazas de atención visual revelan que los CTM a menudo atienden regiones de imagen en una secuencia humana, como identificar los rasgos faciales de fanales a hocico a boca.

El maniquí igualmente exhibe una musculoso calibración: sus estimaciones de confianza se alinean estrechamente con la precisión de la predicción existente. A diferencia de la mayoría de los modelos que requieren escalera de temperatura o ajustes post-hoc, los CTM mejoran la calibración de forma natural al promediar las predicciones con el tiempo a medida que se desarrolla su razonamiento interno.

Esta combinación de razonamiento secuencial, calibración natural e interpretabilidad ofrece una valiosa compensación para las aplicaciones donde la confianza y la trazabilidad importan tanto como la precisión cruda.

¿Qué se necesita antaño de que los CTM estén listos para la implementación empresarial y comercial?

Si acertadamente los CTM muestran una promesa sustancial, la edificio sigue siendo empírico y aún no está optimizada para la implementación comercial. Sakana AI presenta el maniquí como una plataforma para una maduro investigación y exploración en área de una opción empresarial enchufe y pasada.

La capacitación de CTMS actualmente exige más bienes que los modelos de transformadores tipificado. Su estructura temporal dinámica expande el espacio de estado, y se necesita un ajuste cuidadoso para avalar un estudios estable y apto en los pasos de tiempo internos. Por otra parte, la depuración y el soporte de herramientas aún se están poniendo al día: muchos de las bibliotecas y perfiladores de hoy en día no están diseñados con modelos en el tiempo.

Aún así, Sakana ha sentado una almohadilla sólida para la apadrinamiento de la comunidad. La implementación completa de CTM es de código hendido en Girub e incluye scripts de capacitación específicos de dominio, puntos de control previos al detenido, consignación de servicios públicos y herramientas de prospección. Las tareas compatibles incluyen clasificación de imágenes (Imagenet, CIFAR), navegación de caos 2D, Qamnist, Computación de paridad, clasificación y estudios de refuerzo.

Una demostración web interactiva igualmente permite a los usuarios explorar el CTM en entusiasmo, observando cómo su atención cambia con el tiempo durante la inferencia, una forma convincente de comprender el flujo de razonamiento de la edificio.

Para que los CTM alcancen entornos de producción, se necesita más progreso en la optimización, la eficiencia del hardware y la integración con las tuberías de inferencia tipificado. Pero con código accesible y documentación activa, Sakana ha facilitado que los investigadores e ingenieros comiencen a ensayar con el maniquí hoy.

Lo que los líderes de IA Enterprise deben entender sobre CTMS

La edificio CTM todavía está en sus primeros días, pero los tomadores de decisiones empresariales ya deben tomar nota. Su capacidad para asignar adaptativamente el calculador, autorregular la profundidad del razonamiento y ofrecer una clara interpretabilidad puede resultar muy valiosa en los sistemas de producción que enfrentan la complejidad de entrada variable o los requisitos regulatorios estrictos.

Los ingenieros de IA que administran la implementación del maniquí encontrarán valía en la inferencia de eficiencia energética de CTM, especialmente en aplicaciones a gran escalera o sensibles a la latencia.

Mientras tanto, el razonamiento paso a paso de la edificio desbloquea una explicación más rica, lo que permite a las organizaciones rastrear no solo lo que un maniquí predijo, sino cómo llegó allí.

Para los equipos de orquestación y MLOPS, los CTM se integran con componentes familiares como codificadores basados en Resnet, lo que permite una incorporación más suave en los flujos de trabajo existentes. Y los clientes potenciales de infraestructura pueden usar los ganchos de perfiles de la edificio para asignar mejor los bienes y monitorear la dinámica del rendimiento con el tiempo.

Los CTM no están listos para reemplazar los transformadores, pero representan una nueva categoría de maniquí con nuevas posibilidades. Para las organizaciones que priorizan la seguridad, la interpretabilidad y el cálculo adaptativo, la edificio merece mucha atención.

Historial de investigación de IA a cuadros de Sakana

En febrero, Sakana presentó al ingeniero de AI Cudaun sistema de IA de agente diseñado para automatizar la producción de mucho optimizado Núcleos de cudalos conjuntos de instrucciones que permiten que las unidades de procesamiento de gráficos de NVIDIA (y otros) (GPU) ejecutaran el código de forma apto en paralelo en múltiples “hilos” o unidades computacionales.

La promesa fue significativa: aceleraciones de 10x a 100x en operaciones ML. Sin requisa, poco a posteriori del dispersión, los revisores externos descubrieron que el El sistema estaba explotando las debilidades en el sandbox de evaluación—Essencialmente “infiel“Al evitar las verificaciones de corrección a través de una exploit de memoria.

En una publicación pública, Sakana reconoció el tema y acreditó a los miembros de la comunidad con la marca.

Desde entonces, han revisado sus herramientas de evaluación y perfil de tiempo de ejecución para eliminar lagunas similares y están revisando sus resultados y documentos de investigación en consecuencia. El incidente ofreció una prueba del mundo existente de uno de los títulos establecidos de Sakana: adoptar la iteración y la transparencia en la búsqueda de mejores sistemas de IA.

Apuestas por mecanismos evolutivos

El espíritu fundador de Sakana Ai radica en fusionar el cálculo evolutivo con el estudios mecánico novedoso. La compañía cree que los modelos actuales son demasiado rígidos, encerrados en arquitecturas fijas y que requieren reentrenamiento para nuevas tareas.

Por el contrario, Sakana tiene como objetivo crear modelos que se adapten en tiempo existente, exhiban un comportamiento emergente y escalera lógicamente a través de la interacción y la feedback, al igual que los organismos en un ecosistema.

Esta visión ya se está manifestando en productos como Transformer², un sistema que ajusta los parámetros de LLM en un tiempo de inferencia sin capacitación, utilizando trucos algebraicos como la descomposición de valía singular.

Además es evidente en su compromiso con los sistemas de fuentes abiertas como el comprobado de IA, incluso en medio de controversia, evitando una voluntad de comprometerse con la comunidad de investigación más amplia, no solo competir con ella.

Como grandes titulares como OpenAI y Google Double Down en los modelos de almohadilla, Sakana está trazando un curso diferente: sistemas pequeños, dinámicos e inspirados biológicamente que piensan en el tiempo, colaboran por diseño y evolucionan a través de la experiencia.

Insights diarias sobre casos de uso comercial con VB diariamente

Si quieres impresionar a tu director, VB Daily te tiene cubierto. Le damos la cuenta interior de lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, por lo que puede compartir ideas para el ROI mayor.

Lea nuestra Política de privacidad

Gracias por suscribirse. Mira más boletines de VB aquí.

Ocurrió un error.

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Sakana presenta una nueva edificio de IA, ‘máquinas de pensamiento continuo’ para hacer que los modelos razonen con menos orientación, como los cerebros humanos

Cómo los CTM difieren de los LLM basados en transformadores

Uso de plazos variables y personalizados para proporcionar más inteligencia

Resultados tempranos: cómo se comparan los CTMS con los modelos de transformadores en puntos de narración y tareas esencia

¿Qué se necesita antaño de que los CTM estén listos para la implementación empresarial y comercial?

Lo que los líderes de IA Enterprise deben entender sobre CTMS

Historial de investigación de IA a cuadros de Sakana

Apuestas por mecanismos evolutivos

ztevenreal

Related Posts

Perplexity ha arrojado Perplexity Health

Las mejores ofertas de streaming en este momento: Hulu, Disney+, Paramount+ y más

You Missed

Anuncian a Rigoberta Menchú como invitada principal de ExpoSostenible 2026

Disponen de $15,000 MM para encarar la crisis por combate en Irán – Remolacha

Perplexity ha arrojado Perplexity Health

EDUCA está alerta

apoyo gubernativo y dragado del río Joba tras catástrofe

Las mejores ofertas de streaming en este momento: Hulu, Disney+, Paramount+ y más

DeUltimoMinuto

Or check our Popular Categories...

DeUltimoMinuto

Or check our Popular Categories...

Sakana presenta una nueva edificio de IA, ‘máquinas de pensamiento continuo’ para hacer que los modelos razonen con menos orientación, como los cerebros humanos

Cómo los CTM difieren de los LLM basados ​​en transformadores

Uso de plazos variables y personalizados para proporcionar más inteligencia

Resultados tempranos: cómo se comparan los CTMS con los modelos de transformadores en puntos de narración y tareas esencia

¿Qué se necesita antaño de que los CTM estén listos para la implementación empresarial y comercial?

Lo que los líderes de IA Enterprise deben entender sobre CTMS

Historial de investigación de IA a cuadros de Sakana

Apuestas por mecanismos evolutivos

ztevenreal

Related Posts

Perplexity ha arrojado Perplexity Health

Las mejores ofertas de streaming en este momento: Hulu, Disney+, Paramount+ y más

You Missed

Anuncian a Rigoberta Menchú como invitada principal de ExpoSostenible 2026

Disponen de $15,000 MM para encarar la crisis por combate en Irán – Remolacha

Perplexity ha arrojado Perplexity Health

EDUCA está alerta

apoyo gubernativo y dragado del río Joba tras catástrofe

Las mejores ofertas de streaming en este momento: Hulu, Disney+, Paramount+ y más

Cómo los CTM difieren de los LLM basados en transformadores