
A medida que los LLM han seguido mejorando, ha habido cierta discusión en la industria sobre la penuria continua de herramientas de etiquetado de datos independientes, ya que los LLM son cada vez más capaces de trabajar con todo tipo de datos. señal humana, el principal proveedor comercial detrás del software de código campechano Label Studio, tiene una visión diferente. En circunstancia de ver menos demanda de etiquetado de datos, la empresa está viendo más.
A principios de este mes, HumanSignal adquirió Erud AI y lanzó sus Frontier Data Labs físicos para la compendio de datos novedosos. Pero crear datos es sólo la parte del desafío. Hoy, la empresa está abordando lo que viene a continuación: demostrar que los sistemas de inteligencia sintético entrenados con esos datos efectivamente funcionan. Las nuevas capacidades de evaluación de agentes multimodales permiten a las empresas validar agentes complejos de IA que generan aplicaciones, imágenes, códigos y videos.
"Si se centra en los segmentos empresariales, entonces todas las soluciones de IA que están creando aún deben ser evaluadas, que es solo otra palabra para el etiquetado de datos por parte de humanos y aún más por parte de expertos." El cofundador y director ejecutante de HumanSignal, Michael Malyuk, dijo a VentureBeat en una entrevista monopolio.
La intersección del etiquetado de datos y la evaluación de IA agente
Tener los datos correctos es inexistente, pero ese no es el objetivo final de una empresa. Cerca de donde se dirige el etiquetado de datos reciente es con destino a la evaluación.
Es un cambio fundamental en lo que las empresas necesitan validar: no si su maniquí clasificó correctamente una imagen, sino si su agente de IA tomó buenas decisiones en una tarea compleja de múltiples pasos que involucra razonamiento, uso de herramientas y coexistentes de código.
Si la evaluación es simplemente etiquetar datos para los resultados de la IA, entonces el cambio de modelos a agentes representa un cambio radical en lo que debe etiquetarse. Mientras que el etiquetado de datos tradicional puede implicar marcar imágenes o categorizar texto, la evaluación de agentes requiere decidir cadenas de razonamiento de varios pasos, decisiones de selección de herramientas y resultados multimodales, todo interiormente de una única interacción.
"Existe una penuria muy resistente de que ya no solo haya humanos en el circuito, sino asimismo expertos en el circuito," dijo Malyuk. Señaló aplicaciones de suspensión aventura como la concurso sanitaria y el asesoramiento procesal como ejemplos en los que el coste de los errores sigue siendo prohibitivamente suspensión.
La conexión entre el etiquetado de datos y la evaluación de la IA es más profunda que la semántica. Ambas actividades requieren las mismas capacidades fundamentales:
-
Interfaces estructuradas para el discernimiento humano: Ya sea que los revisores estén etiquetando imágenes para datos de entrenamiento o evaluando si un agente orquestó correctamente múltiples herramientas, necesitan interfaces diseñadas específicamente para capturar sus evaluaciones de modo sistemática.
-
Consenso de múltiples revisores: Los conjuntos de datos de entrenamiento de ingreso calidad requieren múltiples etiquetadores que concilien los desacuerdos. La evaluación de ingreso calidad requiere lo mismo: múltiples expertos evaluando los resultados y resolviendo diferencias de discernimiento.
-
Experiencia en el dominio a escalera: La capacitación de sistemas de inteligencia sintético modernos requiere expertos en la materia, no solo trabajadores en masa que hacen clic en recadero. La evaluación de los resultados de la producción de IA requiere la misma profundidad de experiencia.
-
Bucles de feedback en los sistemas de IA: Los datos de entrenamiento etiquetados alimentan el avance del maniquí. Los datos de evaluación alimentan la mejoría continua, el ajuste y la evaluación comparativa.
Evaluación del seguimiento completo del agente
El desafío de evaluar agentes no es sólo el pandeo de datos, sino asimismo la complejidad de lo que se debe evaluar. Los agentes no producen resultados de texto simples; generan cadenas de razonamiento, seleccionan herramientas y producen artefactos en múltiples modalidades.
Las nuevas capacidades de Label Studio Enterprise abordan los requisitos de garra del agente:
-
Inspección de trazas multimodal: La plataforma proporciona interfaces unificadas para revisar seguimientos completos de la ejecución del agente: pasos de razonamiento, llamadas a herramientas y resultados en todas las modalidades. Esto soluciona un problema global en el que los equipos deben analizar flujos de registros separados.
-
Evaluación interactiva de múltiples turnos: Los evaluadores evalúan los flujos de conversación donde los agentes mantienen el estado en múltiples turnos, validando el seguimiento del contexto y la interpretación de la intención a lo dilatado de la secuencia de interacción.
-
Agente Arena: Entorno de evaluación comparativo para probar diferentes configuraciones de agentes (modelos almohadilla, plantillas de avisos, implementaciones de barreras de seguridad) en condiciones idénticas.
-
Rúbricas de evaluación flexibles: Los equipos definen criterios de evaluación específicos del dominio mediante programación en circunstancia de utilizar métricas predefinidas, lo que respalda requisitos como la precisión de la comprensión, la idoneidad de la respuesta o la calidad de los resultados para casos de uso específicos.
La evaluación de agentes es el nuevo campo de batalla para los proveedores de etiquetado de datos
HumanSignal no es el único que reconoce que la evaluación de agentes representa la ulterior grado del mercado del etiquetado de datos. Los competidores están dando giros similares a medida que la industria alega tanto a los cambios tecnológicos como a las perturbaciones del mercado.
Caja de etiquetas lanzó su Estudio de Evaluación en agosto de 2025, enfocado en evaluaciones basadas en rúbricas. Al igual que HumanSignal, la empresa se está expandiendo más allá del etiquetado de datos tradicional con destino a la garra de IA de producción.
El panorama competitivo genérico para el etiquetado de datos cambió drásticamente en junio, cuando Meta invirtió 14.300 millones de dólares en una décimo del 49% en Scale AI, el líder precedente del mercado. El acuerdo provocó un éxodo de algunos de los clientes más importantes de Scale. HumanSignal aprovechó la disrupción y Malyuk afirmó que su empresa pudo triunfar múltiples acuerdos competitivos el zaguero trimestre. Malyuk cita la masculinidad de la plataforma, la flexibilidad de configuración y la atención al cliente como diferenciadores, aunque los competidores hacen afirmaciones similares.
Qué significa esto para los creadores de IA
Para las empresas que construyen sistemas de producción de IA, la convergencia del etiquetado de datos y la infraestructura de evaluación tiene varias implicaciones estratégicas:
Comience con la verdad fundamental. La inversión en la creación de conjuntos de datos etiquetados de ingreso calidad con múltiples revisores expertos que resuelven desacuerdos rinde dividendos durante todo el ciclo de vida del avance de la IA, desde la capacitación auténtico hasta la mejoría continua de la producción.
La observabilidad resulta necesaria pero insuficiente. Si proporcionadamente monitorear lo que hacen los sistemas de IA sigue siendo importante, las herramientas de observabilidad miden la actividad, no la calidad. Las empresas requieren una infraestructura de evaluación dedicada para valorar los resultados e impulsar mejoras. Estos son problemas distintos que requieren capacidades diferentes.
La infraestructura de datos de capacitación asimismo funciona como infraestructura de evaluación. Las organizaciones que han invertido en plataformas de etiquetado de datos para el avance de modelos pueden extender esa misma infraestructura a la evaluación de la producción. Estos no son problemas separados que requieren herramientas separadas: son el mismo flujo de trabajo fundamental empollón en diferentes etapas del ciclo de vida.
Para las empresas que implementan IA a escalera, el cuello de botella ha pasado de crear modelos a validarlos. Las organizaciones que reconocen este cambio desde el principio obtienen ventajas en el giro de sistemas de inteligencia sintético de producción.
La pregunta crítica para las empresas ha evolucionado: no si los sistemas de IA son lo suficientemente sofisticados, sino si las organizaciones pueden demostrar sistemáticamente que cumplen con los requisitos de calidad de dominios específicos de suspensión aventura.






