El procesamiento de datos por lotes es demasiado flemático para la IA en tiempo actual: cómo Apache Airflow 3.0 de código franco resuelve el desafío con la orquestación de datos basada en eventos


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Mover datos de diversas fuentes a la ubicación correcta para uso de IA es una tarea desafiante. Ahí es donde las tecnologías de orquestación de datos como Flujo de música de Apache encajar.

Hoy, la comunidad Airflow Apache está fuera con su maduro aggiornamento en primaveras, con el primicia del extensión 3.0. El nuevo extensión marca la primera aggiornamento de la lectura principal en cuatro primaveras. Sin retención, el flujo de música ha estado activo incrementando constantemente en la serie 2.x, incluidas las actualizaciones de 2.9 y 2.10 en 2024, que se centraron mucho en la IA.

En los últimos primaveras, los ingenieros de datos han acogido el flujo de música Apache como su utensilio standard de facto. Apache Airflow se ha establecido como la principal plataforma de orquestación de flujo de trabajo de código franco con más de 3.000 contribuyentes y una apadrinamiento generalizada en las compañías Fortune 500. Asimismo hay múltiples servicios comerciales basados ​​en la plataforma, incluidos Astronomer Divo, Google Cloud Composer, Amazon Managed Flows para Apache Airflow (MWAA) y Microsoft Azure Data Factory Managed Airflow, entre otros.

A medida que las organizaciones luchan por coordinar los flujos de trabajo de datos en sistemas dispares, nubes y cargas de trabajo cada vez más IA, las organizaciones tienen deposición crecientes. Apache Airflow 3.0 aborda las deposición empresariales críticas con un rediseño arquitectónico que podría mejorar la forma en que las organizaciones construyen e implementan aplicaciones de datos.

“Para mí, Airflow 3 es un nuevo principio, es una cojín para un conjunto de capacidades mucho maduro”, dijo Vikram Koka, miembro de Apache Airflow PMC (Comité de Mandato de Proyectos) y director de táctica de Astronomer, en VentureBeat en una entrevista monopolio. “Este es casi un refactor completo basado en lo que las empresas nos dijeron que necesitaban para el futuro nivel de apadrinamiento crítica de la labor”.

La complejidad de los datos empresariales ha cambiado las deposición de orquestación de datos

A medida que las empresas dependen cada vez más de la toma de decisiones basadas en datos, la complejidad de los flujos de trabajo de datos ha explotado. Las organizaciones ahora administran tuberías intrincadas que abarcan múltiples entornos en la aglomeración, diversas fuentes de datos y cargas de trabajo de IA cada vez más sofisticadas.

Airflow 3.0 emerge como una opción diseñada específicamente para satisfacer estas deposición empresariales en desarrollo. A diferencia de las versiones anteriores, esta lectura se separa de un paquete monolítico, introduciendo un maniquí de cliente distribuido que proporciona flexibilidad y seguridad. Esta nueva cimentación permite a las empresas:

  1. Ejecutar tareas en múltiples entornos en la aglomeración.
  2. Implementar controles de seguridad granulares.
  3. Admite diversos lenguajes de programación.
  4. Habilite las verdaderas implementaciones de múltiples nubes.

El soporte de jerigonza expandido de Airflow 3.0 asimismo es interesante. Si acertadamente las versiones anteriores estaban principalmente centradas en Python, la nueva lectura admite de forma nativa múltiples lenguajes de programación.

Airflow 3.0 está avispado para convenir Python e ir con soporte planificado para Java, TypeScript y Rust. Este enfoque significa que los ingenieros de datos pueden escribir tareas en su jerigonza de programación preferido, reduciendo la fricción en el avance e integración del flujo de trabajo.

Capacidades basadas en eventos transfigurar flujos de trabajo de datos

El flujo de música se ha destacado tradicionalmente en el procesamiento de lotes programado, pero las empresas necesitan cada vez más capacidades de procesamiento de datos en tiempo actual. Airflow 3.0 ahora admite esa carencia.

“Un cambio secreto en Airflow 3 es lo que llamamos programación basada en eventos”, explicó Koka.

En superficie de ejecutar un trabajo de procesamiento de datos cada hora, Airflow ahora inicia automáticamente el trabajo cuando se carga un archivo de datos específico o cuando aparece un mensaje en particular. Esto podría incluir datos cargados en un cubo de almacenamiento en la aglomeración de Amazon S3 o un mensaje de datos de transmisión en Apache Kafka.

La capacidad de programación basada en eventos aborda una brecha crítica entre las herramientas tradicionales de ETL (extracto, transformación y carga) y marcos de procesamiento de flujo como apache o Transmisión estructurada de Apache Sparkpermitiendo a las organizaciones usar una sola capa de orquestación para flujos de trabajo programados y activados por eventos.

El flujo de música acelerará la ejecución de inferencia de IA Enterprise y la IA compuesto

La orquestación de datos basada en eventos asimismo ayudará a Airflow a convenir la ejecución de inferencia rápida.

Como ejemplo, Koka detalló un caso de uso en el que se utiliza la inferencia en tiempo actual para servicios profesionales como el seguimiento de tiempo judicial. En ese escena, el flujo de música se puede utilizar para ayudar a resumir datos sin procesar de fuentes como calendarios, correos electrónicos y documentos. Se puede utilizar un maniquí de jerigonza ínclito (LLM) para transfigurar la información no estructurada en datos estructurados. Otro maniquí previamente capacitado se puede utilizar para analizar los datos de seguimiento de tiempo estructurados, determinar si el trabajo es facturable y luego asignar códigos y tarifas de facturación apropiados.

Koka se refirió a este enfoque como un sistema de IA compuesto, un flujo de trabajo que combina diferentes modelos de IA para completar una tarea compleja de forma válido e inteligente. La cimentación basada en eventos de Airflow 3.0 hace que este tipo de proceso de inferencia de varios pasos en tiempo actual sea posible en varios casos de uso empresarial.

La IA compuesta es un enfoque que fue definido por primera vez por el Investigación de inteligencia fabricado de Berkeley Centro en 2024 y es un poco diferente de la IA de agente. Koka explicó que la IA de agente permite la toma de decisiones autónoma de IA, mientras que la IA compuesta tiene flujos de trabajo predefinidos que son más predecibles y confiables para los casos de uso de negocios.

Brincar a la pelota con flujo de música, cómo los Rangers de Texas buscan beneficiarse

Entre los muchos usuarios de Airflow se encuentra el equipo de béisbol de las Grandes Ligas de los Texas Rangers.

Oliver Dykstra, ingeniero de datos de pila completa en el Texas Rangers Baseball Club, dijo a VentureBeat que el equipo usa el flujo de música alojado en la plataforma Divo de Astronomer como el ‘centro nervioso’ de las operaciones de datos de béisbol. Señaló que todo el avance de jugadores, contratos, disección y, por supuesto, los datos del surtido se orquestan a través del flujo de música.

“Esperamos desempolvar a Airflow 3 y sus mejoras para la programación, la observabilidad y el ralea de datos basados ​​en eventos”, declaró Dykstra. “Como ya confiamos en el flujo de música para llevar la batuta nuestras tuberías críticas de IA/ML, la eficiencia adicional y la confiabilidad del flujo de música 3 ayudará a aumentar la confianza y la resistor de estos productos de datos en el interior de toda nuestra estructura”.

Lo que esto significa para la apadrinamiento empresarial de IA

Para los tomadores de decisiones técnicas que evalúan la táctica de orquestación de datos, Airflow 3.0 ofrece beneficios procesables que pueden implementarse en fases.

El primer paso es evaluar los flujos de trabajo de datos actuales que se beneficiarían de las nuevas capacidades basadas en eventos. Las organizaciones pueden identificar tuberías de datos que actualmente desencadenan trabajos programados, pero los desencadenantes basados ​​en eventos podrían administrarse de forma más válido. Este cambio puede someter significativamente la latencia de procesamiento al tiempo que elimina las operaciones de votación derrochadoras.

A continuación, los líderes de tecnología deben evaluar sus entornos de avance para determinar si el nuevo soporte lingüístico de Airflow podría consolidar herramientas de orquestación fragmentadas. Los equipos que actualmente mantienen herramientas de orquestación separadas para diferentes entornos de idiomas pueden comenzar a planificar una táctica de migración para simplificar su pila de tecnología.

Para las empresas que lideran el camino en la implementación de la IA, Airflow 3.0 representa un componente de infraestructura crítica que puede enfrentarse un desafío significativo en la apadrinamiento de IA: orquestación de flujos de trabajo de IA complejos complejos en varias etapas a escalera empresarial. La capacidad de la plataforma para coordinar los sistemas de IA compuestos podría ayudar a permitir a las organizaciones ir más allá de la prueba de concepto para el despliegue de IA de toda la empresa con una gobernanza, seguridad y confiabilidad adecuadas.


Related Posts

Bethesda se escarnio de Oblivion Remaster, que se revelará oficialmente hoy

Bethesda ha insinuado el tan esperado remaster de los Scrolls de ancianos 4: Oblivion. El estudio propiedad de Microsoft ha programado un anuncio oficial programado para el 22 de abril…

Tome esta pequeña potencia de una PC: está casi un 50% de descuento en este momento

Tu mini pc $ 170 $ 320 Ahorre $ 150 Cambie su computadora de escritorio masiva por esta poderosa mini PC, ya que este enorme descuento lo deja caer al…

Leave a Reply

Your email address will not be published. Required fields are marked *

You Missed

Irán anuncia se retrasa al sábado la reunión nuclear técnica con EEUU

Irán anuncia se retrasa al sábado la reunión nuclear técnica con EEUU

República Dominicana y Costa Rica firman acuerdo para avanzar en transformación digital segura

República Dominicana y Costa Rica firman acuerdo para avanzar en transformación digital segura

Detienen a 87 haitianas embarazadas o en ocupación de parto en hospitales

Detienen a 87 haitianas embarazadas o en ocupación de parto en hospitales

Antonio Espaillat hablará este miércoles – Remolacha

Antonio Espaillat hablará este miércoles – Remolacha

Bethesda se escarnio de Oblivion Remaster, que se revelará oficialmente hoy

Bethesda se escarnio de Oblivion Remaster, que se revelará oficialmente hoy

Operante migratorio en hospitales: no se está cobrando a extranjeros

Operante migratorio en hospitales: no se está cobrando a extranjeros