La codificación de IA transforma la ingeniería de datos: cómo la biblioteca Python de código despejado de dltHub ayuda a los desarrolladores a crear canales de datos para IA en minutos

La codificación de IA transforma la ingeniería de datos: cómo la biblioteca Python de código despejado de dltHub ayuda a los desarrolladores a crear canales de datos para IA en minutos

Una revolución silenciosa está remodelando la ingeniería de datos empresariales. Los desarrolladores de Python están creando canales de datos de producción en minutos utilizando herramientas que habrían requerido equipos especializados completos hace tan pronto como unos meses.

El catalizador es dltuna biblioteca Python de código despejado que automatiza tareas complejas de ingeniería de datos. La útil ha atrapado los 3 millones de descargas mensuales y potencia los flujos de trabajo de datos para más de 5000 empresas en industrias reguladas, incluidas las finanzas, la atención médica y la manufactura. Esa tecnología está recibiendo hoy otro sólido voto de confianza, ya que dltHub, la empresa con sede en Berlín detrás de la biblioteca dlt de código despejado, está recaudando 8 millones de dólares en financiación auténtico liderada por Bessemer Venture Partners.

Lo que hace que esto sea significativo no son sólo las cifras de admisión. Así es como los desarrolladores utilizan la útil en combinación con asistentes de codificación de IA para realizar tareas que antaño requerían ingenieros de infraestructura, especialistas en DevOps y personal de patrulla.

La empresa está construyendo una plataforma alojada en la cúmulo que amplía su biblioteca de código despejado a una alternativa completa de extremo a extremo. La plataforma permitirá a los desarrolladores implementar canalizaciones, transformaciones y portátiles con un solo comando sin preocuparse por la infraestructura. Esto representa un cambio fundamental de la ingeniería de datos que requiere equipos especializados a ser accesible para cualquier desarrollador de Python.

"Cualquier desarrollador de Python debería poder avecinar a sus usuarios comerciales a datos nuevos y confiables." Matthaus Krzykowski, cofundador y director ejecutante de dltHub, dijo a VentureBeat en una entrevista monopolio. "Nuestra tarea es hacer que la ingeniería de datos sea tan accesible, colaborativa y sin fricciones como escribir Python."

De SQL a la ingeniería de datos nativa de Python

El problema que la empresa se propuso resolver surgió de frustraciones del mundo positivo.

Un conjunto central de frustraciones proviene de un choque fundamental entre cómo las diferentes generaciones de desarrolladores trabajan con los datos. Krzykowski señaló que existe una concepción de desarrolladores que se basan en SQL y la tecnología de bases de datos relacionales. Por otro costado, hay una concepción de desarrolladores que crean agentes de IA con Python.

Esta división refleja desafíos técnicos más profundos. La ingeniería de datos basada en SQL bloquea a los equipos en plataformas específicas y requiere un amplio conocimiento de la infraestructura. Los desarrolladores de Python que trabajan en IA necesitan herramientas ligeras e independientes de la plataforma que funcionen en portátiles y se integren con los asistentes de codificación LLM.

La biblioteca dlt cambia esta ecuación al automatizar tareas complejas de ingeniería de datos en un código Python simple.

"Si sabes qué es una función en Python, qué es una registro, una fuente y un petición, entonces puedes escribir este código muy declarativo y muy simple." explicó Krzykowski.

El avance técnico secreto aborda la desarrollo del esquema de forma cibernética. Cuando las fuentes de datos cambian su formato de salida, los canales tradicionales se rompen.

"DLT tiene mecanismos para resolver automáticamente estos problemas," Thierry Jean, ingeniero fundador de dltHub, dijo a VentureBeat. "Entonces enviará datos, y usted puede aseverar, avíseme si las cosas cambian en sentido subido, o simplemente hacerlo lo suficientemente flexible y cambiar los datos y el destino de modo que se adapten a estas cosas."

Experiencia de desarrollador del mundo positivo

Hoyt Emerson, asesor de datos y creador de contenido de The Full Data Stack, adoptó recientemente la útil para un trabajo en el que tenía un desafío que resolver.

Necesitaba trasladar datos de Google Cloud Storage a múltiples destinos, incluido Amazon S3 y un almacén de datos. Los enfoques tradicionales requerirían conocimientos específicos de la plataforma para cada destino. Emerson le dijo a VentureBeat que lo que efectivamente quería era una forma mucho más liviana y independiente de la plataforma para cursar datos de un zona a otro.

"Fue entonces cuando DLT me dio el momento ¡ajá!" dijo Emerson.

Completó todo el proceso en cinco minutos utilizando la documentación de la biblioteca, lo que facilitó su puesta en marcha rápidamente y sin problemas.

El proceso se vuelve aún más poderoso cuando se combina con asistentes de codificación de IA. Emerson señaló que está utilizando principios de codificación de IA agente y se dio cuenta de que la documentación dlt podría enviarse como contexto a un LLM para acelerar y automatizar su trabajo con datos. Con la documentación como contexto, Emerson pudo crear plantillas reutilizables para proyectos futuros y utilizó asistentes de IA para ocasionar configuraciones de implementación.

"Es extremadamente acogedor con LLM porque está muy proporcionadamente documentado." dijo.

El patrón de mejora LLM-Nativo

Esta combinación de herramientas proporcionadamente documentadas y colaboración de IA representa un nuevo patrón de mejora. La empresa ha optimizado específicamente para lo que ellos llaman "Modo Yolo" mejora donde los desarrolladores copian mensajes de error y los pegan en asistentes de codificación de IA.

"Muchas de estas personas textualmente simplemente copian y pegan mensajes de error y prueban los editores de código para resolverlo." dijo Krzykowski. La empresa se toma este comportamiento lo suficientemente en serio como para solucionar problemas específicamente para los flujos de trabajo asistidos por IA.

Los resultados hablan de la competencia del enfoque. Sólo en septiembre, los usuarios crearon más de 50.000 conectores personalizados utilizando la biblioteca. Eso representa un aumento de 20 veces desde enero, impulsado en gran medida por el mejora asistido por LLM.

Cimentación técnica para escalera empresarial

La filosofía de diseño dlt prioriza la interoperabilidad sobre el aislamiento de la plataforma. La útil se puede implementar en cualquier zona, desde AWS Lambda hasta pilas de datos empresariales existentes. Se integra con plataformas como Snowflake manteniendo la flexibilidad para trabajar con cualquier destino.

"Siempre creemos que DLT debe ser interoperable y modular," explicó Krzykowski. "Se puede implementar en cualquier zona. Puede estar en Lambda. A menudo pasa a formar parte de las infraestructuras de datos de otras personas."

Las capacidades técnicas secreto incluyen:

  • Progreso cibernética del esquema: Maneja cambios de datos ascendentes sin interrumpir las canalizaciones ni requerir intervención manual.

  • Carga incremental: Procesa solo registros nuevos o modificados, lo que reduce la sobrecarga y los costos computacionales.

  • Implementación independiente de la plataforma: Funciona entre proveedores de cúmulo e infraestructura restringido sin modificaciones.

  • Documentación optimizada para LLM: Estructurado específicamente para el consumo de asistentes de IA, lo que permite una rápida resolución de problemas y concepción de plantillas.

Actualmente, la plataforma admite más de 4600 fuentes de datos API REST con una expansión continua impulsada por conectores generados por los usuarios.

Competir contra gigantes de ETL con un enfoque de código primero

El panorama de la ingeniería de datos se divide en distintos campos, cada uno de los cuales atiende diferentes evacuación empresariales y preferencias de los desarrolladores.

Plataformas ETL tradicionales como informática y Talend dominan los entornos empresariales con herramientas basadas en GUI que requieren capacitación especializada pero ofrecen funciones de gobernanza integrales.

Plataformas SaaS más nuevas como Fivetran han hato circunscripción al exagerar los conectores prediseñados y la infraestructura administrada, lo que reduce los gastos operativos pero crea dependencia del proveedor.

La biblioteca dlt de código despejado ocupa una posición fundamentalmente diferente como infraestructura nativa de LLM que prioriza el código y que los desarrolladores pueden ampliar y personalizar.

"Siempre creemos que DLT debe ser interoperable y modular," explicó Krzykowski. "Se puede implementar en cualquier zona. Puede estar en Lambda. A menudo pasa a formar parte de las infraestructuras de datos de otras personas."

Este posicionamiento refleja el cambio más amplio en dirección a lo que la industria fogosidad la pila de datos componible, donde las empresas construyen infraestructura a partir de componentes interoperables en zona de plataformas monolíticas.

Más importante aún, la intersección con la IA crea nuevas dinámicas de mercado.

"Los LLM no reemplazan a los ingenieros de datos," dijo Krzykowski. "Pero amplían radicalmente su resonancia y productividad."

Qué significa esto para los líderes de datos empresariales

Para las empresas que buscan liderar las operaciones impulsadas por la IA, este mejora representa una oportunidad para repensar fundamentalmente las estrategias de ingeniería de datos.

Las ventajas tácticas inmediatas son claras. Las organizaciones pueden usar los desarrolladores de Python existentes en zona de contratar equipos de ingeniería de datos especializados. Las organizaciones que adaptan sus herramientas y enfoques de senderismo para usar esta tendencia pueden encontrar importantes ventajas de costos y agilidad sobre los competidores que aún dependen de la ingeniería de datos tradicional e intensiva en equipo.

La pregunta no es si se producirá este cambio en dirección a una ingeniería de datos democratizada. Es la celeridad con la que las empresas se adaptan para capitalizarlo.

Related Posts

Aether OS es una computadora con un navegador creado para el protocolo AT

Sistema activo éter coloca un escritorio completo en su navegador que se vincula directamente con el Protocolo AT. Eso significa que se conecta a su cuenta Bluesky y otros registros…

Las ventas de vehículos eléctricos en 2026 alcanzarán los 1,1 millones, pero Europa aumenta mientras América del Septentrión cae

Las ventas de vehículos eléctricos en Europa en enero y febrero aumentaron un 21% respecto al año pasado, según nuevos datos de Benchmark Mineral Intelligence. electrek informes que sólo en…

You Missed

Las estrellas llegan a la ruedo roja de los Óscar

Las estrellas llegan a la ruedo roja de los Óscar

Aether OS es una computadora con un navegador creado para el protocolo AT

Aether OS es una computadora con un navegador creado para el protocolo AT

“Hoppers” se mantiene en la cima de la taquilla

“Hoppers” se mantiene en la cima de la taquilla

Un mar de comparsas llena de vida el Malecón

Un mar de comparsas llena de vida el Malecón

Ruedo roja de los premios Óscar

Ruedo roja de los premios Óscar

Las ventas de vehículos eléctricos en 2026 alcanzarán los 1,1 millones, pero Europa aumenta mientras América del Septentrión cae

Las ventas de vehículos eléctricos en 2026 alcanzarán los 1,1 millones, pero Europa aumenta mientras América del Septentrión cae