Noticia Databricks libero el código de Delta Lake y MLflow

Linux_DeltaLake3.png



Durante el Data + AI Summit Databricks dio a conocer mediante un anuncio, que liberaría en su totalidad el marco de almacenamiento Delta Lake en código abierto bajo la supervisión de la Fundación Linux.

Cabe mencionar que Delta Lake ha sido un proyecto de la Fundación Linux desde octubre de 2019 y es la capa de almacenamiento abierta que brinda confiabilidad y rendimiento a los lagos de datos a través de las «arquitecturas de lagos», lo mejor de los almacenes de datos y los lagos de datos bajo un mismo techo.


En los últimos tres años, Lakehouses se ha convertido en una solución atractiva para ingenieros de datos, analistas y científicos de datos que desean tener la flexibilidad de ejecutar diferentes cargas de trabajo en los mismos datos con una complejidad mínima y sin duplicación, desde el análisis de datos hasta el desarrollo de máquinas de aprendizaje. Delta Lake es el formato de casa del lago más utilizado en el mundo y actualmente ve más de 7 millones de descargas por mes (y continúa creciendo).


“Desde el principio, Databricks se ha comprometido con los estándares abiertos y la comunidad de código abierto. Hemos creado, contribuido, fomentado el crecimiento y donado algunas de las innovaciones más impactantes en la tecnología moderna de código abierto”, dijo Ali Ghods

Eso significa que ya no habrá diferencias funcionales entre la marca Delta Lake de Databricks y la versión de código abierto. La compañía dijo que lanzará de manera similar sus mejoras recientes a la plataforma de operaciones de aprendizaje automático MLflow y el marco de análisis Apache Spark para código abierto. Databricks también implementó varias funciones nuevas para su lago de datos principal de Lakehouse.

“Antes de Delta Lake, tecnologías como Spark procesaban grandes cantidades de datos; Delta Lake le permite procesar pequeños deltas con todos los cambios almacenados en el historial para que pueda retroceder y avanzar”, dijo Ali Ghodsi cofundador de Databricks y director ejecutivo de Databricks. “Esto es importante para los registros de auditoría y el cumplimiento, de modo que pueda volver atrás y encontrar las decisiones que tomó hace un año”.

Ademas cabe resaltar que la nueva versión 2.0 de Delta Lake presenta un mejor rendimiento de consultas y una base basada en estándares abiertos. La versión candidata ya está disponible y se espera que pase a una versión general a finales de este año.


Databricks dijo que la actualización refleja las contribuciones de más de 6400 desarrolladores y señaló que las confirmaciones totales han crecido un 95 % con un promedio de líneas de código por confirmación que aumentó un 900 % durante el último año.

La empresa también anuncia la versión 2.0 de MLflow, una plataforma para gestionar proyectos de aprendizaje automático. El lanzamiento incluye Pipelines, una nueva función para acelerar y simplificar las implementaciones de modelos de aprendizaje automático. Las canalizaciones brindan a los científicos de datos plantillas predefinidas y listas para la producción basadas en el tipo de modelo que están construyendo para permitir un desarrollo de modelos más rápido y confiable sin requerir la intervención de los ingenieros de producción.

Los usuarios pueden definir los elementos de la tubería en un archivo de configuración y MLflow Pipelines administra la ejecución automáticamente, dijo la compañía. Databricks también ha agregado terminales de modelos sin servidor para admitir directamente el alojamiento de modelos de producción, así como paneles de monitoreo de modelos integrados para ayudar a los equipos a analizar el rendimiento del modelo en el mundo real.

“El proyecto Delta Lake está experimentando una actividad fenomenal y tendencias de crecimiento que indican que la comunidad de desarrolladores quiere ser parte del proyecto. La fortaleza de los colaboradores ha aumentado en un 60 % durante el último año y el crecimiento en las confirmaciones totales ha aumentado en un 95 % y la línea de código promedio por confirmación ha aumentado en un 900 %. Estamos viendo esta velocidad ascendente de organizaciones contribuyentes como Uber Technologies, Walmart y CloudBees, Inc., entre otras”. — Director Ejecutivo de la Fundación Linux, Jim Zemlin .

Si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.





Continúar leyendo...