Noticia OpenSearch 3.0: la bifurcación Elasticsearch abre camino para la IA y extracción de datos

OpenSearch


Hace pocos días, la OpenSearch Software Foundation, respaldada por la Linux Foundation, dio a conocer, mediante un anuncio, el lanzamiento de OpenSearch 3.0, una versión que marca la evolución del proyecto nacido como bifurcación de Elasticsearch y Kibana.

Desde su creación en 2021, OpenSearch se ha posicionado como una alternativa verdaderamente libre al ecosistema de Elastic, manteniéndose bajo la licencia Apache 2.0, en contraste con el giro hacia la licencia AGPLv3 que adoptó Elasticsearch.

Principales novedades de OpenSearch 3.0​


La novedad más destacada de esta versión es la incorporación del OpenSearch Vector Engine, un motor diseñado para manejar datos utilizados en sistemas de aprendizaje automático y búsqueda semántica. Este motor permite realizar búsquedas vectoriales aceleradas por GPU, logrando mejoras significativas en el rendimiento: 9.3 veces más rápida en indexación y una reducción del coste operativo en 3.75 veces frente a soluciones basadas exclusivamente en CPU.

El sistema también soporta el protocolo MCP (Model Context Protocol), lo que permite integrar OpenSearch con agentes de IA y LLMs, incluyendo Anthropic, LangChain y OpenAI, abriendo las puertas a nuevos casos de uso centrados en inteligencia artificial y sistemas conversacionales.

OpenSearch 3.0 incorpora varias optimizaciones que impulsan el rendimiento general del motor y una de las más destacadas, es la mejora en las consultas de rango, ahora un 25 % más rápidas gracias a una estrategia más eficiente en el manejo de campos numéricos y fechas. Para casos de alta cardinalidad, se han introducido sugerencias de ejecución para agregaciones, lo que ha permitido reducir en un 75 % la latencia p90 en pruebas comparativas con versiones anteriores.

Además de ello, la separación del tráfico de indexación y búsqueda es una de las funciones clave para clústeres con almacenamiento remoto, ya que permite escalar de forma independiente, aislar fallos y optimizar configuraciones de solo lectura mediante la nueva API _scale. Asimismo, el soporte a estructuras de árbol estrella mejora las agregaciones en escenarios de alta cardinalidad, permitiendo reducir el trabajo de consulta hasta 100 veces.

Mejoras en los tipos de busqueda​


En la búsqueda vectorial, se ha añadido un nuevo parámetro de explicación para Faiss, que permite desglosar las puntuaciones de las consultas k-NN, ayudando a entender cómo se priorizan los resultados. A esto se suma la actualización de la función de puntuación BM25, que ahora usa BM25Similarity por defecto para alinearse con las optimizaciones actuales de Apache Lucene. Además, la optimización de los tamaños de segmento ha contribuido a disminuir en un 20 % las latencias de cola.

En la búsqueda híbrida, se han implementado técnicas de normalización estadística, como la normalización de puntuación Z y los nuevos umbrales mínimos-máximos, que contribuyen a generar resultados más coherentes y a evitar la amplificación de puntuaciones irrelevantes.

Entre otras mejoras, OpenSearch 3.0 incluye:

  • El lenguaje PPL ha sido ampliado con comandos de unión y subbúsqueda, mejorando la exploración de datos mediante correlación de registros y filtrado avanzado.
  • La nueva API de consultas en vivo permite una monitorización en tiempo real, mientras que la experiencia de observabilidad se enriquece con flujos optimizados para detección de anomalías, facilitando su activación contextual desde el panel principal.
  • Se ha sustituido el tradicional Java Security Manager por un agente Java, que intercepta llamadas privilegiadas y verifica permisos de manera más eficaz. Esto permite mejorar el rendimiento del clúster y reducir la sobrecarga interna.
  • Se ha incorporado una nueva clave pública PGP para reforzar la verificación de artefactos a partir de la versión 3.0.
  • Actualización de Lucene a la versión 10, que mejora el procesamiento paralelo y la indexación de texto completo.
  • Soporte para Java Platform Module System, con Java 21 como versión mínima requerida, lo que permite modularizar componentes del sistema.
  • Compatibilidad nativa con MCP, que refuerza la integración de agentes de IA en flujos empresariales.
  • Introducción del modo de extracción directa de datos desde flujos como Apache Kafka y Amazon Kinesis, facilitando análisis en tiempo real.
  • Un agente de planificación-ejecución-reflexión, diseñado para abordar tareas complejas mediante pasos iterativos, muy útil en entornos autónomos o sistemas de autoservicio.
  • Activación por defecto del modo de paralelización de búsqueda por segmentos en vectores k-NN, con un incremento del rendimiento de consulta de hasta 2.5 veces.

Finalmente, si estás interesado en poder conocer más al respecto puedes consultar los detalles en el siguiente enlace.

Continúar leyendo...