Snowflake presenta Snowpark Connect para Apache Spark
Publicado por Redacción Portal ERP España en 31/07/2025 en Portal TechLa integración, en vista previa pública, mejora rendimiento, reduce costes y simplifica la gestión de datos
Foto: cortesía. Portal ERP España.
Snowflake ha anunciado la disponibilidad en vista previa pública de Snowpark Connect para Apache Spark, una nueva integración que permite a los usuarios de Spark aprovechar el motor de Snowflake directamente con su código Spark existente. Esta solución promete optimizar el rendimiento, reducir costes y simplificar la gestión operativa de las cargas de trabajo de datos.
Snowpark Connect se basa en una arquitectura cliente-servidor desacoplada que separa el código del usuario del clúster de Spark donde se ejecuta el procesamiento. Esta arquitectura, presentada recientemente por la comunidad de Apache Spark en la versión 3.4, hace posible que los trabajos de Spark sean impulsados por Snowflake.
Con esta tecnología, los clientes pueden utilizar el potente motor vectorizado de Snowflake para ejecutar todo el código moderno de Spark DataFrame, Spark SQL y funciones definidas por el usuario (UDF), evitando la complejidad de mantener o ajustar entornos Spark separados. Esto incluye la gestión de dependencias, compatibilidad de versiones y actualizaciones, que Snowflake gestiona automáticamente.
Te puede interesar: Snowflake impulsa una nueva etapa en la integración entre IA y nube de datos
Además, Snowflake se encarga de la optimización del rendimiento y el escalado, liberando a los desarrolladores de la carga operativa de administrar Spark. Al trasladar el procesamiento de datos a Snowflake, se establece un marco de gobernanza único y robusto desde la fase inicial, lo que “ayuda a garantizar la coherencia y seguridad de los datos a lo largo de todo el ciclo de vida, sin necesidad de duplicar esfuerzos”.
Un estudio realizado por Snowflake señala que “los clientes que utilizan Snowpark Client para crear flujos de datos en Python, Java y Scala están experimentando, en promedio, un rendimiento 5.6 veces más rápido que con Spark gestionado, y un ahorro de costes del 41% en comparación con Spark gestionado”.
Snowpark Connect aprovecha la arquitectura desacoplada de Spark Connect, que permite enviar planes lógicos no resueltos a un clúster Spark remoto para procesamiento. Actualmente, la solución es compatible con versiones 3.5.x de Spark, asegurando integración con las últimas funcionalidades.
Esta innovación elimina la necesidad de mover datos entre Spark y Snowflake, un proceso que antes generaba costes, latencia y dificultades en gobernanza. Ahora, las organizaciones pueden ejecutar código Spark DataFrame, SQL y UDF directamente en Snowflake mediante herramientas como Snowflake Notebooks, cuadernos Jupyter, procedimientos almacenados, VSCode, Airflow o Snowpark Submit. La integración se extiende a almacenamientos en Snowflake, Iceberg (ya sea en Snowflake o gestionado externamente) y diversas opciones de almacenamiento en la nube.
Snowpark Connect también es compatible con tablas Apache Iceberg, incluyendo tablas gestionadas externamente y bases de datos vinculadas a catálogos. Esto permite a las organizaciones aprovechar la potencia, rendimiento, facilidad de uso y gobernanza de Snowflake sin necesidad de mover datos ni reescribir código Spark.