데이터브릭스가 20일 신규 컴퓨팅 엔진 ‘레이든’ 기반의 실시간 분석 솔루션 ‘Lakehouse//RT’를 베타로 공개했다. 별도 서빙 레이어 없이 델타 레이크·아파치 아이스버그 테이블을 직접 쿼리해 밀리초 단위 저지연 분석을 처리하며, 초당 1만2천 건 쿼리에도 100밀리초 미만 지연으로 기존 대비 최대 16배 빠른 성능을 기록했다. 모든 쿼리는 유니티 카탈로그 거버넌스 안에서 구동되며, 시스코는 위협 탐지 5배, 매그나이트는 대시보드 200밀리초 미만 성능을 확인했다.
신규 컴퓨팅 엔진 ‘레이든’ 기반 밀리초 단위 저지연 쿼리 지원
데이터브릭스(Databricks)가 레이크하우스에서 실시간 분석을 직접 수행하는 ‘Lakehouse//RT(Real-time)’를 출시했다. 별도의 실시간 서빙 레이어를 두지 않고도 거버넌스가 확보된 델타 레이크(Delta Lake)와 아파치 아이스버그(Apache Iceberg) 테이블에서 밀리초 단위의 분석을 처리하는 것이 특징이다.
데이터브릭스는 20일 새로운 컴퓨팅 엔진 ‘레이든(Reyden)’을 기반으로 하는 Lakehouse//RT를 베타 버전으로 공개했다. 이 솔루션은 수만 명의 동시 사용자와 에이전트에게 저지연 쿼리를 제공하도록 설계됐다고 회사는 밝혔다.
표준 분석 벤치마크 기준 초당 12,000건 쿼리 처리 시에도 100밀리초 미만의 지연 시간을 기록했으며, 기존 실시간 서빙 스택 대비 최대 16배 향상된 성능을 확인했다고 전했다.
그동안 높은 동시성과 낮은 대기 시간이 필요한 기업은 레이크하우스와 별도로 실시간 서빙 레이어를 구축해 왔다.
데이터브릭스는 이러한 구조가 △벤더 종속성 △인프라 비용 증가 △거버넌스 파편화 △데이터 복사본 상존 등의 한계를 유발한다고 설명했다.
Lakehouse//RT는 델타·아이스버그 테이블을 직접 쿼리해 데이터 이동 없이 최신 데이터에 접근하도록 했다고 밝혔다.
모든 쿼리는 정책·권한·감사를 포함한 유니티 카탈로그(Unity Catalog)의 거버넌스 프레임워크 내에서 구동된다.
별도의 권한 계층이나 고유 포맷, 동기화 및 CDC 파이프라인이 필요 없어 서빙 레이어 유지에 따르는 비용과 복잡성을 줄일 수 있다고 회사는 덧붙였다.
레이든의 비동기식 실행 모델은 소규모 데이터 세트에서 최저 10밀리초, 대규모 데이터 세트에서 100밀리초 수준의 응답 속도를 제공한다고 전해진다.
단순 조회에 최적화된 기존 엔진과 달리 복잡한 분석 전반에 성능 기술을 적용하며, 기존 테이블을 지정하면 별도 데이터 수집 과정 없이 곧바로 쿼리할 수 있다.
데이터브릭스 공동창립자 겸 CEO 알리 고드시는 “Lakehouse//RT는 엔진의 전체 스펙트럼을 완성해 사람들이 원하고 에이전트가 필요로 하는 밀리초 단위의 속도 레이어를 제공한다”고 말했다.
고객사 적용 사례도 공개됐다.
시스코(Cisco)는 위협 탐지 조회에서 5배 향상된 응답 속도를 확인했다고 전했고, 매그나이트(Magnite)는 핵심 대시보드 쿼리에서 200밀리초 미만의 성능을 달성했다고 밝혔다.
Lakehouse//RT는 현재 베타 버전으로 이용할 수 있다.