Joe Reis가 데이터 실무자 1,101명을 대상으로 서베이를 돌리고 2026년 데이터 엔지니어링 트렌드를 발표했다. 대규모 플랫폼 데이터 엔지니어링 팀을 이끄는 입장에서 이 트렌드를 우리 팀 아키텍처와 대조하며 잘하고 있는것과 앞으로 해야 할것을 정리해본다.
우리 아키텍처 한 줄 요약#
S3를 중심 데이터 레이크로 두고 Apache Iceberg 테이블 포맷 위에 Trino(배치/애드혹 분석)와 StarRocks(실시간 OLAP)를 얹은 하이브리드 구조다. 수집은 Kafka + Debezium CDC와 Flink 스트리밍으로 처리하고 오케스트레이션은 Airflow를 깊이 커스터마이징해서 운영한다.
[Services] → Kafka + Debezium CDC → Flink → S3 (Iceberg)
↓
┌─────┴─────┐
│ │
Trino StarRocks
(배치/애드혹) (실시간 OLAP)
│ │
└─────┬─────┘
↓
Dashboard1. AI 활용 — 이미 하고 있는것과 넘어야 할 벽#
트렌드 요약#
서베이 응답자 82%가 AI를 매일 쓰지만 64%는 아직 실험 단계나 단순 작업에만 머물러있다. Joe Reis는 2026년 말이면 “AI-assisted"라는 수식어가 직무 기술에서 사라질 거라 예측한다.
우리가 하고 있는 것#
AI 코딩 도구로 파이프라인을 개발하는 건 이미 일상이다. SQL 최적화나 코드 리뷰, 트러블슈팅에 LLM을 쓰고 있고 데이터 카탈로그와 연계한 자연어 기반 데이터 탐색도 시도하고있다.
해야 할 것#
개인 단위로 AI를 쓰는 수준을 넘어 팀 워크플로우 전체에 AI를 심는 게 과제다.
- 파이프라인 이상 감지 자동화
- 스키마 변경에 자동 대응
- 데이터 품질 룰 자동 생성
Joe Reis가 말한 “10%의 AI-mature 팀"에 들려면 AI를 단순 보조 도구가 아닌 플랫폼 자체를 구성하는 요소로 녹여야 한다.
2. 데이터 모델링 위기와 시맨틱 레이어 — 가장 큰 숙제#
트렌드 요약#
응답자 89%가 데이터 모델링에서 고통을 호소하고 시맨틱 모델을 쓰는 팀은 고작 5%다. Joe Reis는 시맨틱 레이어가 먼저 주류가 된 뒤 LLM이 스키마를 즉석에서 해석하는 방향으로 갈 거라 본다.
우리가 하고 있는 것#
데이터 카탈로그로 리니지와 메타데이터를 관리하고 있고 테이블 레이어 체계(L1/L2/L3)를 정의해 품질을 계층적으로 관리하려 한다. Airflow 커스텀 오퍼레이터를 통해 데이터 검증을 자동화하는 것도 운영 중이다.
해야 할 것#
dbt 도입을 검토했으나 차세대 데이터 플랫폼 전환과 맞물려 중단된 상태다. 기존 파이프라인을 dbt로 이관하기보다 새 플랫폼으로 바로 이관하는 쪽을 검토하고 있는데 그 사이 데이터 변환을 표준화하고 모듈화하는 작업이 공백으로 남아있다. Joe Reis가 말한 “89%의 고통"과 정확히 겹친다.
시맨틱 레이어도 손을 못 대고 있다. 비즈니스 메트릭 정의가 팀마다 다르고 같은 지표인데 SQL이 제각각인 문제가 있다. 서베이에서 시맨틱 모델 교육 수요가 19%로 높게 나온 것처럼 조직 전체가 데이터를 읽는 수준을 끌어올리는 일이 시급하다.
AI 에이전트가 데이터를 자율적으로 활용하는 미래를 대비하면 잘 정의된 시맨틱 레이어는 선택이 아니라 필수다. 플랫폼 전환이 밀리더라도 모델링 표준과 시맨틱 정의는 따로 진행할 수 있고 진행해야 한다.
3. 오케스트레이션 통합 — Airflow의 미래#
트렌드 요약#
Airflow가 아직 지배적이지만 Dagster가 소규모 기업에서 12% 점유율을 보이며 바텀업으로 성장하고 있다. 오케스트레이션이 아예 없는 팀이 기업 규모와 상관없이 20%라는 점도 놀랍다.
우리가 하고 있는 것#
Airflow를 깊이 커스터마이징해서 쓰고 있다. 자체 Provider 패키지를 만들었고 데이터 검증 자동화 오퍼레이터, 커스텀 전송 오퍼레이터 등 플랫폼에 맞는 기능을 직접 구현했다. 지금은 Airflow 3.x 메이저 버전 업그레이드를 진행하면서 Python 버전 업그레이드와 Breaking Change 대응을 계획하고 있다.
해야 할 것#
Airflow에 깊이 투자한 건 강점이면서 동시에 기술 부채이기도 하다.
- 커스텀 Provider 유지보수 부담
- 버전 업그레이드 때마다 호환성 이슈
여기에 AI 에이전트 오케스트레이션이라는 새 패러다임까지 대비해야 한다. Joe Reis가 예측한 대로 오케스트레이션이 플랫폼에 흡수되는 흐름도 지켜봐야 하고. 차세대 데이터 플랫폼과 맞물리는걸 고려하면 오케스트레이션 중장기 로드맵을 세우는 일이 시급하다.
4. Lakehouse vs. Warehouse — 이미 답을 낸 영역#
트렌드 요약#
서베이에서 44%가 Warehouse, 27%가 Lakehouse, 12%가 Hybrid를 쓴다. Snowflake과 Databricks 기능이 수렴하면서 이 논쟁 자체가 의미를 잃어가고 있다. Joe Reis는 2026년 말이면 “warehouse vs. lakehouse” 논쟁이 구식으로 느껴질 거라 예측한다.
우리가 하고 있는 것#
여기서 우리 팀은 이미 정답에 가깝다. S3 위에 Iceberg 오픈 테이블 포맷을 표준으로 채택하고 용도에 따라 Trino와 StarRocks를 골라 쓰는 구조는 Warehouse도 Lakehouse도 아닌 양쪽 장점을 취한 아키텍처다. CDC 파이프라인으로 실시간 데이터를 Iceberg 테이블에 적재하고 배치와 실시간 분석을 같은 데이터 위에서 돌릴 수 있다.
해야 할 것#
Iceberg v3의 Deletion Vector, Row Lineage 같은 새 기능을 쓰려면 쿼리 엔진 전반에서 호환성을 확보해야 한다. 지금 Trino와 StarRocks의 Iceberg v3 지원이 제한적이라 엔진 업그레이드 로드맵과 Iceberg 버전 전략을 연계해야 한다. 오픈 테이블 포맷 기반 아키텍처 거버넌스—카탈로그 통합, 접근 제어, 품질 보장—도 더 강화할 필요가 있다.
5. 리더십이 병목이 되는 문제 — 가장 어렵고 가장 중요한 과제#
트렌드 요약#
데이터 엔지니어 22%가 “리더십 방향 부재"를 주요 이슈로 꼽았다. 레거시 기술 부채(26%)에 버금가는 수치다. Joe Reis는 2026년에 더 많은 데이터 팀이 해체되거나 엔지니어링 조직에 합병될 거라 경고한다.
우리가 하고 있는 것#
데이터 플랫폼 팀이 독립 조직으로 존재하며 인프라부터 수집, 변환, 분석 환경까지 End-to-End로 책임진다. 비즈니스 팀과 직접 소통하며 데이터 요건을 수렴하고 있다.
해야 할 것#
기술력만으로는 팀이 존재하는 이유를 증명할 수 없다. Joe Reis가 강조한 대로 “비즈니스 가치를 증명한 팀만 살아남는다.”
- 데이터 플랫폼 ROI를 숫자로 측정하고 소통하는 체계 수립
- AI 시대에 데이터 플랫폼이 맡을 역할에 대한 비전 수립
- 데이터 옵저버빌리티를 도입해 다운타임 줄이기
- 파이프라인 개발 생산성을 지표화해서 비즈니스 임팩트 보여주기
정리. 잘 하고 있는 것 vs. 해야 할 것#
| 영역 | 잘 하고 있는 것 | 해야 할 것 |
|---|---|---|
| AI 활용 | 개인 단위 AI 코딩 도구 적극 활용 | 팀 워크플로우에 AI 임베드, 운영 자동화 |
| 데이터 모델링 | 카탈로그 기반 메타데이터 관리, 레이어 체계 정의 | 시맨틱 레이어 도입, 데이터 변환 표준화 |
| 오케스트레이션 | Airflow 깊은 커스터마이징, 3.x 업그레이드 진행 | 장기 오케스트레이션 전략, AI 에이전트 대응 |
| Lakehouse/Warehouse | Iceberg 기반 하이브리드 아키텍처 구축 완료 | Iceberg v3 호환성, 거버넌스 체계 강화 |
| 리더십 | End-to-End 플랫폼 팀 운영 | 비즈니스 임팩트 정량화, 데이터 옵저버빌리티 |
마치며#
Joe Reis 서베이에서 가장 인상적이었던 문장이 있다.
“2026년 데이터 엔지니어링은 올바른 도구를 고르는 것보다 그 도구를 잘 활용할 조직적 근육을 키우는 게 더 중요하다.”
우리 팀은 기술 스택 면에서 트렌드 앞쪽에 서 있다. Iceberg 기반 오픈 데이터 레이크, 실시간과 배치를 아우르는 하이브리드 아키텍처, 깊이 있는 Airflow 커스터마이징. 아직 여기까지 못 온 조직이 많다.
하지만 기술적 우위만으로는 부족하다. 데이터 변환 표준화, 시맨틱 레이어, 데이터 옵저버빌리티, AI 네이티브 워크플로우. 그리고 무엇보다 비즈니스 가치를 증명하는 리더십. 2026년에 우리가 집중해야 할 방향이다.
과거의 빚은 이자를 물고 있고 페이데이가 다가오고 있다.