Aws on nanta - 데이터 엔지니어링

Aws on nanta - 데이터 엔지니어링https://nanta-data.dev/tags/aws/Recent content in Aws on nanta - 데이터 엔지니어링Hugo -- gohugo.ioko© 2026 nantaMon, 09 Mar 2026 00:00:00 +0000AWS EC2 인스턴스 아키텍처 비교: ARM Graviton4 vs AMD Turin — 가장 빠른 인스턴스가 최선인가https://nanta-data.dev/posts/ec2-instance-architecture-comparison/Mon, 09 Mar 2026 00:00:00 +0000https://nanta-data.dev/posts/ec2-instance-architecture-comparison/2026년 벤치마크에서 AMD EPYC Turin(C8a)이 단일/멀티스레드 모두 압도적 1위를 기록했다. 현재 Graviton(ARM) 기반으로 운영 중인 데이터 플랫폼 인프라를 전환해야 할까? vCPU와 물리 Core의 차이, Spot 가격 대비 Core 확보 효율, 워크로드별 특성을 분석한 결과 — 전면 교체보다 혼합 전략이 합리적이라는 결론에 도달했다.EMR-on-EKS Spark 잡에 LakeFormation 권한제어 도입: 10개의 이슈를 넘어서https://nanta-data.dev/posts/emr-on-eks-lakeformation-poc/Tue, 03 Mar 2026 00:00:00 +0000https://nanta-data.dev/posts/emr-on-eks-lakeformation-poc/EMR-on-EKS에 Spark 잡 레벨의 권한제어를 도입해야 했다. Ranger는 EMR-on-EKS의 구조적 한계(마스터 노드 부재, 플러그인 설치 불가)로 기각되었고, LakeFormation을 선택했다. PoC 과정에서 서비스 라벨 셀렉터 불일치, FGAC의 RDD/UDF/synthetic type 차단, cross-account Glue 접근 제한 등 10개의 이슈를 만났다. 각각의 원인 파악과 우회 방법, 그리고 FGAC가 기존 Spark 코드에 미치는 영향을 정리한다.BigQuery Data Transfer와 Airflow 통합: 매 배치마다 트랜스퍼를 생성하고 삭제하는 이유https://nanta-data.dev/posts/bigquery-data-transfer-airflow/Fri, 27 Feb 2026 00:00:00 +0000https://nanta-data.dev/posts/bigquery-data-transfer-airflow/S3 마트 테이블을 BigQuery로 인입하는 파이프라인을 구축했다. PoC에서는 BigQuery Data Transfer 스케줄링을 GCP 쪽에 맡겼지만, 운영으로 가면서 Airflow에 통합했다. 매 배치 틱마다 트랜스퍼 객체를 생성하고 데이터 로드 완료 후 삭제하는 구조다. 사용자 피드백으로 멀티데이 lookback, 동시 실행 쿼터 제한, 빈 소스 경로 감지까지 개선한 과정을 정리한다.EKS Topology Aware Hint 적용 검토: 우리 클러스터에서는 의미 없었던 이유https://nanta-data.dev/posts/eks-topology-aware-hints/Fri, 27 Feb 2026 00:00:00 +0000https://nanta-data.dev/posts/eks-topology-aware-hints/EKS cross-AZ 통신 비용 절감을 위해 Topology Aware Hint 적용을 검토했다. EndpointSlice에 힌트는 정상적으로 붙었지만, 실제 효과는 없었다. AWS Load Balancer Controller의 IP 타깃 모드가 kube-proxy를 우회하고, 주요 내부 워크로드(Spark, Trino, Airflow)가 모두 싱글 존 또는 stateful 통신이라 힌트가 참조되는 경로 자체가 존재하지 않았다.Kafka Rack Awareness와 Spark: 현재 지원하지 않는다https://nanta-data.dev/posts/kafka-rack-awareness-spark/Fri, 27 Feb 2026 00:00:00 +0000https://nanta-data.dev/posts/kafka-rack-awareness-spark/Kafka 클러스터의 rack awareness를 Spark에도 적용해서 cross-AZ 네트워크 비용을 줄이려 했다. AZ 정보 추출까지는 해결했지만, Spark 자체가 Kafka 연동 시 rack awareness를 지원하지 않았다. 관련 티켓은 커뮤니티에 열려 있지만 PR은 닫힌 상태다.S3 테이블 버킷 도입 검토: 매니지드 Iceberg의 가능성과 한계https://nanta-data.dev/posts/s3-table-buckets-poc/Fri, 27 Feb 2026 00:00:00 +0000https://nanta-data.dev/posts/s3-table-buckets-poc/AWS S3 테이블 버킷은 자동 컴팩션을 제공하는 매니지드 Iceberg다. CDC 싱크 테이블의 컴팩션 문제를 해결할 수 있을지 PoC를 진행했다. Trino, Spark, Kafka Connect 연동을 확인하고, 자동 컴팩션의 동작 특성과 비용을 검토했다. 결론은 모든 테이블에 쓸 서비스는 아니고, CDC 테이블에 한해서 가치가 있다는 것이다.