<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Aws on nanta - 데이터 엔지니어링</title><link>https://nanta-data.dev/tags/aws/</link><description>Recent content in Aws on nanta - 데이터 엔지니어링</description><generator>Hugo -- gohugo.io</generator><language>ko</language><copyright>© 2026 nanta</copyright><lastBuildDate>Mon, 09 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://nanta-data.dev/tags/aws/index.xml" rel="self" type="application/rss+xml"/><item><title>AWS EC2 인스턴스 아키텍처 비교: ARM Graviton4 vs AMD Turin — 가장 빠른 인스턴스가 최선인가</title><link>https://nanta-data.dev/posts/ec2-instance-architecture-comparison/</link><pubDate>Mon, 09 Mar 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/ec2-instance-architecture-comparison/</guid><description>2026년 벤치마크에서 AMD EPYC Turin(C8a)이 단일/멀티스레드 모두 압도적 1위를 기록했다. 현재 Graviton(ARM) 기반으로 운영 중인 데이터 플랫폼 인프라를 전환해야 할까? vCPU와 물리 Core의 차이, Spot 가격 대비 Core 확보 효율, 워크로드별 특성을 분석한 결과 — 전면 교체보다 혼합 전략이 합리적이라는 결론에 도달했다.</description></item><item><title>EMR-on-EKS Spark 잡에 LakeFormation 권한제어 도입: 10개의 이슈를 넘어서</title><link>https://nanta-data.dev/posts/emr-on-eks-lakeformation-poc/</link><pubDate>Tue, 03 Mar 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/emr-on-eks-lakeformation-poc/</guid><description>EMR-on-EKS에 Spark 잡 레벨의 권한제어를 도입해야 했다. Ranger는 EMR-on-EKS의 구조적 한계(마스터 노드 부재, 플러그인 설치 불가)로 기각되었고, LakeFormation을 선택했다. PoC 과정에서 서비스 라벨 셀렉터 불일치, FGAC의 RDD/UDF/synthetic type 차단, cross-account Glue 접근 제한 등 10개의 이슈를 만났다. 각각의 원인 파악과 우회 방법, 그리고 FGAC가 기존 Spark 코드에 미치는 영향을 정리한다.</description></item><item><title>BigQuery Data Transfer와 Airflow 통합: 매 배치마다 트랜스퍼를 생성하고 삭제하는 이유</title><link>https://nanta-data.dev/posts/bigquery-data-transfer-airflow/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/bigquery-data-transfer-airflow/</guid><description>S3 마트 테이블을 BigQuery로 인입하는 파이프라인을 구축했다. PoC에서는 BigQuery Data Transfer 스케줄링을 GCP 쪽에 맡겼지만, 운영으로 가면서 Airflow에 통합했다. 매 배치 틱마다 트랜스퍼 객체를 생성하고 데이터 로드 완료 후 삭제하는 구조다. 사용자 피드백으로 멀티데이 lookback, 동시 실행 쿼터 제한, 빈 소스 경로 감지까지 개선한 과정을 정리한다.</description></item><item><title>EKS Topology Aware Hint 적용 검토: 우리 클러스터에서는 의미 없었던 이유</title><link>https://nanta-data.dev/posts/eks-topology-aware-hints/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/eks-topology-aware-hints/</guid><description>EKS cross-AZ 통신 비용 절감을 위해 Topology Aware Hint 적용을 검토했다. EndpointSlice에 힌트는 정상적으로 붙었지만, 실제 효과는 없었다. AWS Load Balancer Controller의 IP 타깃 모드가 kube-proxy를 우회하고, 주요 내부 워크로드(Spark, Trino, Airflow)가 모두 싱글 존 또는 stateful 통신이라 힌트가 참조되는 경로 자체가 존재하지 않았다.</description></item><item><title>Kafka Rack Awareness와 Spark: 현재 지원하지 않는다</title><link>https://nanta-data.dev/posts/kafka-rack-awareness-spark/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/kafka-rack-awareness-spark/</guid><description>Kafka 클러스터의 rack awareness를 Spark에도 적용해서 cross-AZ 네트워크 비용을 줄이려 했다. AZ 정보 추출까지는 해결했지만, Spark 자체가 Kafka 연동 시 rack awareness를 지원하지 않았다. 관련 티켓은 커뮤니티에 열려 있지만 PR은 닫힌 상태다.</description></item><item><title>S3 테이블 버킷 도입 검토: 매니지드 Iceberg의 가능성과 한계</title><link>https://nanta-data.dev/posts/s3-table-buckets-poc/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/s3-table-buckets-poc/</guid><description>AWS S3 테이블 버킷은 자동 컴팩션을 제공하는 매니지드 Iceberg다. CDC 싱크 테이블의 컴팩션 문제를 해결할 수 있을지 PoC를 진행했다. Trino, Spark, Kafka Connect 연동을 확인하고, 자동 컴팩션의 동작 특성과 비용을 검토했다. 결론은 모든 테이블에 쓸 서비스는 아니고, CDC 테이블에 한해서 가치가 있다는 것이다.</description></item></channel></rss>