<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>S3 on nanta - 데이터 엔지니어링</title><link>https://nanta-data.dev/tags/s3/</link><description>Recent content in S3 on nanta - 데이터 엔지니어링</description><generator>Hugo -- gohugo.io</generator><language>ko</language><copyright>© 2026 nanta</copyright><lastBuildDate>Fri, 27 Feb 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://nanta-data.dev/tags/s3/index.xml" rel="self" type="application/rss+xml"/><item><title>BigQuery Data Transfer와 Airflow 통합: 매 배치마다 트랜스퍼를 생성하고 삭제하는 이유</title><link>https://nanta-data.dev/posts/bigquery-data-transfer-airflow/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/bigquery-data-transfer-airflow/</guid><description>S3 마트 테이블을 BigQuery로 인입하는 파이프라인을 구축했다. PoC에서는 BigQuery Data Transfer 스케줄링을 GCP 쪽에 맡겼지만, 운영으로 가면서 Airflow에 통합했다. 매 배치 틱마다 트랜스퍼 객체를 생성하고 데이터 로드 완료 후 삭제하는 구조다. 사용자 피드백으로 멀티데이 lookback, 동시 실행 쿼터 제한, 빈 소스 경로 감지까지 개선한 과정을 정리한다.</description></item><item><title>S3 테이블 버킷 도입 검토: 매니지드 Iceberg의 가능성과 한계</title><link>https://nanta-data.dev/posts/s3-table-buckets-poc/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/s3-table-buckets-poc/</guid><description>AWS S3 테이블 버킷은 자동 컴팩션을 제공하는 매니지드 Iceberg다. CDC 싱크 테이블의 컴팩션 문제를 해결할 수 있을지 PoC를 진행했다. Trino, Spark, Kafka Connect 연동을 확인하고, 자동 컴팩션의 동작 특성과 비용을 검토했다. 결론은 모든 테이블에 쓸 서비스는 아니고, CDC 테이블에 한해서 가치가 있다는 것이다.</description></item><item><title>Trino Alluxio 캐시 PoC: EBS 스루풋이 병목이었다</title><link>https://nanta-data.dev/posts/trino-alluxio-cache-poc/</link><pubDate>Fri, 27 Feb 2026 00:00:00 +0000</pubDate><guid>https://nanta-data.dev/posts/trino-alluxio-cache-poc/</guid><description>Trino의 Alluxio 기반 파일 시스템 캐시를 프로덕션 OLAP 환경에서 PoC했다. 캐시를 붙이기만 하면 빨라질 줄 알았는데 EBS 기본 스루풋 125MiB/s가 병목이었다. 스루풋 상향 후 쿼리 성능이 눈에 띄게 개선됐고 S3 API 비용도 월 440만 원 줄었다.</description></item></channel></rss>