데이터 엔지니어링

GCP Serverless로 데이터 파이프라인 구축하기 – Part 2

들어가며 GCP Serverless 서비들을를 활용한 데이터 파이프라인 구축 방법을 소개하겠습니다. 여러 GCP 서비스를 사용하여 유연하고 확장 가능한 데이터 파이프라인을 단계별로 구축해볼건데요. 이 방법을 통해 데이터 수집, 처리, 저장, 분석을 손쉽게 자동화하여 Serverless가 가진 장점을 모두가 경험해보았으면 좋겠습니다. GCP Serverless 서비스를 이용한 데이터 파이프라인 구축해보기 Serverless 서비스를 데이터 파이프라인 중간중간에 잘 […]

데이터 엔지니어링

GCP Serverless로 데이터 파이프라인 구축하기 – Part 1

들어가며 안녕하세요. NNT Tech 팀입니다. NNT Tech팀의 업무 중에는 고객사의 데이터를 수집한 뒤, 이를 목적에 맞게 처리하는 데이터 파이프라인 구축 작업이 있는데요. Google Cloud Platform의 Serverless 서비스를 이용해 통해 쉽고 빠르게 데이터 파이프라인을 구축하는 방법에 대해 소개해보고자 합니다. 왜 Serverless여야 하나요? Serverless가 무엇일까요? 클라우드 환경에서 Serverless는 기존의 VM 방식이 가진 […]

데이터 엔지니어링비즈니스 인텔리전스

마케팅 믹스 모델링(MMM)을 통한 예산 배분 최적화 전략

마케팅 믹스 모델링(Marketing Mix Modeling, MMM)은 빠르게 변화하는 마케팅 환경에서 소비자의 관심을 끌기 위한 경쟁이 치열해지는 가운데, 마케터들이 예산을 어디에 배분해야 최대의 효과를 얻을 수 있을지에 대한 답을 제시하는 중요한 분석 기법입니다. MMM은 다양한 마케팅 채널의 효과를 측정하고, 예산 배분의 최적화를 도와줍니다. 이 글에서는 MMM이 무엇인지, 왜 중요한지, 그리고 실제 […]

데이터 엔지니어링

Cloud Functions 2세대: Cloud Run functions로의 전환

들어가며 2024년 8월 21일, Google Cloud는 Cloud Functions를 Cloud Run Functions로 리브랜딩했습니다. 이는 단순한 이름 변경이 아닌, 서버리스 컴퓨팅 플랫폼의 큰 도약을 의미합니다. 자세한 내용은 Google Cloud 블로그에서 확인할 수 있습니다.  Cloud Functions 2세대 함수는 자동으로 Cloud Run Functions로 변환됩니다. 기존 함수 API, gcloud 명령 등에 대한 지원이 계속되기 때문에 […]

데이터 엔지니어링

GCP 비용 관리 및 최적화: 효과적인 클라우드 비용 관리 방법

들어가며 Google Cloud Platform(GCP)은 강력하고 유연한 클라우드 환경을 제공하지만, 잘못 관리하면 예상치 못한 높은 GCP 비용이 발생할 수 있습니다. 클라우드 환경에서 비용 관리와 최적화는 효율적인 운영의 핵심입니다. 이 글에서는 GCP에서 비용을 절감하고 안전하게 관리하기 위한 구체적인 전략과 팁을 소개하겠습니다. 비용 관리의 기초: 모니터링과 예산 설정 1. Billing Reports를 활용한 모니터링 […]

데이터 엔지니어링

BigQuery: 사용자를 위한 운영 및 관리 가이드

들어가며 BigQuery는 GCP(Google Cloud Platform)에서 제공하는 완전 관리형 엔터프라이즈 데이터 웨어하우스로, 대규모 데이터 분석을 수행할 수 있도록 설계되어있습니다. BigQuery는 데이터 처리량에 따라 과금이 부과되는 주문형 컴퓨팅 가격 요금제와일정한 예산 설정이 가능한 용량 컴퓨팅 가격 요금제를 제공하고 있습니다. 특히 사용량 기반 요금제의 경우, 관리와 최적화를 소홀히 할 경우 불필요한 비용이 발생할 […]

데이터 엔지니어링

Snowflake: 데이터 엔지니어를 위한 데이터 웨어하우징 솔루션

들어가며 데이터 엔지니어링의 세계는 빠르게 변화하고 있으며, 다양한 데이터 소스와 방대한 데이터 양을 효율적으로 관리하고 분석할 수 있는 도구의 필요성이 날로 커지고 있습니다. 이러한 요구를 충족시키기 위해 등장한 솔루션 중 하나가 Snowflake입니다. 본 글에서는 Snowflake의 주요 기능과 데이터 엔지니어가 이를 어떻게 활용할 수 있는지, 그리고 비용 구조에 대해 자세히 살펴보겠습니다. […]

데이터 엔지니어링

Linux awk로 로그 파일 분석하기

들어가며 복잡한 데이터 엔지니어링 환경에서 로그 분석은 단순한 디버깅 도구를 넘어 시스템의 건강 상태를 모니터링하고 성능을 최적화하는 데 필수적인 요소가 되었습니다. 데이터 파이프라인, ETL 프로세스, 실시간 데이터 스트리밍 등 다양한 데이터 처리 작업에서 발생하는 로그는 시스템의 동작을 이해하고 문제를 신속하게 해결하는 데 중요한 정보를 제공합니다. 데이터 엔지니어는 이러한 다양한 형태의 […]

데이터 엔지니어링

GCP BigQuery Clustering 살펴보기

들어가며 데이터의 양이 기하급수적으로 증가함에 따라, 데이터 분석의 성능을 극대화하는 것은 모든 기업에게 중요한 과제가 되었습니다. 앞선 글에서는 BigQuery에서 파티셔닝(Partitioning)을 통해 쿼리 성능과 비용을 최적화하는 방법을 소개했습니다. 그러나 파티셔닝만으로는 충분하지 않은 경우도 많습니다. 특히, 복잡한 쿼리에서 여러 열을 기준으로 필터링해야 하거나, 데이터의 물리적 정렬을 통해 더욱 빠른 분석이 필요한 경우가 […]

데이터 엔지니어링

GCP BigQuery Partitioning 살펴보기

들어가며 현대 비즈니스 환경에서 데이터는 가장 중요한 자산 중 하나로 자리 잡았습니다. 기업들은 데이터 분석을 통해 고객의 행동을 예측하고, 시장 트렌드를 파악하며, 비즈니스 전략을 최적화하는 데 집중하고 있습니다. 이러한 데이터 중심의 접근 방식에서 중요한 역할을 하는 것이 바로 빅데이터 분석 플랫폼입니다. Google BigQuery는 이러한 요구를 충족시키기 위해 설계된 강력한 데이터 […]