GCP
-
[GCP] GOOGLE_APPLICATION_CREDENTIALS path 설정하기(Feat. Dataflow, BigQuery)GCP 2021. 10. 19. 21:24
Pub/Sub, Dataflow, BigQuery를 활용한 데이터 실시간 처리 파이프라인을 구축하는 과정에서 다음과 같은 에러를 만났다. raise exceptions.DefaultCredentialsError google.auth.exceptions.DefaultCredentialsError: Could not automatically determine credentials. Please set GOOGLE_APPLICATION_CREDENTIALS or explicitly create credentials and re-run the application. GCP 서비스를 로컬에서 실행하기 위해서는 GCP 인증 정보가 필요하다. 따라서 인증 절차 없이 프로그램을 실행하면 에러가 난다. 먼저, 아래 링크..
-
Dataflow 개념 정리GCP/Dataflow 2021. 10. 4. 13:59
Dataflow란? ✅ Serverless ✅ Fast ✅ Cost-Effective ✅ Stream/Batch Streaming 스트리밍 변환은 데이터가 도착할때 추가적인 데이터와 함께 반환하거나, Filter 를 거쳐서 해당 데이터만 반환하는 특징. Batch 많은 데이터(GB/TB)를 가져와서 데이터끼리 결합하여 의미 있는 데이터를 산출하는 과정. Apache Beam이란? 이러한 로직들을 구현하게 도와주는것이 Apache Beam=Batch+Stream. 구글 내부의 스트리밍 처리 framework, open source ⇒ 이를 실행하기 위한 런타임 엔진인 DataFlow 그래서 Apache Beam으로 데이터 파이프라인을 구축하는 방법에 대해 알아야 한다. Apache Beam에서 파이프라인은..
-
[GCP] Google Cloud Functions cold start(함수 실행 지연 현상) 문제 해결(feat. Pub/Sub & BigQuery)GCP/Cloud Functions 2021. 9. 5. 23:45
🙊 배경설명 GCP에서 Pub/Sub 데이터를 BigQuery에 적재하기 위해 Cloud Functions를 사용하여 중간에서 데이터 전달 역할 로직을 구현했다. 반복적인 내부 소스코드를 수정(빅쿼리 테이블 필드 추가)하고 배포 하게되면, 배포 즉시 함수가 동작하지 않는 문제가 발생했다. 따라서 Cloud Functions 기본 로직에 대해 알아봅시다 💃 1. Cloud Functions = Severless fuction => 즉, Auto Scaling으로 트래픽에 맞는 인스턴스 수를 조정하여 함수 제공 2. GCP Cloud Functions의 인스턴스 시작 조건 함수를 새로 배포하는 경우 증가하는 트래픽을 처리하기 위해 인스턴스를 확장 또는 대체하는 경우 3. GCP Cloud Functions ..
-
[GCP] Google BigQuery 빅쿼리 Schema 설계(feat. json 타입)GCP/BigQuery 2021. 8. 31. 23:17
JSON 타입의 데이터를 BigQuery에 적재하려고 할 때 각 필드별 데이터 타입에 맞춰 테이블 스키마를 설계해야 하는데, 하위 레벨의 nested 구조로 이루어진 json 타입에 맞춰 스키마를 설정하는 방법입니다. Array : [] 리스트안에 string으로 이루어진 데이터 value 타입 id:”1", name:”abc”, age:”20", address_history: [“current”, “previous”, “birth”] BigQuery 스키마 여러개의 문자열들이 반복되어 이루어져 있으므로, Type: STRING Mode: REPEATED Struct: {} 딕셔너리 안에 여러개의 key-value 값들로 이루어진 데이터 id:”1", name:”abc”, age:”20", address..
-
[GCP] Pub/Sub 개념 정리GCP 2021. 8. 21. 00:14
공식 문서 : https://cloud.google.com/pubsub/docs/overview GCP 콘솔 설명 내용 : https://cloud.google.com/pubsub 내용 요약 지연시간을 100밀리초 단위로 하는 비동기식 통신 서비스가 가능함 데이터를 수집하고 배포하는 스트리밍 분석 및 데이터 통합 파이프라인에 사용 Publisher는 처리와 상관 없이 Pub/Sub 서비스에 이벤트를 보내어 Subscriber와 비동기적으로 통신함 저렴한 비용과 낮은 가용성의 Pub/Sub Lite 서비스도 제공하고 있음 Pub/Sub의 용도는 최종 사용자와의 통신이 아닌 서비스 간 통신 사용사례 여러 클라이언트 이벤트 동시 수집 후 스트림 처리 도구(Dataflow)를 사용하여 DB(BigQueyr, B..