GCP/Dataflow
반응형
-
Dataflow 개념 정리GCP/Dataflow 2021. 10. 4. 13:59
Dataflow란? ✅ Serverless ✅ Fast ✅ Cost-Effective ✅ Stream/Batch Streaming 스트리밍 변환은 데이터가 도착할때 추가적인 데이터와 함께 반환하거나, Filter 를 거쳐서 해당 데이터만 반환하는 특징. Batch 많은 데이터(GB/TB)를 가져와서 데이터끼리 결합하여 의미 있는 데이터를 산출하는 과정. Apache Beam이란? 이러한 로직들을 구현하게 도와주는것이 Apache Beam=Batch+Stream. 구글 내부의 스트리밍 처리 framework, open source ⇒ 이를 실행하기 위한 런타임 엔진인 DataFlow 그래서 Apache Beam으로 데이터 파이프라인을 구축하는 방법에 대해 알아야 한다. Apache Beam에서 파이프라인은..