streaming
bigQuery에서 pub/sub 으로 불러오고, compute engine 에 올려서 event stream 수행하기
bigQuery에서 pub/sub 으로 불러오고, compute engine 에 올려서 event stream 수행하기
2020.08.21bigQuery table 에서 event stream 을 수행하면서 publisher 의 topic에 message를 전송하고 이를 apache-beam 상에서 코드로 동작시켜 ETL을 수행하는것까지 진행!! event stream은 local에서 compute engine 동작시켜서 stream이 끝날 때까지 수행하는것을 역할로 잡았습니다. 미리 public-data-set 의 stackoverflow dataset을 bigQuery table로 Import 했습니다. 제가 이 테스팅을 진행하는건 tags 와 view_count를 가지고 중복되는 tags 이름에 총 몇번의 view_count를 가지고 있는지 확인하려고 합니다. (물론 | 기준으로 split 해야합니다.) pub/sub에서 stream..
GCP14 :: streaming 데이터 처리
GCP14 :: streaming 데이터 처리
2020.08.18ㅡ. 시작 클라우드 pub/sub 을 이용합니다. (서버리스 실시간 메시지 서비스) 클라우드 pub/sub 의 기능은 초당 백만 개 이상의 메시지로 확장시킬 수 있습니다. 전체 데이터 플로우는 빅쿼리 이벤트 테이블에서 데이터를 읽어들여서 클라우드 pub/sub로 메시지를 송신하는 것을 의미합니다. pub/sub으로 전송되는 코드가 실패할경우에 자동으로 재시작할 수 있도록 구글 컨테이너 엔진을 사용해 도커 컨테이너에서 시뮬레이션을 스크립트를 다시 재시작 해야 합니다. ㅡ. workflow bigQuery에서 데이터를 불러와서 topic에 넣고 subscription 에서는 topic의 내용을 받아와서 dataflow로 ETL처리후에 bigQuery로 내보내는 과정을 수행합니다. ㅡ. 정지시간 pub/sub..