gcp#dataflow#bigQuery
GCP24 :: dataflow 코드 작성하기 2
GCP24 :: dataflow 코드 작성하기 2
2020.08.24이전과 비슷한 로직으로 코드를 작성하겠습니다. 다만 조금 더 다양한 Apache-beam 함수를 써서 파이프라인을 구축해보겠습니다. 기본 셋팅은 이전 포스팅을 참고해주세요! 2020/08/24 - [Cloud] - dataflow 코드작성하기 Local환경에서 테스팅 하기 위해서 기본 Data Set을 생성하였습니다. with beam.Pipeline() as pipeline: results = ( pipeline | 'Gardening plants' >> beam.Create([ 'Iot,c c++ python,2015', 'Web,java spring,2016', 'Iot,c c++ spring,2017', 'Iot,c c++ spring,2017', ]) 이 데이터 셋을 가지고 트랜스폼 할것은 어떤..
GCP23 :: dataflow 코드작성하기
GCP23 :: dataflow 코드작성하기
2020.08.24위와 같은 데이터가 있습니다. react 안에서 feature 별 횟수를 묶을 생각입니다. from apache_beam.options.pipeline_options import PipelineOptions import apache_beam as beam 파이프 라인 환경설정을 구성하기 위해서 PipelineOptions 를 사용합니다. pipeline_options = PipelineOptions( project=[project-id], runner='dataflow', temp_location=[bucket-location] ) 기본 설정들을 셋팅 합니다. python 으로 코드를 작성하였습니다. main function 을 pcollection_dofn_methods_basic 으로 만들었습니다. ..