Cloud/Cloud.Dataflow
GCP25 :: dataflow 코드 작성하기 3
GCP25 :: dataflow 코드 작성하기 3
2020.08.24batch 처리에 대한 apache-beam 코드 수행으로 마지막입니다. 1,2 와 크게 다르지 않은 형태이지만 example 수준에서 봐주시면 감사하겠습니다. 2020/08/24 - [Cloud] - dataflow 코드작성하기 2020/08/24 - [Cloud/Cloud.Dataflow] - dataflow 코드 작성하기 2 #apache_beam from apache_beam.options.pipeline_options import PipelineOptions import apache_beam as beam pipeline_options = PipelineOptions( project='project-id', runner='dataflow', temp_location='bucket-location..
GCP24 :: dataflow 코드 작성하기 2
GCP24 :: dataflow 코드 작성하기 2
2020.08.24이전과 비슷한 로직으로 코드를 작성하겠습니다. 다만 조금 더 다양한 Apache-beam 함수를 써서 파이프라인을 구축해보겠습니다. 기본 셋팅은 이전 포스팅을 참고해주세요! 2020/08/24 - [Cloud] - dataflow 코드작성하기 Local환경에서 테스팅 하기 위해서 기본 Data Set을 생성하였습니다. with beam.Pipeline() as pipeline: results = ( pipeline | 'Gardening plants' >> beam.Create([ 'Iot,c c++ python,2015', 'Web,java spring,2016', 'Iot,c c++ spring,2017', 'Iot,c c++ spring,2017', ]) 이 데이터 셋을 가지고 트랜스폼 할것은 어떤..
GCP23 :: dataflow 코드작성하기
GCP23 :: dataflow 코드작성하기
2020.08.24위와 같은 데이터가 있습니다. react 안에서 feature 별 횟수를 묶을 생각입니다. from apache_beam.options.pipeline_options import PipelineOptions import apache_beam as beam 파이프 라인 환경설정을 구성하기 위해서 PipelineOptions 를 사용합니다. pipeline_options = PipelineOptions( project=[project-id], runner='dataflow', temp_location=[bucket-location] ) 기본 설정들을 셋팅 합니다. python 으로 코드를 작성하였습니다. main function 을 pcollection_dofn_methods_basic 으로 만들었습니다. ..
GCP15 :: Apache-Beam ParDo
GCP15 :: Apache-Beam ParDo
2020.08.20최근에 로컬에서 환경과 클라우드 환경에서의 결과값이 다르게 나와서 stackoverflow 에 질문을 올린적이 있다. https://stackoverflow.com/questions/63460701/in-the-local-environment-the-result-value-and-the-dataflow-result-values-are-di/63465435?noredirect=1#comment112262586_63465435 In the local environment, the result value and the dataflow result values are different Here is my input data. ㅡ.Input(Local) 'Iot,c c++ python,2015', 'Web,jav..