bigquery
AWS redshift 와 GCP bigQuery 차이
AWS redshift 와 GCP bigQuery 차이
2021.05.27시작 클라우드에서 데이터 처리 및 분석하는데 가장 핵심적인 부분은 Data Warehouse 입니다. 각 벤더사에서 AWS, GCP에서 제공하는 Data Warehouse는 redshift 와 bigQuery 가 있습니다. 이 포스팅에서는 두 DW의 차이에 대해 알아보겠습니다. 다른 포스팅에 비해 부족한 내용이겠지만 각각의 서비스에 대한 설명과 가격, 보안, 사용, 성능, 가용성 분류로 차이에 대해 나열해 보겠습니다. redshift AWS에서 제공하는 데이터웨어하우스의 역할로 수백 기가 바이트부터 페타바이트 이상까지 데이터를 확장해서 저장할 수 있습니다. 데이터 전송시 최대 100Gbps 대역을 가질 수 있습니다. redshift을 동작하기 전에 cluster를 구성해야 하는데 프로비저닝 작업을 수행해..
oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - embulk
oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - embulk
2021.03.021)개요 Windows Server의 Oracle DB와 연결해서 Ubuntu 환경에서 embulk로 데이터를 읽어와 bigQuery로 이관하는 작업을 시작해보겠습니다. oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - VM : thewayitwas.tistory.com/432 oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - VM구성 1) 개요 Windows Server에 Oracle DB를 설치하고 Linux Server에 Instant Oracle Client 를 사용해 서로 연결해 둔 다음 embulk를 활용해 Windows Server의 Oracle DB의 데이터를 bigQuery로 이관하는 작업입니다... thewayitwas.tistory..
GCP39 :: Media(번역) - BigQuery
GCP39 :: Media(번역) - BigQuery
2020.10.02ㅡ. 스탠다드SQL 빅쿼리는 2011 표준화된 안시 SQL 에 따르는 Standard SQL을 더 선호합니다. 빅쿼리를 사용할때 자동적으로 생성하고 스케쥴해주고 쿼리잡을 실행해줍니다. 빅쿼리는 두가지 모드로 실행됩니다. :: interactive, batch Interactive(on-demand) : 가능한한 많이 실행됩니다. 제한이 따릅니다. Batch queries : 빅쿼리 공유 리소스 풀에서 유후 자원을 사용할 수 있도록 즉시 배치 쿼리가 대기열에 저장되고 시작됩니다. 단 몇분만에 실행됩니다. interactive 모드와 다르게 동시 요금 제한에 따른 제약이 없습니다. ㅡ. 빅쿼리 테이블 타입 모든 비구커리 테이블은 컬럼 네임을 가지고 있는 스키마 형태로 정의도비니다. 컬럼 네임에는 데이터 타입..
GCP35 :: AI, ML
GCP35 :: AI, ML
2020.09.23ㅡ. 백그라운드 새 x (문제 질의) 파란색 선을 찾아갑니다. 수학적 모델을 이용해서 y값을 추정할 수 있습니다. 선형 그래프를 그릴 때 H(x) = Wx+b 로 표현할 수 있습니다. 여기서 b는 y축을 지나는 y절편이 됩니다. 또 x값은 독립변수고 y값을 종속변수 입니다. x값에 따라서 y의 값이 달라지게 됩니다. 선형회귀는 직선을 정확하게 그려내는 과정입니다. 따라서, 최적의 W와 b의 값을 찾아내는 과정입니다. 이 w와 b를 찾아내기 위한 방법으로 경사하강법이 존재합니다. ㅡ. 경사하강법 경사하강법은 머신러닝 및 딥러닝 알고리즘 훈련할 때 사용합니다. 여기서 MES라는 것을 사용하게 되는데 MES의 식에서 평균제곱 오차를 비용함수라고 합니다. 비용함수 이차식으로 되어있어서 위와같이 볼록한 형태의 구..
vue.js, proxy server(node.js), bigQuery 데이터 불러와 사용하기
vue.js, proxy server(node.js), bigQuery 데이터 불러와 사용하기
2020.08.26*홈페이지에 나와있는 상호명은 특정 상호명과 아무 관련이 없습니다. ㅡ. Result *ref : https://cloud.google.com/bigquery/docs/reference/libraries?hl=ko#client-libraries-install-nodejs bigQueryApi 라는 Js 파일을 생성하여 아래 코드를 작성하였습니다. const {BigQuery} = require('@google-cloud/bigquery'); const bigquery = new BigQuery(); async function query() { // Queries the U.S. given names dataset for the state of Texas. const query = `SELECT name ..
IT08 :: 프로젝트 마감
IT08 :: 프로젝트 마감
2020.08.26남은 2틀동안 프로젝트를 마감하는 과정을 포스팅 (크로스 체크.. 는 덤) 데이터 정제 처리가 완벽하게 안되서 수정해야 했다. ㅡ. Category_feature(카테고리별 특징들을 보여줍니다.) - Not Yet ㅡ. bigQuery(category_feature) ㅡ. apache-beam(category_feature) #apache_beam from apache_beam.options.pipeline_options import PipelineOptions import apache_beam as beam pipeline_options = PipelineOptions( project='fluid-crane-284202', runner='dataflow', temp_location='gs://dataf..
bigQuery에서 pub/sub 으로 불러오고, compute engine 에 올려서 event stream 수행하기
bigQuery에서 pub/sub 으로 불러오고, compute engine 에 올려서 event stream 수행하기
2020.08.21bigQuery table 에서 event stream 을 수행하면서 publisher 의 topic에 message를 전송하고 이를 apache-beam 상에서 코드로 동작시켜 ETL을 수행하는것까지 진행!! event stream은 local에서 compute engine 동작시켜서 stream이 끝날 때까지 수행하는것을 역할로 잡았습니다. 미리 public-data-set 의 stackoverflow dataset을 bigQuery table로 Import 했습니다. 제가 이 테스팅을 진행하는건 tags 와 view_count를 가지고 중복되는 tags 이름에 총 몇번의 view_count를 가지고 있는지 확인하려고 합니다. (물론 | 기준으로 split 해야합니다.) pub/sub에서 stream..
ISSUE09 :: Cannot access field name on a value with type ARRAY<STRUCT<name STRING, bytes INT64>> at [1:17]
ISSUE09 :: Cannot access field name on a value with type ARRAY<STRUCT<name STRING, bytes INT64>> at [1:17]
2020.08.11google public-data-set 에서 github의 languages 에 접근하려고 했을때 Cannot access field name on a value with type ARRAY at [1:17] 와 같은 이슈가 발생했습니다. table에서 해당 컬럼이 array 형태이기 때문에 이를 Flatten 하기 위해서 UNNEST 함수를 사용해야 합니다. select count(distinct language.name) from table -> select count(distinct n.name) from table, UNNEST(language) as n
GCP02 :: Cloud Function 이미지에서 글자 추출
GCP02 :: Cloud Function 이미지에서 글자 추출
2020.06.03개요는 다음과 같습니다. Cloud Function 에서 python으로 작성된 언어를 기반으로 Google Cloud Storage 에 이미지가 업로드 되면 감지하여 Vision API 를 활용해 글자를 추출하여 bigQuery 적재 이후 데이터 분석을 진행합니다. 이번에는 Cloud Function 에 대한 설정을 진행하겠습니다. 이 다음에서는 책에서 주는 코드로 Cloud Function 을 생성하고 이미지를 Bucket에 업로드 한뒤, 이를 bigQuery 로 분석하여 결과적으로는 Query로 조회하는 결과를 확인해보겠습니다. !!! 출처 : 구글 클라우드 플랫폼 쪼개기