GCP35 :: AI, ML

ㅡ. 백그라운드

새 x (문제 질의) 파란색 선을 찾아갑니다. 수학적 모델을 이용해서 y값을 추정할 수 있습니다. 선형 그래프를 그릴 때 H(x) = Wx+b 로 표현할 수 있습니다. 여기서 b는 y축을 지나는 y절편이 됩니다. 또 x값은 독립변수고 y값을 종속변수 입니다. x값에 따라서 y의 값이 달라지게 됩니다. 선형회귀는 직선을 정확하게 그려내는 과정입니다. 따라서, 최적의 W와 b의 값을 찾아내는 과정입니다. 이 w와 b를 찾아내기 위한 방법으로 경사하강법이 존재합니다.

ㅡ. 경사하강법

경사하강법은 머신러닝 및 딥러닝 알고리즘 훈련할 때 사용합니다. 여기서 MES라는 것을 사용하게 되는데 MES의 식에서 평균제곱 오차를 비용함수라고 합니다. 비용함수 이차식으로 되어있어서 위와같이 볼록한 형태의 구조인데요. 이때, 비용을 최소화 하는 구간을 잡아야합니다. w,b 각각에 대해, 세로 축이 cost function이므로 이는 미분의 접선의 기울기로 파악할 수 있습니다. 꼭지점 부분이 기울기가 0이 되는 지점이 최소값이 됩니다.

ㅡ. 로지스틱 회귀

사건의 발생 가능성을 예측하는데 사용되는 통계 기법입니다. 로지스틱 회귀 목적은 일반적인 회귀 분석의 목표와 동일합니다. 종속변수와 독립변수 간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것입니다.

ㅡ. 선형회귀 차이점

종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 기법 이라고 합니다. (Classification)

ㅡ. 다중 클래스 분류법

소프트맥스 함수를 이용한 접근, 소프트맥스 함수는 분류해야하는 클래스의 총 개수를 k라고 할때 k차원의 벡터를 입력받아 각 클래스에 대한 확률을 추정합니다.

ㅡ. 머신러닝 VS 인공지능 VS 딥러닝

인공지능 : AI 알고리즘 규칙에 따라 시스템을 구축하게 됩니다.
머신러닝 : 빅데이터를 통한 학습 방법으로 머신러닝을 이용할 수 있습니다. 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하고 학습한 내용을 기반으로 판단이나 예측을 하게 됩니다.
딥러닝 : 훈련된 시스템으로 이미지 인식 능력이 대표적입니다. 이외에도 혈액의 암세포, MRI 스캔에서 종양 식별 능력을 포함합니다.

ㅡ. GCP AI 포트폴리오

하위로 내려갈수록 딥러닝에 대한 전문성이 요구됩니다.

구글 클라우드는 크게 3가지 영역으로 AI 포트폴리오를 제공합니다.

데이터 모델을 설계하고 이를 bigQuery 로 실행시킬 수 있습니다. 머신러닝 파이프라인 없이 일정 수준의 복잡도는 bigQuery 로 수행가능합니다.

ㅡ. 세션2부

실제로 머신러닝 코드를 작성할때 머신러닝 코드 작성하는 비중보다 개발, 운영 이슈에 관한 태스크가 더 많습니다.

수집 ⇢ 탐색 ⇢ 인사이트 확보를 위한 전처리 단계 ⇢ 머신러닝 모델(데이터 활용하기위한) 구축 ⇢ 반복 학습 통해 더 나은 모델 구축 ⇢서비스에 활용될 수 있도록 예측서빙 단계 ⇢ 파이프라인 관리하기 위한 오케스트라 시스템

I. 수집단계

스택 드라이버로 로그 매니지드 시스템입니다. 스택 드라이버로 agent 설정 파일로 데이터를 수집할 수 있습니다. 혹은, 구글 클라우드 SDK 방법으로 프로그래밍으로 수집하는 방법입니다. (이경우에는 Customize한 작업에서 적합합니다.)

각 디바이스별 로그 수집 기능을 지원합니다. Mobile 은 Firebase, www는 GA 360 로그 수집을 지원합니다.

II. 탐색 단계

dataprep 은 탐색, 간단한 데이터 전처리 작업, 데이터 재구성이 가능합니다.

III. 전처리 단계

다음 단계 모델을 위한 최적화하기 위한 작업이 진행됩니다. dataprep 활용해서 복잡도가 높지 않다면 탐색에서 함께 진행될 수 있습니다. 굉장히 빠른 컴퓨팅 파워를 가지고 있습니다. 데이터웨어하우스 시스템이라 SQL 구문으로 데이터 전처리 작업을 수행할 수 있습니다.
실시간 데이터 프로세싱을 지원하는 매니지드 서비스 입니다. 분산 프로세싱 서비스 입니다. 실시간, 배치, 스파크, 플링크 데이터 프로세싱 엔진과의 호완성을 제공합니다. bigQuery 연동이 가능합니다. SQL 로 dataflow 작업을 수행할 수 있습니다.

IV. 모델 설계 구축 단계

주피터 노트북을 제공합니다. 파이썬 개발 환경으로 데이터분석가, 머신러닝 개발자에게 친숙한 개발환경입니다. 주피터랩은 구글 클라우드 플랫폼에서 제공하는 IAM을 함께 적용할 수 있습니다.

V. 학습 단계

AI 플랫폼 서비스(케라스, 파이토치, 텐서플로우) 머신러닝 프레임워크, 라이브러리 제공학습 작업 수행시 TPU 프로세싱 유닛 활용이 가능하다. 분산 아키텍처 적용하여 최적의 학습을 지원합니다.

VI. 머신러닝 모델 활용 예측 단계

AI 플랫폼 서비스를 통해 몇번 클릭만으로 예측 서비스를 RESTFUL로 제공하고 있습니다. 매니지드 서비스로 추가적인 운영 단계가 요구되지 않습니다.
워크플로우를 관리하기 위한 컴포저 매니지드 서비스 제공 컴포저는 워크플로우 관리를 위한 선 후의 조건에 따른 작업 관리 모니터링 서비스 입니다.

ㅡ. AI허브

컴포넌트를 활용해 머신러닝 파이프라인을 구축할 수 있습니다.

참고 ㅣ 구글 Machine Learning Advanced Workshop 들으면서 정리했습니다.

'Cloud' 카테고리의 다른 글

oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - embulk (0)	2021.03.02
oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - Oracle (0)	2021.02.27
oracleDB에서 embulk를 활용해 bigQuery로 이관하는 작업 - VM구성 (0)	2021.02.25
마이크로서비스 배포 (0)	2020.10.11
마이크로 서비스 패턴 (0)	2020.10.10

티스토리툴바