인공지능이란?
인지, 학습 등 인간의 지적능력의 일부 또는 전체를 컴퓨터를 이요해 구현하는 지능
기계학습(machine learning)이란?
데이터를 기반으로 인지, 이해 모델을 형성하거나 최적의 해답을 찾기 위한 학습 지능
머신러닝은 데이터를 사용해서 인공지능을 만들 수 있다.
기계가 공부하는 것 -> 사람이 직접 프로그램을 만들어서 기계에 넣어주는 것이 아니라 문을 언제 어떻게 열 것인지 등 기계가 스스로 문제를 해결하는 방법을 학습하는 것
전통적인 프로그래밍 vs 기계학습
전통적인 프로그래밍 | 머신러닝 |
데이터를 넣으면 그 데이터를 어떠한 식으로 처리하는지 프로그래머가 프로그램을 작성 | 데이터로 인해 나타나는 결과를 사용해 학습하기 때문에 스스로 프로그램을 만들 수 있다. 특정 데이터와 함께 그 데이터로 인해 나타나는 결과를 같이 넣어주면 기계가 그 관계를 찾는다! 기계가 스스로 프로그램을 만드는 것! |
머신러닝의 분류
지도 학습 | 비지도 학습 | 강화 학습 |
분류 (Classification) - 진단법 - 고객 유지 - 이미지 분류 - 부정 행위 탐지 회귀 (Regression) - 광고 인기 예측 - 날씨 예보 - 인구 성장 예측 - 시장 예측 - 기대 수명 예측 |
차원 감소 - 유의미한 압축 - 빅 데이터 시각화 - 구조 발견 - 특징 추출 군집(Clustering) - 추천자 시스템 - 표적 마케팅 - 고객 세분화 |
-실시간 결정 - AI 게임 - 로봇 항법, 주행 - 학습 과제 - 기술 습득 |
지도학습이란?
인공지능을 누군가가 직접 가르치고 이끄는 학습 방법
인공지능이 강아지를 학습할 때 강아지 사진을 보여주며, 강아지라고 말해주고, 고양이를 학습할 때 고양이 사진을 보여주며 고양이라고 말해준다.
지도학습은 데이터중에서도 정답이 있는 데이터(레이블)을 사용해 학습한다.
✔ 강아지 사진과 고양이 사진은 서로 다른 수많은 종류의 사진이지만, 강아지와 고양이라는 '이름'은 일정하다.
✔ 이 이름을 전문 용어로 레이블(Label)이라고 부르고, 이 레이블이 바로 데이터의 정답을 의미한다.
이러한 형태의 데이터를 인공지능에 입력하여 학습시키면 인공지능은 여러장의 강아지 사진을 보며 강아지만의 특성을 찾고, 여러 장의 고양이 사진을 보며 고양이만의 특성을 찾는다.
이렇게 수많은 데이터를 학습한 인공지능에게 새로운 사진을 보며주며 "이것은 강아지야? 고양이야?"라고 물으면 인공지능은 학습한 내용을 바탕으로 답을 말할 수 있게 된다.
비지도 학습이란?
비지도 학습은 정답이 있는 데이터가 아닌, 정답이 없는 데이터를 사용한다.
기계에게 많은 사진을 보여주고 그것을 2개로 나눠보라고 한다면 기계는 여러 사진을 비교하며 스스로 형태를 나눈다.
기계는 강아지는 강아지대로, 고양이는 고양이대로 구분해 나가지만, 정답이 없기 때문에 무엇이 강아지인지, 무엇이 공양이인지는 알지 못한다. 이처럼 정답이 없는 데이터에서 그 데이터의 특징을 찾아서 스스로 구분해 나간다.
이렇게 구분하면 새로운 데이터가 들어왔을 때 그 데이터가 어느 그룹에 속하는지 판단할 수 있으며, 정답이 없는 데이터를 사용해 스스로 판단 가능한 지능을 가지게 된다.
✨정답이 있는 데이터로 학습한다면 -> 지도 학습
✨정답이 없는 데이터로 학습한다면 -> 비지도 학습
지도학습, 비지도학습의 대표적인 알고리즘
분류
➰ KNN(K-Nearest Neighbor, K- 최근접 이웃)
어떤 데이터가 주어지면 그 주변의 데이터를 살펴서 더 많은 데이터가 포함되어 있는 범주로 분류
➰ Naive Bayes
분류(classification)의 목적으로 사용
베이즈 정리*를 적용한 확률적 분류기법
*베이즈 정리(Bayes theorem)
두 확률변수의 사전확률과 사후확률 사이의 관계를 설명하는 수학적 정리
사전확률
가정 : 어떤 사건에 대한 원인과 결과 발생
-> 원인이 있을 때 결과가 발생할 확률
사후 확률
가정 : 결과발생
-> 결과가 발생했다는 조건에서 원인이 발생했을 확률
➰SVM(Support Vector Machine)
최상의 분류선을 찾는 것이 문제
SVM은 최적의 초평면을 찾는 방법을 제공
SVM 최상의 분류선
회귀
➰ Linear Regression(선형 회귀): 어떠한 데이터 직선 분포를 대표적으로 설명해주는 것이다.
➰ Locally weighted linear regression: 각각의 포인트에 대해 거리에 대한 가중치를 줘서 만든 linear regression
➰ Ridge Regression: 가중치를 0에 가깝게 하여 특성들의 영향력을 감소시킨다. 만약 특성의 중요도가 전체적으로 비슷하다면 Ridge를 쓰면 된다.(L2 정규화)
➰ Lasso(least absolute shrinkage and selection operator)Regression : 정규화 선형회귀로 선형회귀 계수에 대한 제약 조건을 추가하여 모델이 overfitting 되는 것을 막아준다. 가중치를 0으로 특성을 무력화한다. 만약 일부 특성이 중요하다면 Lasso를 쓰면 된다.(L1 정규화)
비지도 학습
➰ Clustering(군집화): 어떤 데이터들이 주어졌을 때, 그 데이터들을 클러스터로 그룹짓는 것이다.
➰ K-means Clustering(K-평균 클러스터링): K개의 Centroid(각 클러스터의 중심)를 기반으로 K개의 클러스터를 만드는 것이다.
➰ Density Estimation : 통계학에서 다루는 용어로 데이터와 변수의 관계를 파악하는 방법이다.
➰ Expectation-maximization algorithm (약자 EM 알고리즘 기댓값 최대화 알고리즘): 관측되지 않는 잠재변수에 의존하는 확률 모델에서 최대가능도(maximum likelihood)나 최대사후확률(maximum a posteriori, 약자 MAP)을 갖는 모수의 추정값을 찾는 반복적인 알고리즘이다.
➰ Parzen Windows(파젠 윈도우): 일반적으로 파첸의 창, 또 다른 말로는 커널밀도추정(Kernel Density Estimation), KDE라고 한다.
➰ DBSCAN(Density-based Spatial Clustering of Applications with Noise): 최소 거리 epsilon 이내의 데이터들이 점진적으로 한 군집으로 합쳐지면 다양한 모양의 군집을 형성하는 것이다.
'품질이야기' 카테고리의 다른 글
KAMP 사례(조선내화) (0) | 2023.01.04 |
---|---|
KAMP 사례(프레스 고장) (0) | 2023.01.04 |
Big data... (0) | 2023.01.03 |
"이건희 회장 말 듣다가 우리 망하는 거 아닌가" (0) | 2023.01.03 |
계측기 ndc에 대해 (0) | 2023.01.03 |