머신러닝의 기본 개념
머신러닝의 중심에는 모델이 학습하는 원재료인 데이터가 있다. 데이터는 데이터베이스, 스프레드시트 등의 구조화된 형식으로 분류될 수 있으며 행과 열로 구성되어 있어 쉽게 검색하고 분석할 수 있다. 반면, 비정형 데이터에는 이미지, 오디오, 텍스트, 비디오 등 다양한 형식이 포함되어 있어 미리 정의된 구조가 부족하고 보다 정교한 처리 기술이 필요하다. 또한 반구조화된 데이터는 JSON 또는 XML과 같은 형식에서 흔히 발견되는 두 가지 요소를 결합하는데, 고품질 데이터는 모델이 정확하고 일반화 가능한 패턴을 학습할 수 있도록 보장하므로 데이터의 품질과 다양성은 ML 모델의 효율성에 큰 영향을 미친다. ML 알고리즘이 예측 또는 분류를 수행하는 데 사용하는 데이터의 개별 측정 가능한 속성 또는 특성을 가지고 있으며, 새로운 기능을 선택, 수정 또는 생성하는 효과적인 기능 엔지니어링은 모델 성능을 향상하는 데 중요하다. 예를 들어 주택 가격 예측 모델에서 관련 기능에는 면적, 침실 수, 위치, 편의시설 근접성이 포함될 수 있고, 적절한 기능 선택은 차원을 줄이고, 모델 정확도를 향상하며, 모델이 훈련 데이터에서는 잘 작동하지만 보이지 않는 데이터에서는 제대로 작동하지 않는 과적합을 방지하는 데 도움이 된다.
기계 학습 알고리즘
데이터를 처리하여 모델을 구축하는 수학적, 통계적 방법이다. 이러한 알고리즘은 수행하는 학습 유형에 따라 광범위하게 분류될 수 있으며, 선형 회귀 및 지원 벡터 머신과 같은 지도 학습 알고리즘은 각 입력이 올바른 출력과 쌍을 이루는 레이블이 지정된 데이터에서 학습한다. k-평균 클러스터링 및 주성분 분석(PCA)과 같은 비지도 학습 알고리즘은 레이블이 지정되지 않은 데이터를 사용하여 숨겨진 패턴이나 고유 구조를 발견하며, Q-학습 및 심층 Q-네트워크(DQN)와 같은 강화 학습 알고리즘은 환경과 상호 작용하고 보상이나 처벌의 형태로 피드백을 받아 학습한다. 각 유형의 알고리즘에는 고유한 장점이 있으며 다양한 종류의 문제에 적합하다고 볽수있다.
머신러닝의 유형
지도 학습은 가장 널리 사용되는 유형의 기계 학습으로, 라벨이 지정된 데이터 세트에서 모델을 학습시킨다. 이 맥락에서 "레이블이 지정됨"은 각 훈련 예제가 출력 레이블과 쌍을 이룬다는 의미이며, 주요 목표는 모델이 입력에서 출력까지의 매핑을 학습하여 보이지 않는 새로운 데이터에 대해 정확한 예측을 할 수 있도록 하는 것이다. 지도 학습의 응용 분야에는 모델이 이미지 내의 개체를 식별하는 이미지 분류와 모델이 합법적인 메시지와 원치 않는 메시지를 구별하는 이메일의 스팸 탐지가 포함된다. 지도 학습 기술은 개별 레이블이 포함된 분류 작업과 연속 출력이 포함된 회귀 작업으로 더 세분화하며 기술을 발전시키고 있다.
비지도 학습
모델이 데이터 내의 기본 구조나 분포를 추론하려고 시도하는 레이블이 없는 데이터를 처리한다. 이러한 유형의 학습은 유사한 고객을 타깃 마케팅을 위해 세그먼트로 그룹화하거나 사기 행위를 나타낼 수 있는 데이터의 이상 징후를 식별하는 등 숨겨진 패턴을 발견하는 데 유용하다. k-평균 및 계층적 클러스터링과 같은 클러스터링 알고리즘은 유사성 측정을 기반으로 데이터 포인트를 그룹화하는 일반적인 비지도 방법이며, Apriori 알고리즘과 같은 연관 규칙 학습 알고리즘은 대규모 데이터 세트에서 변수 간의 관계를 식별하는 데 도움이 되며 이는 장바구니 분석과 같은 작업에 유용하다.
강화 학습
환경과 상호작용하여 일련의 결정을 내리도록 모델을 훈련시키는 것이 포함된다. 흔히 에이전트라고 불리는 이 모델은 작업을 수행하고 보상이나 페널티의 형태로 피드백을 받아 목표를 달성하는 방법을 학습하는데, 시간이 지남에 따라 에이전트는 누적 보상을 극대화하기 위해 전략을 최적화한다. 이러한 유형의 학습은 로봇이 작업을 탐색하고 수행하는 방법을 배우는 로봇 공학과 같은 영역과 AlphaGo와 같은 에이전트가 강화 학습 기술을 통해 복잡한 게임을 마스터하여 초인적인 성능을 보여주는 게임 플레이에서 널리 사용된다.
반지도 학습
훈련 중에 소량의 레이블이 지정된 데이터와 대량의 레이블이 없는 데이터를 결합한다. 이 접근 방식은 전문적인 주석이 필요한 의료 영상과 같이 라벨링 데이터에 비용이 많이 들거나 시간이 많이 걸리는 시나리오에서 특히 유용하다. 준지도 학습 알고리즘은 레이블이 지정되지 않은 방대한 양의 데이터를 활용하여 레이블이 지정된 데이터만 사용하는 것보다 모델 성능을 향상하고 더 나은 일반화를 달성할 수 있다. 의사 라벨링 및 일관성 정규화와 같은 기술은 준지도 학습 프레임워크에서 라벨이 지정되지 않은 데이터를 효과적으로 사용하기 위해 일반적으로 사용하는 것이다.
자기 지도 학습
모델이 데이터에서 자체 라벨을 생성하여 수동으로 라벨을 지정할 필요가 없는 새로운 패러다임이다. 이러한 접근 방식은 GPT 및 BERT와 같은 모델이 누락된 단어나 다음 문장을 예측하여 방대한 양의 텍스트 데이터에서 학습하는 자연어 처리(NLP) 및 컴퓨터 비전에서 특히 널리 사용되며, 마찬가지로, 컴퓨터 비전에서 자체 감독 방법에는 다른 부분에서 이미지의 일부를 예측하는 작업이 포함되어 모델이 명시적인 감독 없이 풍부한 표현을 학습할 수 있다. 이 기술은 최소한의 추가 교육만으로 다운스트림 작업을 일반화하고 잘 수행하는 모델의 능력을 향상하는데 많은 도움을 주고 있다.
머신러닝 워크플로
기계 학습 워크플로는 효과적인 ML 모델 개발을 안내하는 일련의 단계를 포함한다. 문제 정의에는 판매량 예측, 이미지 분류 등 목표를 명확하게 설명하고 정확도나 MSE(평균 제곱 오차)와 같은 성공 측정항목 설정이 포함되는데, 데이터 수집은 다양한 소스에서 관련성 높은 품질의 데이터를 수집하여 문제 영역을 대표하는지 확인한다. 데이터 전처리는 누락된 값을 처리하여 데이터를 정리하고, 중복 항목을 제거하고, 특성을 정규화 또는 표준화하여 일관성을 보장하는 중요한 단계라고 볼수있다.