본문 바로가기
카테고리 없음

학습을 통한 발전과 개선 AI 머신 러닝-2

by 91leehun 2025. 1. 7.

 

특성 엔지니어링

 

모델의 예측력을 향상할 수 있는 새로운 특성을 선택, 수정 또는 생성하는 프로세스이다. 여기에는 주성분 분석(PCA)을 사용한 차원 축소 또는 변수 간의 상호 작용 항 생성과 같은 기술이 포함될 수 있다. 모델 선택에는 문제 유형, 데이터 특성 및 사용 가능한 계산 리소스를 기반으로 적절한 기계 학습 알고리즘을 선택하는 작업이 포함되며,  일반적인 고려 사항에는 작업이 분류인지 회귀인지, 데이터 세트의 크기, 해석 가능성의 필요성이 포함된다. 모델이 선택되면 모델 교육에는 준비된 데이터를 알고리즘에 입력하여 기본 패턴을 학습하는 작업이 시작된다. 이 단계에는 모델이 보이지 않는 데이터에 대해 잘 일반화되는지 확인하기 위한 교차 검증과 같은 기술이 포함될 수 있으며, 모델 평가는 사전 정의된 측정항목과 검증 기술을 사용하여 모델의 성능을 평가하여 원하는 목표를 충족하는지 확인한다. 모델의 성능이 만족스럽지 않은 경우에는 Hyperparameter Tuning을 수행하여 모델의 매개변수를 최적화하여 정확성과 견고성을 향상시킨다.

배포

학습된 모델을 실시간 예측이나 결정을 내릴 수 있는 프로덕션 환경에 통합하는 작업이다. 이 단계에서는 확장성, 대기 시간 및 기존 시스템과의 통합을 고려해야 하며, 마지막으로 모니터링 및 유지 관리는 배포된 모델이 시간이 지나도 계속해서 잘 작동하는지 확인한다. 여기에는 성능 지표 추적, 데이터 드리프트 감지 및 해결, 동적 환경에서 효율성을 유지하는 데 필요한 모델 재교육이 포함되는데,  기계 학습을 마스터하려면 수학적 기초에 대한 확실한 이해가 필수적이라고 볼수있다. 확률 및 통계는 데이터로부터 추론하고, 분포를 이해하고, 모델 불확실성을 평가하기 위한 기초를 제공하며, 베이지안 추론과 같은 개념을 사용하면 모델이 사전 지식을 통합하고 새로운 증거를 기반으로 믿음을 업데이트할 수 있으며, 가우스 및 베르누이와 같은 통계 분포는 다양한 유형의 데이터를 모델링하는 데 도움이 된다. 가설 테스트를 통해 모델 가정과 관찰된 패턴의 중요성을 평가할 수 있는 것이다.

선형 대수학&미적분학

데이터를 표현하고 조작하는 데 중요한 벡터, 행렬 및 변환을 다루기 때문에 기계 학습의 기본이라고 볼수 있는데, 고유값 및 고유벡터와 관련된 연산은 데이터를 주성분에 투영하여 차원을 줄이는 PCA와 같은 기술에 필수적이다. SVD(특이값 분해)와 같은 행렬 분해 방법은 협업 필터링 및 추천 시스템을 포함한 다양한 ML 알고리즘에서 효율적인 계산을 촉진한다.
머신러닝 모델 학습의 핵심인 최적화에서 중추적인 역할을 한다. 미분을 사용하면 모델 정확도를 향상시키기 위해 손실 함수를 최소화하는 경사 하강법과 같은 최적화 알고리즘에 필수적인 경사 계산이 가능하다. 통합은 확률 모델과 베이지안 통계 및 강화 학습과 같은 영역에서 중요한 기대치를 계산하는 데 사용되는 것이다.

 

최적화 기술

목적 함수를 최소화하거나 최대화하는 최상의 매개변수를 찾는 데 필수적이다. 목적 함수는 예측 오류 최소화 또는 가능성 최대화와 같은 최적화 목표를 정의한다. 배치 경사하강법, SGD(확률적 경사하강법), 미니 배치 경사하강법을 포함한 경사하강법 변형은 경사를 기반으로 모델 매개변수를 업데이트하는 다양한 접근 방식을 제공하는데,  L1 및 L2 정규화와 같은 정규화 기술은 큰 계수에 페널티를 적용하여 과적합을 방지하는 반면, 신경망의 드롭아웃 방법은 훈련 중에 뉴런을 무작위로 비활성화하여 일반화를 향상시킨다.

딥 러닝

딥 러닝은 여러 레이어가 있는 신경망에 초점을 맞춘 머신러닝의 하위 집합으로, 대규모 데이터 세트에서 복잡한 패턴을 모델링할 수 있다. CNN(컨볼루셔널 신경망)과 같은 신경망 아키텍처는 이미지와 같은 격자형 데이터를 처리하고 컨볼루션 레이어를 활용하여 공간 계층을 캡처하도록 설계되었다. 반복 신경망(RNN)과 그 변형인 LSTM(Long Short-Term Memory) 및 Gated Recurrent Unit(GRU)은 순차 데이터에 맞게 조정되어 언어 모델링 및 시계열 예측과 같은 작업에 이상적인 결과를 줄수있게 되었다.  GAN(Generative Adversarial Networks)은 제로섬 게임에서 경쟁하는 생성기와 판별기로 구성되어 이미지, 오디오와 같은 사실적인 데이터 샘플을 생성한다. 주의 메커니즘을 활용하는 Transformers는 BERT 및 GPT와 같은 모델에서 볼 수 있듯이 반복 구조에 의존하지 않고 모델이 장거리 종속성을 처리할 수 있도록 하여 자연어 처리에 혁명을 일으켰다.

앙상블 방법

분산, 편향을 줄이거나 예측을 개선하기 위해 여러 모델을 결합하여 모델 성능을 향상시키는데 사용한다.  배깅(Bootstrap Aggregating)에는 데이터의 다양한 하위 집합에 대해 여러 모델을 훈련하고 예측의 평균을 내는 작업이 포함되며,  Random Forest는 의사 결정 트리를 집계하는 대표적인 예시이고, 부스팅은 AdaBoost, Gradient Boosting, XGBoost, LightGBM 및 CatBoost와 같은 알고리즘을 사용하여 이전 모델의 오류를 수정하는 데 중점을 두도록 모델을 순차적으로 학습하여 높은 정확도를 달성하고 있다.  스태킹은 메타 모델을 사용하여 여러 기본 모델의 예측을 결합하고 각 모델의 장점을 활용하여 전반적인 성능을 향상시키는 과정인 것이다.

전이 학습&컴퓨터 비전

전이학습은 관련 작업에 대해 사전 훈련된 모델을 활용하여 제한된 데이터로 학습을 가속화하고 새로운 작업의 성능을 향상시킨다. 특정 NLP 작업을 위해 BERT와 같은 모델을 미세 조정하거나 사용자 정의 이미지 인식을 위해 ImageNet에서 사전 훈련된 CNN을 사용함으로써 전이 학습을 통해 기존 지식을 효율적으로 활용하고 처음부터 광범위한 훈련의 필요성을 줄이고 특수 애플리케이션에서 모델 정확도를 높일 수 있다. 컴퓨터의 비전은 기계가 세상의 시각적 정보를 해석하고 이해할 수 있도록 하는 데 중점을 둔다. 이미지 분류는 이미지에 라벨을 할당하는 반면, 객체 감지는 YOLO 및 Faster R-CNN과 같은 알고리즘을 사용하여 이미지 내의 객체를 식별하고 위치를 파악한다. 이미지 분할은 의료 영상 및 자율 주행과 같은 응용 분야에 필수적인 세부 분석을 위해 이미지를 의미 있는 세그먼트로 분할한다. GAN 및 VAE(Variational Autoencoder)와 같은 생성 모델은 새로운 이미지를 생성하여 예술 생성, 이미지 향상, 데이터 증대와 같은 분야의 발전을 가능하게 한다.

Explainable AI(XAI)

특히 의료 및 금융과 같은 중요한 애플리케이션에서 머신러닝 모델의 투명성과 해석 가능성에 대한 요구 사항을 해결한다. 기능 중요도 기술은 각 기능이 예측에 미치는 영향을 평가하는 반면, LIME(Local Interpretable Model-agnostic Descriptions) 및 SHAP(SHapley Additive exPlanations)과 같은 방법은 개별 예측에 대한 자세한 설명을 제공한다. XAI는 모델이 정확할 뿐만 아니라 이해하기 쉽도록 보장하여 신뢰를 조성하고 이해관계자가 모델 결과를 기반으로 정보에 입각한 결정을 내릴 수 있도록 하는 것이다.

머신러닝 방법론

지도 학습에는 분류 및 회귀 작업이 모두 포함됩니다. 분류에는 이메일이 스팸인지 여부를 판단하는 등 개별 레이블을 예측하는 작업이 포함되는 반면, 회귀에는 다양한 특성을 기반으로 주택 가격을 추정하는 등 연속 값을 예측한다. 기술은 단순한 선형 모델부터 복잡한 신경망까지 다양하며, 각각은 다양한 유형의 데이터와 문제의 복잡성에 적합합니다. 다중 클래스 분류는 이진 분류를 3개 이상의 클래스가 있는 시나리오로 확장하고 다중 라벨 분류는 인스턴스당 여러 라벨을 허용하여 더 미묘한 예측을 가능하게 한다.

비지도 학습

주로 클러스터링 및 차원 축소가 포함된다.  k-평균과 같은 클러스터링 알고리즘은 유사성을 기준으로 데이터를 별개의 그룹으로 분할하는 반면, 계층적 클러스터링은 보다 상세한 계층 구조를 위해 중첩 클러스터를 구축한다. DBSCAN과 같은 밀도 기반 클러스터링 방법은 데이터 밀도를 기반으로 클러스터를 식별하여 노이즈를 효과적으로 처리하고 임의 모양의 클러스터를 검색한다. PCA 및 t-SNE와 같은 차원성 감소 기술은 특징 수를 줄이고 시각화를 촉진하며 상당한 정보 손실 없이 계산 효율성을 향상시켜 데이터를 단순화한다.

반지도 및 자기 지도 학습

레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 활용하여 지도 학습과 비지도 학습 간의 격차를 해소한다. 반지도 학습은 의사 라벨링 및 일관성 정규화와 같은 방법을 사용하여 라벨이 지정되지 않은 데이터를 활용함으로써 라벨이 지정된 데이터가 부족한 경우 모델 성능을 향상시킨다. 자기 지도 학습을 통해 모델은 데이터에서 자체 감독 신호를 생성할 수 있으므로 수동으로 라벨을 지정하지 않고도 강력한 표현을 훈련할 수 있다. 이러한 방법론은 레이블이 지정된 데이터를 획득하는 데 비용이 많이 들거나 비현실적인 영역에서 특히 유용하게 만든다.

강화 학습

환경과 상호작용하여 일련의 결정을 내릴 수 있도록 에이전트를 훈련시키는 것이다. 에이전트는 작업을 수행하고 보상이나 처벌의 형태로 피드백을 받아 목표를 달성하는 방법을 학습하며, 핵심 구성 요소에는 에이전트, 환경, 상태, 작업 및 보상이 포함된다. Q-Learning, SARSA(State-Action-Reward-State-Action) 및 Deep Q-Networks(DQN)과 같은 주요 알고리즘을 통해 에이전트는 탐색 및 활용을 통해 최적의 정책을 학습할 수 있으며,  정책 변화도 및 행위자 평가 방법은 정책을 직접 최적화하거나 보다 효율적인 학습을 위해 가치 기반 및 정책 기반 접근 방식을 결합하는 고급 기술을 나타낸다.