PCA란 무엇인가
주성분 분석(PCA)은 포함된 데이터 세트를 주성분으로 끌어들이는 관계가 없는 모여서 변환하는 데 사용되는 공유하는 방식이다. PCA는 여러 가지 특징을 가지고 있는데 , PCA를 통해 비용 절감을 할 수 있으며, 주성분은 직교적이어서 개별적으로 데이터를 주고받는 측면을 강조합니다. 또한 후반의 각 주성분은 직교성 있게 하에 지원되는 최대 방향성을 잡아낼 수 있다. PCA는 데이터 분석 및 머신 러닝에 있어 유용한 도구가 되는 수많은 이점을 제공하는데, 주요 장점은 하나의 설명으로는 감소하는 효과를 얻으려고 노력하는 수 있는 데이터 세트를 만족시키는 것이다. 이 때문에 더 많은 비용이 소요되는 고차원 데이터가 희소되기 때문에 분석하기가 어려워지는 현상이 있다. 실제 데이터 세트와 별개로 변경된 내용은 의미 있는 패턴이 있을 수 있으며, 대부분의 방향을 포착하는 주 성분에 초점을 맞추는 방향으로 걸러내 신호 대비를 끌어내린다. 그의 직업적인 애국심 또는 기계 러닝 모델의 성능과 매력을 개선할 수 있는 더 나은 데이터 수집이 생성할 수 있게 하는 것이다. PCA의 첫 번째 단계는 데이터를 침해하여 각 피처가 분석에 포함시키도록 하는 것이다. 이는 효과를 발휘하는 데 민감하기 때문이며, 척도가 더 큰 피처는 주성분을 지배하여 편향된 결과를 낳을 수 있다. 대중은 일반적으로 각 피처의 평균이 0이고 표준적인 태도가 1이 구별 데이터를 변환하는 것을 포함하며, 종종 z-점수 정규화를 통해 정확한 내용을 제공한다.
PCA의 정보 기초
PCA의 기능을 선택하는 방법을 기반으로 하는 작업이다. PCA는 내부적으로 대수와 다변량 통계에 대해 줄기를 두고 있으며, 공분산, 고유 벡터, 고윳값과 동일한 개념에 의존한다. 분산 형은 단일 클러스터의 확산을 측정하여 개별 데이터 포인트가 평균에서 분산되는 것이다. 반면에 공분산 은 두 활동이 함께 변하는 정도를 측정하며, 양의 공분산은 한 활동이 증가하면 다른 반응도 증가시키는 경향이 있음을 의미하고 음의 공분산은 역의 관계를 나타낸다. 수학적 표현을 표현하자면, XxX와 Y와이 Y라는 의미로 선택된 데이터 세트의 경우 공분산은 다음과 같이 추출된다.
Cov(X, Y)=1n−1∑i=1n(Xi−X‾)(Yi−Y‾)\text {Cov}(X, Y) = \frac {1}{n-1 } \sum_{ i=1}^{n} (X_i - \overline {X})(Y_i - \overline {Y})Cov(X, Y)=n−11 i=1∑n (Xi −X)(Yi −Y)
여기서 nNn은 관측치 수이고 X‾\오버라인{X}X 및 Y‾\오버라인{Y} Y는 각각 XxX 및 Y이 Y의 평균이다.
PCA 고유에서 분리 와 고윳값 은 주성분의 방향과 크기를 결정하는 데 중요한 역할을 하는데, 원거리 변환은 방향이 아닌 크기로 변경되는 0이 아닌 벡터이다. PCA의 행렬에서 공분산의 고유한 이해는 데이터의 최대 방향을 벗어나게 된다. 이 스칼라는 각 고유의 목적을 받아들이지 않고 크기를 종료하며, 고윳값이 높아지는 것을 이해하기 위해 관계자의 더 중요한 부분을 포착한다는 의미 한다. 직교성 및 타일관 구성요소로는 PCA의 주요 강점 중 하나는 직교 (수직) 주성분을 생성할 수 있는 능력이며, 직교성은 각 주요 구성 요소가 다른 구성 요소와 성공하지 못하는 관계에 있으며 , 이러한 공유성을 제거하고 데이터 구조를 구성한다.
머신러닝에서 PCA
PCA는 사전 처리 단계와 검사적 데이터 분석 도구로서 머신 러닝에서 중요한 역할을 한다. 머신 러닝 플로어를 통합하면 모델의 성능을 향상시킬 수 있고, 비용 절감 효과가 있으며, 더 나은 데이터 이해를 촉진할 수 있다. 제외된 주성분이 예상 작업에 필요한 정보만 충분히 발견되는지 확인하고, 변형된 특징은 모델의 해석을 크게 만들 수 있다. 또한 지정된 수의 주성분으로 축소하며, 변환된 데이터를 기계 학습 모델(예: 로지스틱 독점, 지원 벡터 머신)을 통해 사용한다. 그리고 클러스터링과 동일한 비지도 학습 작업에서 PCA는 데이터 구조를 개선하고 주요 패턴을 개선하여 성능을 개선할 수 있다. 공간을 사용하여 학습하고 예측 단계에서 운동 속도를 낼 수 있으며, 성능 비교 내에서 더 큰 데이터 세트를 처리할 수 있다. 수백만 개의 발코니가 있는 이미지 데이터에서 딥 러닝 모델을 훈련하는 것은 집중적으로 금지될 수 있다. 데이터를 모델에 공급하기 전에 PCA를 적용하여 비용을 줄이려면 자신에게 영향을 미치도록 훈련 프로세스를 단순화할 수 있도록 하는 것이다.
PCA 사용 우수 우수 및 추천 사항
PCA를 적용하기 전에 탐색적 데이터 분석(EDA)을 수행하여 데이터 세트의 구조, 군, 관계를 이해한다. 산점도, 히스토그램, 상자 그림을 사용하여 데이터 군을 찾으려고 노력하는 것이 가장 이상적이며, PCA가 보관 유지될 수 있는 성공적인 관계에 대해 검토한다. 왜곡을 방지하기 위해 교체하거나 제거를 통해 반환된 데이터를 처리할수 있으며, 이상화 현상 및 처리를 통해 주 성분이 왜곡되는 것을 방지한다. 적절한 수의 주성분을 선택하는 것은 작은 감소와 정보의 반대를 맞추는 데에만 있다. 결국 PCA는 데이터 분석가, 통계학자, 머신 러닝의 갑옷에서 기본 도구로 자리잡은 것이며, 확장하고 고차원의 데이터를 의미하고 저 차원의 표현으로 움직이는 능력은 사용자에게 이해력이 있고, 효율적이고 효율적이기를 가능하게 ㅎ한다. PCA는 변경사항을 검토하기 위해 정보의 큰 손실 없이 데이터를 이용하며, 주성분은 가장 큰 선택을 받아들이고 받아들이는 입장을 강조한다. PCA를 마스터하면 결합된 데이터 세트를 탐색하고 단순화할 수 있는 능력을 보유하게 되어 더 깊은 통찰력과 더 효율적인 머신 러닝 모델을 변형하는 길을 움직일 수 있게 만들어 주며, 데이터의 양과 연결이 계속 증가함에 따라 고차원적인 정보를 이해하는 데 있어 PCA의 역할은 그 어느 때보다 중요하다. 또한 압축기, 가발 모형, 관계식 또는 기타 데이터 집약적 범위에 사용되는 PCA는 우리의 이해를 유도하는 숨겨진 패턴을 발견하기 쉽게 보호할 수 있는 이미지를 제공한다.