상위 질문
타임라인
채팅
관점
자기상관
위키백과, 무료 백과사전
Remove ads
자기상관(영어: Autocorrelation)은 이산 시간의 경우 계열 상관(영어: serial correlation)이라고도 불리며, 신호와 그 신호가 지연된 사본 사이의 상관을 측정한다. 본질적으로, 이는 서로 다른 시점에서의 확률 변수 관측값 간의 유사성을 정량화한다. 자기상관 분석은 잡음에 의해 가려진 신호 내에서 반복되는 패턴이나 숨겨진 주기성을 식별하기 위한 수학적 도구이다. 자기상관은 신호 처리, 시간 영역 및 시계열 분석에서 시간 경과에 따른 데이터의 동작을 이해하는 데 널리 사용된다.


연구 분야마다 자기상관을 다르게 정의하며, 이러한 정의가 모두 동등하지는 않다. 일부 분야에서는 이 용어가 자기공분산과 상호 교환적으로 사용된다.
다양한 시계열 모델은 단위근 과정, 추세 정상 과정, 자기회귀 과정, 이동평균 과정과 같은 자기상관을 포함한다.
Remove ads
확률 과정의 자기상관
요약
관점
통계학에서 실수를 갖거나 복소수를 갖는 확률 과정의 자기상관은 서로 다른 시간에서의 과정 값 간의 피어슨 상관이며, 두 시간 또는 시간 지연의 함수로 나타난다. 를 확률 과정이라고 하고, 를 임의의 시점이라고 하자(는 이산 시간 과정의 경우 정수일 수 있고, 연속 시간 과정의 경우 실수일 수 있다). 그러면 는 시간 에서의 특정 실행에 의해 생성된 값(또는 관측값)이다. 과정이 각 에 대해 시간 에서 평균 와 분산 을 가진다고 가정하자. 그러면 시간 과 사이의 자기상관 함수의 정의는 다음과 같다.[1]:{{{1}}}[2]:{{{1}}}
여기서 는 기댓값 연산자이고 위 막대는 켤레 복소수를 나타낸다. 기댓값이 잘 정의된 것이 아닐 수도 있다는 점에 유의한다.
곱셈 전에 평균을 빼면 시간 과 사이의 자기공분산 함수가 산출된다.[1]:{{{1}}}[2]:{{{1}}}
이 표현식은 모든 시계열 또는 과정에 대해 잘 정의되지 않을 수 있는데, 이는 평균이 존재하지 않거나, 분산이 0(상수 과정의 경우)이거나 무한대(특정 유형의 멱법칙과 같이 잘 동작하는 모멘트가 없는 분포를 가진 과정의 경우)일 수 있기 때문이다.
광의의 정상 확률 과정에 대한 정의
가 광의의 정상 과정이라면 평균 와 분산 은 시간에 독립이며, 또한 자기공분산 함수는 과 사이의 시차에만 의존한다. 즉, 자기공분산은 값 쌍 사이의 시간 거리에만 의존하며 시간상의 위치에는 의존하지 않는다. 이는 자기공분산과 자기상관이 시간 지연의 함수로 표현될 수 있고, 이것이 지연 의 짝함수가 될 것임을 의미한다. 이것은 자기상관 함수에 대한 더 익숙한 형태를 제공한다.[1]:{{{1}}}
그리고 자기공분산 함수:
특히, 다음을 유의한다.
정규화
일부 분야(예: 통계학 및 시계열 분석)에서는 자기공분산 함수를 정규화하여 시간에 의존하는 피어슨 상관 계수를 얻는 것이 일반적이다. 그러나 다른 분야(예: 공학)에서는 일반적으로 정규화를 생략하고 "자기상관" 및 "자기공분산"이라는 용어를 상호 교환적으로 사용한다.
확률 과정의 자기상관 계수 정의는 다음과 같다.[2]:{{{1}}}
함수 가 잘 정의되면 그 값은 범위에 있어야 하며, 1은 완벽한 상관을 나타내고 -1은 완벽한 역상관을 나타낸다.
광의의 정상(WSS) 과정의 경우, 정의는 다음과 같다.
정규화는 자기상관을 상관으로 해석하는 것이 통계적 의존성 강도에 대한 척도 불변 측정을 제공한다는 점과 정규화가 추정된 자기상관의 통계적 특성에 영향을 미친다는 점에서 중요하다.
속성
대칭성 속성
자기상관 함수 가 짝함수라는 사실은 다음과 같이 표현할 수 있다.[2]:{{{1}}} 각각 WSS 과정의 경우:[2]:{{{1}}}
0에서의 최대값
WSS 과정의 경우:[2]:{{{1}}} 는 항상 실수라는 점에 유의한다.
코시-슈바르츠 부등식
코시-슈바르츠 부등식, 확률 과정에 대한 부등식:[1]:{{{1}}}
백색 잡음의 자기상관
연속 시간 백색 잡음 신호의 자기상관은 에서 강한 피크(주로 디랙 델타 함수로 표현됨)를 가지며, 다른 모든 에 대해서는 정확히 이 된다.
위너-힌친 정리
위너-힌친 정리는 자기상관 함수 와 전력 스펙트럼 밀도 를 푸리에 변환을 통해 연결한다.
실수 값 함수에 대해 대칭 자기상관 함수는 실수 대칭 변환을 가지므로, 위너-힌친 정리는 실수 코사인만으로 재표현될 수 있다.
Remove ads
확률 벡터의 자기상관
요약
관점
(잠재적으로 시간에 의존하는) 확률 벡터 의 (잠재적으로 시간에 의존하는) 자기상관 행렬(두 번째 모멘트라고도 함)은 확률 벡터 의 모든 요소 쌍의 자기상관을 요소로 포함하는 행렬이다. 자기상관 행렬은 다양한 디지털 신호 처리 알고리즘에 사용된다.
기댓값과 분산이 존재하는 확률 요소를 포함하는 확률 벡터 에 대해 자기상관 행렬은 다음과 같이 정의된다.[3]:{{{1}}}[1]:{{{1}}}
여기서 는 크기의 전치 행렬을 나타낸다.
구성 요소별로 작성:
가 복소 확률 벡터인 경우, 자기상관 행렬은 대신 다음과 같이 정의된다.
여기서 는 에르미트 전치를 나타낸다.
예를 들어, 가 확률 벡터이면 는 -번째 원소가 인 행렬이다.
자기상관 행렬의 속성
Remove ads
결정론적 신호의 자기상관
요약
관점
신호 처리에서 위 정의는 종종 정규화 없이, 즉 평균을 빼거나 분산으로 나누지 않고 사용된다. 자기상관 함수가 평균과 분산으로 정규화되면 때로는 자기상관 계수[4] 또는 자기공분산 함수라고 불린다.
연속 시간 신호의 자기상관
신호 가 주어졌을 때, 연속 자기상관 는 대부분 자체와의 연속 교차상관 적분으로, 지연 로 정의된다.[1]:{{{1}}}
여기서 는 의 켤레 복소수를 나타낸다. 적분 내의 매개변수 는 더미 변수이며 적분을 계산하는 데만 필요하다는 점에 유의한다. 특정 의미는 없다.
이산 시간 신호의 자기상관
이산 시간 신호 에 대한 지연 에서의 이산 자기상관 은 다음과 같다.
위 정의는 제곱 적분 가능하거나 제곱 합산 가능, 즉 유한 에너지를 가진 신호에 적용된다. "영원히 지속되는" 신호는 대신 확률 과정으로 취급되며, 이 경우 기댓값을 기반으로 다른 정의가 필요하다. 광의의 정상 확률 과정의 경우, 자기상관은 다음과 같이 정의된다.
정상 과정이 아닌 과정의 경우, 이들은 또는 의 함수가 된다.
또한 에르고딕 과정의 경우, 기댓값은 시간 평균의 극한으로 대체될 수 있다. 에르고딕 과정의 자기상관은 때때로 다음과 같이 정의되거나 동일시된다.[4]
이러한 정의는 함수가 정상 에르고딕 과정의 출력이 아니더라도 주기 함수에 대해 합리적이고 잘 정의된 단일 매개변수 결과를 제공한다는 장점이 있다.
또는, 영원히 지속되는 신호는 유한 시간 적분을 사용하는 단시간 자기상관 함수 분석으로 처리할 수 있다. (관련 과정은 단시간 푸리에 변환을 참조한다.)
주기 신호에 대한 정의
가 주기 를 가진 연속 주기 함수인 경우, 에서 까지의 적분은 길이 인 임의의 구간 에 대한 적분으로 대체된다.
이는 다음와 동등하다.
속성
다음에서는 1차원 자기상관의 속성만 설명할 것인데, 대부분의 속성은 1차원 경우에서 다차원 경우로 쉽게 전이되기 때문이다. 이러한 속성은 광의의 정상 과정에 적용된다.[5]
- 자기상관의 근본적인 속성은 대칭성, 즉 이며, 이는 정의로부터 쉽게 증명할 수 있다. 연속적인 경우,
- 연속 자기상관 함수는 원점에서 최댓값에 도달하며, 이 지점에서는 실수 값을 갖는다. 즉, 모든 지연 에 대해 이다.[1]:{{{1}}} 이는 재배열 부등식의 결과이다. 동일한 결과는 이산적인 경우에도 적용된다.
- 주기함수의 자기상관은 그 자체로 동일한 주기를 가진 주기 함수이다.
- 완전히 상관 없는 두 함수(모든 에 대해 교차상관이 0)의 합의 자기상관은 각 함수의 자기상관의 합이다.
- 자기상관은 특정 유형의 교차상관이므로 교차상관의 모든 속성을 유지한다.
- 기호 를 합성곱을 나타내고 을 함수 를 조작하고 로 정의되는 함수라고 하면, 의 정의는 다음과 같이 쓸 수 있다.
Remove ads
다차원 자기상관
다차원 자기상관도 유사하게 정의된다. 예를 들어, 3차원 공간에서 제곱 합산 가능한 이산 신호의 자기상관은 다음과 같다.
자기상관 함수를 계산하기 전에 신호에서 평균값을 빼면, 그 결과 함수는 일반적으로 자기공분산 함수라고 불린다.
Remove ads
효율적인 계산
요약
관점
이산 시퀀스로 표현된 데이터의 경우, 자기상관을 높은 계산 효율성으로 계산해야 하는 경우가 많다. 신호 처리 정의 에 기반한 무차별 대입법은 신호 크기가 작을 때 사용할 수 있다. 예를 들어, 실수 신호 시퀀스 (즉, , 그리고 다른 모든 i 값에 대해 )의 자기상관을 손으로 계산하려면, 주어진 정의가 "일반적인" 곱셈과 동일하지만, 오른쪽 시프트가 있으며, 각 세로 덧셈이 특정 지연 값에 대한 자기상관을 제공한다는 것을 먼저 인식해야 한다.
따라서 필요한 자기상관 시퀀스는 이며, 여기서 그리고 다른 지연 값에 대한 자기상관은 0이다. 이 계산에서 우리는 일반적인 곱셈에서처럼 덧셈 중 올림 연산을 수행하지 않는다. 자기상관의 내재된 대칭성을 활용하여 필요한 연산 수를 절반으로 줄일 수 있다는 점에 유의한다. 만약 신호가 주기적이라면, 즉 이라면, 우리는 이전 자기상관 시퀀스의 왼쪽과 오른쪽 꼬리가 겹쳐져 를 생성하는 원형 자기상관( 원형 합성곱과 유사)을 얻게 되는데, 이는 신호 시퀀스 와 동일한 주기를 갖는다. 이 절차는 이산 신호의 Z변환의 합성곱 속성을 적용한 것으로 볼 수 있다.
무차별 대입 알고리즘은 차수 n2이지만, n log(n) 차수로 자기상관을 계산할 수 있는 여러 효율적인 알고리즘이 존재한다. 예를 들어, 위너-힌친 정리는 두 번의 고속 푸리에 변환 (FFT)을 사용하여 원본 데이터 X(t)에서 자기상관을 계산할 수 있게 한다.[6]
여기서 IFFT는 역 고속 푸리에 변환을 나타낸다. 별표는 켤레 복소수를 나타낸다.
또는, 다중 τ 상관은 낮은 τ 값에 대해 무차별 대입 계산을 수행한 다음, 로그 밀도로 X(t) 데이터를 점진적으로 묶어 더 높은 값을 계산함으로써 동일한 n log(n) 효율성을 얻지만, 메모리 요구 사항은 더 낮아진다.[7][8]
Remove ads
추정
평균과 분산이 알려진 이산 과정에서 개의 관측치 를 관찰했을 때, 자기상관 계수의 추정치는 다음과 같이 얻을 수 있다.
모든 양의 정수 에 대해. 실제 평균 와 분산 이 알려져 있을 때, 이 추정치는 불편 추정량이다. 과정의 실제 평균과 분산이 알려져 있지 않은 경우 몇 가지 가능성이 있다.
- 와 이 표본 평균과 표본 분산의 표준 공식으로 대체되면, 이는 편향 추정량이다.
- 주기ogram 기반 추정치는 위 공식의 를 으로 대체한다. 이 추정치는 항상 편향적이지만, 일반적으로 더 작은 평균 제곱 오차를 가진다.[9][10]
- 다른 가능성들은 데이터의 두 부분 와 를 별도로 취급하고, 추정치를 정의하는 데 사용할 별도의 표본 평균 및 표본 분산을 계산하는 것에서 파생된다.
마지막 유형의 추정치들의 장점은 의 함수로서 추정된 자기상관 세트가 정확히 그 자기상관을 갖는 이론적 과정을 정의할 수 있다는 의미에서 유효한 자기상관 함수를 형성한다는 것이다. 다른 추정치들은 의 선형 조합의 분산을 계산하는 데 사용될 경우, 계산된 분산이 음수가 될 수 있다는 문제점을 가질 수 있다.[11]
Remove ads
회귀 분석
요약
관점
시계열 데이터를 사용하는 회귀 분석에서는 관심 변수의 자기상관이 일반적으로 자기회귀모형 (AR), 이동평균 모델 (MA), 이들의 조합인 자기회귀-이동평균 모델 (ARMA), 또는 후자의 확장인 자기회귀 누적 이동평균 모델 (ARIMA)로 모델링된다. 여러 상호 관련 데이터 계열의 경우 벡터자기회귀모형 (VAR) 또는 그 확장이 사용된다.
정규방정식 (OLS)에서 모델 사양의 적절성은 부분적으로 회귀 잔차의 자기상관이 있는지 여부를 확인하여 점검할 수 있다. 관찰되지 않는 오차의 문제적 자기상관은 일반적으로 관찰 가능한 잔차에서 자기상관을 생성하므로 감지할 수 있다. (오차는 계량경제학에서 "오차 항"으로도 알려져 있다.) 오차의 자기상관은 오차 항이 상관 없다는 정규방정식 가정을 위반하며, 이는 가우스-마르코프 정리가 적용되지 않고 OLS 추정량이 더 이상 최량 선형 불편 추정량(BLUE)이 아님을 의미한다. OLS 계수 추정량을 편향시키지는 않지만, 낮은 지연에서 오차의 자기상관이 양수일 때 표준 오차는 과소평가되는 경향이 있다 (그리고 t-점수는 과대평가된다).
1차 자기상관 존재에 대한 전통적인 검정은 더빈-왓슨 통계량이거나, 설명 변수에 지연된 종속 변수가 포함된 경우 더빈의 h 통계량이다. 그러나 더빈-왓슨은 값과 그 지연 사이의 피어슨 상관으로 선형적으로 매핑될 수 있다.[12] 더 높은 차수의 자기상관을 다루고, 회귀 변수에 종속 변수의 지연이 포함되는지 여부에 관계없이 적용 가능한 더 유연한 검정은 브뢰슈-갓프리 검정이다. 이 검정은 보조 회귀를 포함하는데, 여기서 관심 모델을 추정하여 얻은 잔차를 (a) 원래 회귀 변수와 (b) 잔차의 k개 지연(여기서 'k'는 검정의 차수)에 대해 회귀한다. 이 보조 회귀에서 검정통계량의 가장 간단한 버전은 TR2인데, 여기서 T는 표본 크기이고 R2는 결정계수이다. 자기상관이 없다는 귀무 가설 하에서, 이 통계량은 k 자유도를 가진 카이제곱 분포 로 점근적으로 분포한다.
0이 아닌 자기상관에 대한 대응책에는 일반화 최소제곱과 뉴웨이-웨스트 HAC 추정량 (이분산성 및 자기상관 일관성)이 포함된다.[13]
이동평균 모델 (MA)의 추정에서 자기상관 함수는 포함될 지연 오차 항의 적절한 수를 결정하는 데 사용된다. 이는 q차 MA 과정의 경우 에 대해 이고, 에 대해 이라는 사실에 기반한다.
Remove ads
응용
요약
관점
자기상관이 자료에서 반복되는 패턴을 찾는 능력은 다음과 같은 많은 응용 분야를 낳는다.
- 자기상관 분석은 형광 상관 분광학에서 분자 수준의 확산 및 화학 반응에 대한 정량적 통찰력을 제공하는 데 많이 사용된다.[14][15]
- 자기상관의 또 다른 응용은 광학 스펙트럼 측정과 레이저에 의해 생성되는 매우 짧은 지속 시간의 빛 극초단 펄스 측정이며, 둘 다 광학 자기상관기를 사용한다.
- 자기상관은 동적 광산란 데이터를 분석하는 데 사용되며, 이는 유체에 부유된 나노미터 크기 입자 또는 미셀의 입자 크기 분포를 결정할 수 있게 한다. 혼합물에 레이저를 비추면 입자의 움직임으로 인해 스페클 패턴이 생성된다. 신호의 자기상관은 입자의 확산 측면에서 분석할 수 있다. 이를 통해 유체의 점도를 알면 입자의 크기를 계산할 수 있다.
- GPS 시스템에서 위성에서 반송파 신호가 전송되는 시점과 지상 수신기에서 수신되는 시점 사이의 전달 지연 또는 시간 이동을 보정하는 데 활용된다. 이는 수신기가 1,023비트 C/A (Coarse/Acquisition) 코드의 복제 신호를 생성하고, 들어오는 위성 신호의 도플러 편이를 수용하기 위해 약간씩 이동하면서 10개씩 또는 10,230개 칩 (1,023 × 10)의 코드 칩 [-1,1] 라인을 생성하여, 수신기 복제 신호와 위성 신호 코드가 일치할 때까지 계속된다.[16]
- 나노구조 시스템의 소각 X선 산란 강도는 전자 밀도의 공간 자기상관 함수의 푸리에 변환이다.
- 표면과학 및 주사 탐침 현미경에서 자기상관은 표면 형태와 기능적 특성 사이의 연결을 설정하는 데 사용된다.[17]
- 광학에서 정규화된 자기상관과 교차상관은 전자기장의 결맞음 정도를 제공한다.
- 천문학에서 자기상관은 펄사의 진동수를 결정할 수 있다.
- 음악에서 자기상관(초 미만 시간 규모에 적용될 때)은 악기 튜너와 "오토튠"( 왜곡 효과 또는 음정 수정에 사용됨) 모두에 대한 음정 감지 알고리즘으로 사용된다.[18] 1초보다 큰 시간 규모에 적용될 때, 자기상관은 예를 들어 템포를 결정하기 위해 음악적 박자를 식별할 수 있다.
- 시간보다는 공간에서의 자기상관은 패터슨 함수를 통해 X선 회절 분석가들이 회절만으로는 얻을 수 없는 원자 위치에 대한 "푸리에 위상 정보"를 복구하는 데 도움을 준다.
- 통계학에서 표본 위치 간의 공간 자기상관은 이질적인 모집단을 표본 조사할 때 평균값 불확실성을 추정하는 데도 도움이 된다.
- 질량 스펙트럼을 분석하는 SEQUEST 알고리즘은 관찰된 스펙트럼과 펩타이드를 나타내는 이상적인 스펙트럼 간의 유사성을 점수화하기 위해 자기상관과 교차상관을 함께 사용한다.
- 천체물리학에서 자기상관은 우주의 은하의 공간 분포와 저질량 엑스선 쌍성의 다중 파장 관측을 연구하고 특성화하는 데 사용된다.
- 패널데이터에서 공간 자기상관은 공간을 통한 변수 자체와의 상관을 의미한다.
- 마르코프 연쇄 몬테카를로 데이터 분석에서는 올바른 오류 결정을 위해 자기상관을 고려해야 한다.
- 지구과학 (특히 지구물리학)에서 3D 지하 지진 탐사에서 자기상관 지진 속성을 계산하는 데 사용할 수 있다.
- 의료 초음파 영상에서는 혈류를 시각화하는 데 자기상관이 사용된다.
- 기간 간 포트폴리오 선택에서 자산의 수익률에 자기상관이 존재하거나 부재하는 것은 해당 자산에 보유할 포트폴리오의 최적 부분에 영향을 미칠 수 있다.
- 수치 릴레이에서 자기상관은 전력 시스템 주파수를 정확하게 측정하는 데 사용되었다.[19]
Remove ads
계열 의존성
계열 의존성은 자기상관 개념과 밀접하게 관련되어 있지만, 별개의 개념을 나타낸다 ( 상관 분석과 의존성 참조). 특히, 계열 의존성이 있지만 (선형) 상관이 없을 수도 있다. 그러나 일부 분야에서는 두 용어가 동의어로 사용된다.
확률 변수의 시계열은 계열에서 어떤 시간 의 값이 다른 시간 의 값에 통계적으로 의존하는 경우 계열 의존성을 갖는다. 계열은 어떤 쌍 사이에도 의존성이 없는 경우 계열 독립적이다.
시계열 가 정상이면, 쌍 사이의 통계적 의존성은 동일한 지연 에서 모든 값 쌍 사이에 통계적 의존성이 있음을 의미한다.
같이 보기
각주
추가 자료
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads
