상위 질문
타임라인
채팅
관점
잠재 지식
위키백과, 무료 백과사전
Remove ads
잠재 지식(영어: latent knowledge)은 대형 언어 모델)의 임베딩·활성 등 파라미터와 잠재 표현 속에 직접 관찰되지 않는 형태로 내재된 사실·개념 정보를 가리키는 용어이다. 이 개념은 LLM이 학습 데이터로부터 형성한 내부 표현을 바탕으로, 모델이 출력으로 표명하는 내용과는 독립적으로 무엇을 알고 있는지를 계량·복원하려는 연구 맥락에서 사용된다.[1][2] 학계·업계에서 통일된 표준 정의가 확정된 개념은 아니나, 무감독(latent) 추정, 대비쌍 프로빙, 희소 오토인코더(SAE) 기반의 해석가능성 연구 등에서 공통적으로 쓰인다.[3][4]
개요
잠재 지식은 LLM의 내부 활성 공간에서 특정 사실·개념이 재현 가능하고 일관된 패턴(방향·피처)으로 표현된다는 가설에 기초한다. 연구자들은 (1) 출력 텍스트를 신뢰하지 않는 상황에서도 내부 표현만으로 참·거짓 신호를 복원하는 무감독 기법,[1] (2) 의도적 오류를 유발하는 컨텍스트에서도 대비쌍 프로브로 내부 지식을 판별하는 기법,[2] (3) 희소 오토인코더로 중첩(superposition)된 피처를 분해해 모노시맨틱(단의미) 피처를 지도화하는 기법 등을 통해 잠재 지식을 탐지·정량화한다.[3][4]
역사
- 2022–2023 - 발견·정식화 단계
무감독 방식으로 내부 활성에서 논리 일관성을 만족하는 방향(진술↔부정 반대성)을 찾아, 라벨이나 출력 없이도 예/아니오 지식을 회수(CCS)하는 방법이 제안되었다.[1] 동일 시기 ‘ELK’ 문제를 실증적으로 다룬 연구는 특정 키워드가 포함될 때 의도적으로 틀리게 답하도록 미세조정한 LLM(‘quirky’ LM)을 공개하고, 선형/로지스틱 대비쌍 프로브가 중간 층에서 특히 강하게 내부 지식을 보고함을 보였다.[2]
- 2023–2024 - 표현 구조의 해부
토이모델로 superposition을 정식화하고,[3] 사전학습 언어모델의 잔차 스트림·MLP 등에서 SAE로 해석 가능한 피처를 대규모로 추출하는 스케일링 결과가 발표되었다.[4]
- 2024– - 추론·안전 평가와의 연계
추론형 훈련(o1 계열 등)에서 내부 숙고를 활용해 정책 준수·자기점검을 강화하는 시스템 카드가 공개되었고, 이는 내부 표현–출력 간 정합성 관리와 안전 평가의 연계를 제도화하는 흐름으로 해석된다.[5]
Remove ads
핵심 개념
연구 방법
- 무감독 일관성 제약(Contrast-Consistent Search 등)
출력을 사용하지 않고 내부 활성에서 논리 제약(진술/부정 반대성)을 만족하는 방향을 학습하여 예/아니오 사실을 회수한다. 제로샷 대비 평균 성능 향상과 프롬프트 민감도 감소가 보고되었다.[1]
- 대비쌍 프로빙(ELK 맥락)
정상/왜곡(예: 특정 키워드 삽입) 컨텍스트를 대비쌍으로 구성해 선형/로지스틱 프로브를 학습하고, 출력과 무관하게 내부 지식의 신호를 판별한다. 중간 층에서 강한 AUROC, 어려운 문제에서도 유의한 복원률이 보고되었다.[2]
- 희소 오토인코더(SAE)·사전학습 피처 지도화
superposition으로 중첩된 피처를 희소 부호화로 분해하여 모노시맨틱 피처를 추출·라벨링한다. 대형 상용 모델(예: Claude 3 Sonnet)에서 추출된 피처 중 일부는 안전·정책 관련 신호와도 연관된다.[3][4]
Remove ads
측정 지표
위험과 한계
같이 보기
각주
참고 문헌
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads