상위 질문
타임라인
채팅
관점
추론 언어 모델
위키백과, 무료 백과사전
Remove ads
추론 언어 모델(Reasoning language model, RLM)은 여러 단계의 추론이 필요한 작업을 해결하도록 추가로 훈련된 대형 언어 모델이다.[1] 이러한 모델은 표준 LLM보다 논리, 수학, 프로그래밍 작업에서 더 나은 성능을 보이는 경향이 있으며, 이전 단계를 재방문하고 수정할 수 있고, 훈련 예제 수, 매개변수, 훈련 연산량과 함께 성능을 확장하는 또 다른 방법으로 답변 중 추가 연산을 활용한다.[2]
개요
추론 언어 모델은 답을 내기 전에 내부적으로 사고 과정을 전개하거나 다수의 후보 해법을 생성·비교한다. 이는 (1) 사고 사슬(Chain‑of‑Thought) 등 프롬프트·디코딩 기법, (2) 질의마다 더 많은 계산을 투입하는 테스트 시점 계산 스케일링(샘플 수·사고 길이·탐색 폭 조정), (3) 과정 보상 모델(PRM)과 결과 보상 모델(ORM), 강화 학습 등 학습 방법으로 구현된다.[2] 또한 엔지니어링 맥락에서 쓰는 인퍼런스(inference)(모델 서빙·실행)와 구분하여, 리저닝(reasoning)은 문제 분해·중간 단계 생성·자기 검증을 포함하는 인지적 과정을 가리킨다.[2]
역사
요약
관점
2024
2024년 9월, 오픈AI는 향상된 추론 기능을 갖춘 LLM인 o1-preview를 출시했다.[3] 전체 버전인 o1은 2024년 12월에 출시되었다. 오픈AI는 또한 후속 모델인 o3에 대한 결과도 공유하기 시작했다.[4][5][6]
추론 LLM의 개발은 리치 서튼이 "씁쓸한 교훈"이라고 부른 것을 보여주었다. 즉, 연산량 확장이 특정 인간 통찰력에 의존하는 방법보다 종종 더 나은 성능을 발휘한다는 것이다.[7] 예를 들어, 생성 AI 연구소(GAIR)는 o1의 기능을 재현하기 위해 트리 탐색 및 강화 학습과 같은 복잡한 방법을 탐구했다. "o1 복제 여정" 논문에서 그들은 지식 증류(o1의 출력을 모방하도록 더 작은 모델을 훈련하는 것)가 놀랍게도 잘 작동했다고 보고했다. 이는 이 맥락에서 증류의 효과를 강조했다.[8][9]
알리바바는 2024년 11월에 Qwen LLM의 추론 버전을 출시했다.[10] 2024년 12월에 팀은 실험적인 시각 추론 모델인 QvQ-72B-Preview를 선보였다.[11]
2024년 12월, 구글은 여러 단계의 연구 작업을 수행하는 기능인 제미나이에 심층 연구를 도입했다.[12][13]
2024년 12월 16일, 라마 3B 모델을 사용한 실험에서 테스트 시간 연산을 확장함으로써 비교적 작은 모델이 어려운 추론 작업에서 훨씬 큰 라마 70B 모델보다 더 나은 성능을 보인다는 것이 나타났다. 이는 더 나은 추론 전략이 작은 모델에서도 유용한 추론 기능을 발휘할 수 있음을 시사했다.[14][15]
2025
2025년 1월, 딥시크는 더 낮은 비용으로 o1과 비슷한 성능을 가진 모델인 R1을 출시했다. 이 출시는 Group Relative Policy Optimization (GRPO)의 효과를 입증했다.[16][17] 2025년 1월 25일, 딥시크는 딥시크 R1에 모델이 추론하면서 웹을 검색할 수 있는 기능을 추가하여 검색과 추론을 더 쉽게 결합할 수 있게 했다.[18] 오픈AI는 이후 o3-mini를 출시했으며, o3를 기반으로 하는 심층 연구를 출시했다.[19] s1-32B는 예산 강제 및 스케일링 방법으로 강력한 성능을 달성하여 증류의 효과를 다시 한번 입증했다.[20][9]
2025년 2월 2일, 오픈AI는 심층 연구를 출시했다.[21] 이 도구는 추론과 웹 검색을 하나의 워크플로우로 통합하여 사용자가 여러 단계와 소스가 필요한 복잡한 연구를 수행할 수 있도록 한다. 이는 o3를 기반으로 하며 포괄적인 보고서를 생성하는 데 5분에서 30분이 걸릴 수 있다.[21]
Remove ads
지도 미세 조정
대형 언어 모델(LLM)은 예제 솔루션 및 단계별 (추론) 추적과 쌍을 이루는 추론 작업 데이터 세트에서 미세 조정될 수 있다. 그런 다음 미세 조정된 모델은 새로운 문제에 대해 자체 추론 추적을 생성할 수 있다.[22][23]
사람이 작성한 추적은 수집하는 데 비용이 많이 들기 때문에 연구자들은 이러한 데이터 세트를 자동으로 구축하는 방법을 제안했다. 거부 샘플링 미세 조정(RFT)에서 새로운 추론 추적은 반복적으로 수집된다.[24]
- 태스크 프롬프트를 샘플링한다.
- 프롬프트에 대한 많은 추론 추적을 생성한다.
- 검증기를 사용하여 잘못된 최종 답변이 있는 추론 추적을 제거하고, 선택적으로 중복을 제거한다.
강화 학습
요약
관점
사전 훈련된 언어 모델은 RL로 추가 훈련될 수 있다. RL 형식론에서 생성 언어 모델은 정책 이다. 태스크 프롬프트는 환경적 상태 이고, 모델의 응답은 액션 이다. 모델이 에 대해 로 응답할 확률은 이다.
RL로 추론 언어 모델을 훈련한다는 것은 RL 프로세스를 안내할 보상 모델 을 구축하는 것을 의미한다. 직관적으로, 보상은 응답이 프롬프트에 얼마나 좋은지를 나타낸다. 추론 작업의 경우, 응답이 작업을 해결하면 보상이 높고, 그렇지 않으면 낮다.
응답 는 과 같이 여러 단계로 나눌 수 있다.
최근 대부분의 시스템은 근접 정책 최적화(PPO)와 같은 정책-경사 방법을 사용하는데, PPO는 각 정책 업데이트를 잘린 목적 함수로 제한하여 매우 큰 정책의 훈련을 안정화하기 때문이다.[25]
결과 보상 모델
결과 보상 모델 또는 결과-감독 RM (ORM)[22]은 최종 답변을 기반으로 단계 에 대한 보상을 제공한다: . 이러한 모델은 종종 "검증자"라고 불린다.
수학 문제와 같이 답변을 쉽게 확인할 수 있는 작업의 경우 결과 보상은 이진적일 수 있다: 최종 답변이 맞으면 1, 그렇지 않으면 0이다.[22] 자동 확인이 어려운 경우, 사람이 답변을 맞는지 틀리는지 레이블링할 수 있으며, 이러한 레이블은 사람의 레이블을 예측하는 기본 모델을 미세 조정하는 데 사용될 수 있다.[23] 품질이 단순히 참 또는 거짓이 아닌 창작 글쓰기와 같은 작업의 경우, 인간 피드백을 통한 강화 학습에서와 같이 인간 순위 선호도 데이터를 기반으로 보상 모델을 훈련할 수 있다.[26] 기본 모델은 부분적인 사고 추적 에서 최종 답변이 맞을지 예측하도록 미세 조정될 수 있으며, 이 예측은 이진 보상으로 사용될 수 있다.[22]
ORM은 일반적으로 로지스틱 회귀를 사용하여 훈련된다. 즉, 교차 엔트로피 손실을 최소화한다.[27]
PRM이 주어졌을 때, ORM은 추론 추적 중 총 프로세스 보상을 곱하거나,[26] 최소값을 취하거나,[27] 또는 프로세스 보상을 집계하는 다른 방법을 통해 구성될 수 있다. 딥시크는 간단한 ORM을 사용하여 R1 모델을 훈련했다.[17]
프로세스 보상 모델
프로세스 보상 모델 또는 프로세스-감독 RM (PRM)[22]은 현재까지의 단계인 만을 기반으로 단계 에 대한 보상을 제공한다.
부분적인 사고 추적 이 주어졌을 때, 사람은 최종 답변을 보지 않고도 현재까지의 단계가 올바른지 판단할 수 있다. 이는 이진 보상을 생성한다. 인간 레이블은 비용이 많이 들기 때문에, 기본 모델을 미세 조정하여 이를 예측할 수 있다.[22] PRM은 일반적으로 인간 레이블에 대한 로지스틱 회귀로 훈련된다. 즉, 실제 레이블과 예측된 레이블 간의 교차 엔트로피 손실을 최소화한다.[27]
예를 들어, 2023년 오픈AI 논문은 7만 5천 개의 사고 추적에 대해 80만 개의 프로세스 레이블을 수집했다. 레이블러는 추적을 보고 각 단계를 솔루션을 향해 나아가면 "긍정적", 틀리지 않지만 도움이 되지 않으면 "중립적", 실수이면 "부정적"으로 표시했다. 첫 "부정적" 레이블이 나오면 레이블러는 해당 추적을 중단하고 다른 추적으로 넘어갔다. 저자들은 나중 단계에 레이블링하는 것이 더 풍부한 신호를 줄 수 있지만, 첫 번째 오류까지 레이블링하는 것으로도 유능한 PRM을 훈련하기에 충분하다고 주장했다.[26][28]
인간 레이블을 피하기 위해 연구자들은 프로세스에 인간 레이블 없이 PRM을 생성하는 방법을 제안했다. 몬테카를로 트리 탐색(MCTS)에서 영감을 받아 Math-Shepherd 방법은 각 추론 단계 에서 시작하여 끝까지 여러 계속을 샘플링하고, 해당 단계에서의 보상을 "소프트 추정"의 경우 또는 "하드 추정"의 경우 로 설정한다. 이는 ORM으로부터 프로세스 보상을 생성하며, 이는 종종 더 쉽거나 저렴하게 구성할 수 있다. 그런 다음 이러한 레이블을 기반으로 PRM을 훈련할 수 있다.[27] 일부 연구에서는 완전한 MCTS 접근 방식을 시도했다.[29]
ORM을 사용하여 직접 선호 최적화와 유사하게 PRM을 암묵적으로 구성할 수도 있다.[30]
안내 샘플링
훈련된 ORM은 최적의 응답을 선택하는 데 사용될 수 있다. 정책은 여러 응답을 생성하고 ORM이 최적의 응답을 선택한다. 이는 테스트 시간 연산 확장의 간단한 형태("Best-of-N")를 구현한다.[23] [31]
훈련된 PRM은 탐욕적인 트리 탐색을 통해 추론을 안내할 수 있다. 정책은 여러 다음 단계를 제안하고 PRM이 하나를 선택하며 이 과정이 반복된다. 이는 전체 응답을 선택하기 위해 ORM을 사용하는 것과 유사하다.[32] 빔 탐색은 탐욕적 탐색보다 성능이 좋다.
선행 탐색은 또 다른 트리 탐색 방법이다. 정책은 몇 가지 다음 단계를 제안한 다음 각 단계에 대해 짧은 롤아웃을 수행한다. 롤아웃 중에 솔루션이 발견되면 탐색이 조기에 중지된다. 그렇지 않으면 PRM이 각 롤아웃의 점수를 매기고 가장 높은 점수를 받은 단계가 선택된다.[15]
자기 일관성은 ORM과 결합될 수 있다. 모델은 여러 답변을 생성하고, 각 클러스터가 동일한 최종 답변을 갖도록 답변이 클러스터링된다. ORM은 각 답변의 점수를 매기고, 각 클러스터의 점수가 합산되며, 가장 높은 점수를 받은 클러스터의 답변이 반환된다.[27]
Remove ads
벤치마크
추론 모델은 일반적으로 비추론 모델보다 많은 벤치마크, 특히 다단계 추론이 필요한 작업에서 더 높은 점수를 받는다.
일부 벤치마크는 추론 모델의 응답 시간이 더 길고 비용이 더 많이 들기 때문에 추론 모델을 제외한다.[33][34][35][36]
인류의 마지막 시험
HLE 벤치마크는 수학, 인문학, 자연 과학 전반에 걸친 전문가 수준의 추론을 테스트하며, 모델 간의 큰 성능 격차를 보여준다. 최신 추론 모델은 HLE에서 낮은 점수를 받아 개선의 여지가 남아있다. 예를 들어, 완전 추론 모델 o3는 26.6%를 기록한 반면,[21] 경량 o3-mini-high(텍스트 전용 질문)는 13%를 기록했다.[37]
AIME
어려운 수학 경시 대회인 AIME에서 비추론 모델은 일반적으로 문제의 30% 미만을 해결한다. 추론 방법을 사용하는 모델은 50%에서 80% 사이의 점수를 받는다.[2][17][20] 오픈AI의 o1이 2024년에 보고된 결과에서 2025년 AIME 결과까지 정확도를 유지하거나 약간 향상시킨 반면, o3-mini(고)는 훨씬 낮은 비용(약 12배 저렴)으로 더 높은 정확도(80%)를 달성했다.[38]
o3-mini 성능
오픈AI의 2025년 1월 o3-mini 보고서에 따르면, "추론 노력"을 조정하는 것은 특히 STEM 작업에서 성능에 큰 영향을 미친다. 낮은 추론 노력에서 높은 추론 노력으로 이동하면 AIME 2024, GPQA Diamond, Codeforces의 정확도가 일반적으로 10-30% 증가한다. 높은 노력으로 o3-mini(고)는 AIME(MathArena AIME 벤치마크와 다름)에서 87.3%, GPQA Diamond에서 79.7%, Codeforces에서 2130 Elo, SWE-bench Verified에서 49.3을 달성했다.[38]
Remove ads
단점
계산 비용
추론 모델은 비추론 모델보다 답변하는 데 훨씬 더 많은 연산량을 필요로 하는 경우가 많다. AIME에서 이들은 비추론 모델보다 10~74배 더 비쌌다.[26]
생성 시간
추론은 응답 시간을 증가시키며, 현재 모델은 답변하는 데 몇 초에서 몇 분이 걸린다. 추론의 깊이가 증가함에 따라 미래 모델은 더 오랜 시간이 걸릴 수 있다.
모델
오픈AI
제미나이
딥시크
- R1 (V3 기반)
- R1-Lite-Preview (V2.5 기반 테스트 버전)
Qwen
- QvQ-72B-Preview — 2024년 12월 24일에 출시된 실험적인 시각 추론 모델로, 이미지 이해와 언어적 연쇄 사고 추론을 통합한다.
- QwQ-32B-Preview — 2024년 11월 말에 출시된 실험적인 텍스트 기반 추론 모델로, 복잡하고 단계별 분석을 강조한다.
앤트로픽
- 클로드 소넷 3.7은 조절 가능한 '사고' 토큰 양을 가지고 있다.
미스트랄 AI
- 매지스트랄 (중형 및 소형)
xAI
- 그록 3
- 그록 4
허깅 페이스
Remove ads
추론 전략
- 사고 사슬(CoT) — 문제 해결 과정을 자연어 단계로 전개.[41]
- 제로샷 CoT — "단계별로 생각하자" 같은 문구로 예시 없이 추론 유도.[42]
- 자기 일관성(Self-Consistency) — 다경로 샘플링 후 다수결/재랭킹으로 일관된 답 선택.[43]
- Least‑to‑Most(LtM)·계획형 프롬프트 — 쉬운 하위문제로 분해 후 순차 해결/계획‑해결.[44][45]
- Tree‑of‑Thoughts(ToT) — 분기 탐색과 백트래킹을 포함한 의사결정 탐색.[46]
- 도구·코드 외부화(PAL/PoT/Toolformer) — 계산은 인터프리터·API가 수행, 모델은 구조화·계획에 집중.[47][48][49]
- ReAct — Reason–Act를 교차하여 검색·도구 호출과 추론을 결합.[50]
- Self‑RAG — 필요 시점에만 검색하고 생성물·근거를 자기 비평으로 조정.[51]
Remove ads
테스트 시점 계산 스케일링
동일 모델에 대해 시도 횟수(샘플 수), 사고 길이, 탐색 폭을 늘리거나 검증기(ORM/PRM)·검색을 결합해 성능을 높이는 방법이다. 최적의 테스트 시점 확장이 파라미터 확장보다 효율적일 수 있음이 보고되었다.[15] 간단한 절차로 강한 성능을 달성한 s1‑32B와 budget forcing은 AIME·MATH 등에서 두드러진 결과를 보였다.[20] 또한 자기 일관성·best‑of‑N 선택은 비용‑성능 절충을 제어하는 실무적 도구로 쓰인다.[52]
사실성 및 검증
고난도 추론에서 환각과 자기 모순을 줄이기 위해 자동 평가·탐지 기법이 병행된다. 긴 생성물의 원자적 사실 단위를 평가하는 FActScore와 도구 증강 기반의 FacTool이 제안되었다.[53][54] 또한 의미적 엔트로피 등 불확실성 신호를 활용해 환각을 조기 탐지하는 통계적 방법이 보고되었다.[55]
같이 보기
각주
외부 링크
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads