추론 언어 모델

추론 언어 모델(Reasoning language model, RLM)은 여러 단계의 추론이 필요한 작업을 해결하도록 추가로 훈련된 대형 언어 모델이다.^[1] 이러한 모델은 표준 LLM보다 논리, 수학, 프로그래밍 작업에서 더 나은 성능을 보이는 경향이 있으며, 이전 단계를 재방문하고 수정할 수 있고, 훈련 예제 수, 매개변수, 훈련 연산량과 함께 성능을 확장하는 또 다른 방법으로 답변 중 추가 연산을 활용한다.^[2]

개요

추론 언어 모델은 답을 내기 전에 내부적으로 사고 과정을 전개하거나 다수의 후보 해법을 생성·비교한다. 이는 (1) 사고 사슬(Chain‑of‑Thought) 등 프롬프트·디코딩 기법, (2) 질의마다 더 많은 계산을 투입하는 테스트 시점 계산 스케일링(샘플 수·사고 길이·탐색 폭 조정), (3) 과정 보상 모델(PRM)과 결과 보상 모델(ORM), 강화 학습 등 학습 방법으로 구현된다.^[2] 또한 엔지니어링 맥락에서 쓰는 인퍼런스(inference)(모델 서빙·실행)와 구분하여, 리저닝(reasoning)은 문제 분해·중간 단계 생성·자기 검증을 포함하는 인지적 과정을 가리킨다.^[2]

역사

요약

관점

2024

2024년 9월, 오픈AI는 향상된 추론 기능을 갖춘 LLM인 o1-preview를 출시했다.^[3] 전체 버전인 o1은 2024년 12월에 출시되었다. 오픈AI는 또한 후속 모델인 o3에 대한 결과도 공유하기 시작했다.^[4]^[5]^[6]

추론 LLM의 개발은 리치 서튼이 "씁쓸한 교훈"이라고 부른 것을 보여주었다. 즉, 연산량 확장이 특정 인간 통찰력에 의존하는 방법보다 종종 더 나은 성능을 발휘한다는 것이다.^[7] 예를 들어, 생성 AI 연구소(GAIR)는 o1의 기능을 재현하기 위해 트리 탐색 및 강화 학습과 같은 복잡한 방법을 탐구했다. "o1 복제 여정" 논문에서 그들은 지식 증류(o1의 출력을 모방하도록 더 작은 모델을 훈련하는 것)가 놀랍게도 잘 작동했다고 보고했다. 이는 이 맥락에서 증류의 효과를 강조했다.^[8]^[9]

알리바바는 2024년 11월에 Qwen LLM의 추론 버전을 출시했다.^[10] 2024년 12월에 팀은 실험적인 시각 추론 모델인 QvQ-72B-Preview를 선보였다.^[11]

2024년 12월, 구글은 여러 단계의 연구 작업을 수행하는 기능인 제미나이에 심층 연구를 도입했다.^[12]^[13]

2024년 12월 16일, 라마 3B 모델을 사용한 실험에서 테스트 시간 연산을 확장함으로써 비교적 작은 모델이 어려운 추론 작업에서 훨씬 큰 라마 70B 모델보다 더 나은 성능을 보인다는 것이 나타났다. 이는 더 나은 추론 전략이 작은 모델에서도 유용한 추론 기능을 발휘할 수 있음을 시사했다.^[14]^[15]

2025

2025년 1월, 딥시크는 더 낮은 비용으로 o1과 비슷한 성능을 가진 모델인 R1을 출시했다. 이 출시는 Group Relative Policy Optimization (GRPO)의 효과를 입증했다.^[16]^[17] 2025년 1월 25일, 딥시크는 딥시크 R1에 모델이 추론하면서 웹을 검색할 수 있는 기능을 추가하여 검색과 추론을 더 쉽게 결합할 수 있게 했다.^[18] 오픈AI는 이후 o3-mini를 출시했으며, o3를 기반으로 하는 심층 연구를 출시했다.^[19] s1-32B는 예산 강제 및 스케일링 방법으로 강력한 성능을 달성하여 증류의 효과를 다시 한번 입증했다.^[20]^[9]

2025년 2월 2일, 오픈AI는 심층 연구를 출시했다.^[21] 이 도구는 추론과 웹 검색을 하나의 워크플로우로 통합하여 사용자가 여러 단계와 소스가 필요한 복잡한 연구를 수행할 수 있도록 한다. 이는 o3를 기반으로 하며 포괄적인 보고서를 생성하는 데 5분에서 30분이 걸릴 수 있다.^[21]

Remove ads

지도 미세 조정

대형 언어 모델(LLM)은 예제 솔루션 및 단계별 (추론) 추적과 쌍을 이루는 추론 작업 데이터 세트에서 미세 조정될 수 있다. 그런 다음 미세 조정된 모델은 새로운 문제에 대해 자체 추론 추적을 생성할 수 있다.^[22]^[23]

사람이 작성한 추적은 수집하는 데 비용이 많이 들기 때문에 연구자들은 이러한 데이터 세트를 자동으로 구축하는 방법을 제안했다. 거부 샘플링 미세 조정(RFT)에서 새로운 추론 추적은 반복적으로 수집된다.^[24]

태스크 프롬프트를 샘플링한다.
프롬프트에 대한 많은 추론 추적을 생성한다.
검증기를 사용하여 잘못된 최종 답변이 있는 추론 추적을 제거하고, 선택적으로 중복을 제거한다.

강화 학습

요약

관점

사전 훈련된 언어 모델은 RL로 추가 훈련될 수 있다. RL 형식론에서 생성 언어 모델은 정책 $\pi$ 이다. 태스크 프롬프트는 환경적 상태 $x$ 이고, 모델의 응답은 액션 $y$ 이다. 모델이 $x$ 에 대해 $y$ 로 응답할 확률은 $\pi (y|x)$ 이다.

RL로 추론 언어 모델을 훈련한다는 것은 RL 프로세스를 안내할 보상 모델 $r(x,y)$ 을 구축하는 것을 의미한다. 직관적으로, 보상은 응답이 프롬프트에 얼마나 좋은지를 나타낸다. 추론 작업의 경우, 응답이 작업을 해결하면 보상이 높고, 그렇지 않으면 낮다.

응답 $y$ 는 $y_{1},y_{2},\dots ,y_{n}$ 과 같이 여러 단계로 나눌 수 있다.

최근 대부분의 시스템은 근접 정책 최적화(PPO)와 같은 정책-경사 방법을 사용하는데, PPO는 각 정책 업데이트를 잘린 목적 함수로 제한하여 매우 큰 정책의 훈련을 안정화하기 때문이다.^[25]

결과 보상 모델

결과 보상 모델 또는 결과-감독 RM (ORM)^[22]은 최종 답변을 기반으로 단계 $r(x,y_{1},\dots ,y_{i})$ 에 대한 보상을 제공한다: $r(x,y_{1},\dots ,y_{i})=r(x,y_{n})$ . 이러한 모델은 종종 "검증자"라고 불린다.

수학 문제와 같이 답변을 쉽게 확인할 수 있는 작업의 경우 결과 보상은 이진적일 수 있다: 최종 답변이 맞으면 1, 그렇지 않으면 0이다.^[22] 자동 확인이 어려운 경우, 사람이 답변을 맞는지 틀리는지 레이블링할 수 있으며, 이러한 레이블은 사람의 레이블을 예측하는 기본 모델을 미세 조정하는 데 사용될 수 있다.^[23] 품질이 단순히 참 또는 거짓이 아닌 창작 글쓰기와 같은 작업의 경우, 인간 피드백을 통한 강화 학습에서와 같이 인간 순위 선호도 데이터를 기반으로 보상 모델을 훈련할 수 있다.^[26] 기본 모델은 부분적인 사고 추적 $x,y_{1},\dots ,y_{m}$ 에서 최종 답변이 맞을지 예측하도록 미세 조정될 수 있으며, 이 예측은 이진 보상으로 사용될 수 있다.^[22]

ORM은 일반적으로 로지스틱 회귀를 사용하여 훈련된다. 즉, 교차 엔트로피 손실을 최소화한다.^[27]

PRM이 주어졌을 때, ORM은 추론 추적 중 총 프로세스 보상을 곱하거나,^[26] 최소값을 취하거나,^[27] 또는 프로세스 보상을 집계하는 다른 방법을 통해 구성될 수 있다. 딥시크는 간단한 ORM을 사용하여 R1 모델을 훈련했다.^[17]

프로세스 보상 모델

프로세스 보상 모델 또는 프로세스-감독 RM (PRM)^[22]은 현재까지의 단계인 $(x,y_{1},\dots ,y_{i})$ 만을 기반으로 단계 $r(x,y_{1},\dots ,y_{i})$ 에 대한 보상을 제공한다.

부분적인 사고 추적 $x,y_{1},\dots ,y_{m}$ 이 주어졌을 때, 사람은 최종 답변을 보지 않고도 현재까지의 단계가 올바른지 판단할 수 있다. 이는 이진 보상을 생성한다. 인간 레이블은 비용이 많이 들기 때문에, 기본 모델을 미세 조정하여 이를 예측할 수 있다.^[22] PRM은 일반적으로 인간 레이블에 대한 로지스틱 회귀로 훈련된다. 즉, 실제 레이블과 예측된 레이블 간의 교차 엔트로피 손실을 최소화한다.^[27]

예를 들어, 2023년 오픈AI 논문은 7만 5천 개의 사고 추적에 대해 80만 개의 프로세스 레이블을 수집했다. 레이블러는 추적을 보고 각 단계를 솔루션을 향해 나아가면 "긍정적", 틀리지 않지만 도움이 되지 않으면 "중립적", 실수이면 "부정적"으로 표시했다. 첫 "부정적" 레이블이 나오면 레이블러는 해당 추적을 중단하고 다른 추적으로 넘어갔다. 저자들은 나중 단계에 레이블링하는 것이 더 풍부한 신호를 줄 수 있지만, 첫 번째 오류까지 레이블링하는 것으로도 유능한 PRM을 훈련하기에 충분하다고 주장했다.^[26]^[28]

인간 레이블을 피하기 위해 연구자들은 프로세스에 인간 레이블 없이 PRM을 생성하는 방법을 제안했다. 몬테카를로 트리 탐색(MCTS)에서 영감을 받아 Math-Shepherd 방법은 각 추론 단계 $y_{i}$ 에서 시작하여 끝까지 여러 계속을 샘플링하고, 해당 단계에서의 보상을 "소프트 추정"의 경우 ${\frac {\#{\text{(정답의 수)}}}{\#{\text{(총 답변 수)}}}}$ 또는 "하드 추정"의 경우 ${\begin{cases}1&{\text{만약 답변 중 하나가 정답인 경우}}\\0&{\text{그 외}}\end{cases}}$ 로 설정한다. 이는 ORM으로부터 프로세스 보상을 생성하며, 이는 종종 더 쉽거나 저렴하게 구성할 수 있다. 그런 다음 이러한 레이블을 기반으로 PRM을 훈련할 수 있다.^[27] 일부 연구에서는 완전한 MCTS 접근 방식을 시도했다.^[29]

ORM을 사용하여 직접 선호 최적화와 유사하게 PRM을 암묵적으로 구성할 수도 있다.^[30]

안내 샘플링

훈련된 ORM은 최적의 응답을 선택하는 데 사용될 수 있다. 정책은 여러 응답을 생성하고 ORM이 최적의 응답을 선택한다. 이는 테스트 시간 연산 확장의 간단한 형태("Best-of-N")를 구현한다.^[23] ^[31]

훈련된 PRM은 탐욕적인 트리 탐색을 통해 추론을 안내할 수 있다. 정책은 여러 다음 단계를 제안하고 PRM이 하나를 선택하며 이 과정이 반복된다. 이는 전체 응답을 선택하기 위해 ORM을 사용하는 것과 유사하다.^[32] 빔 탐색은 탐욕적 탐색보다 성능이 좋다.

선행 탐색은 또 다른 트리 탐색 방법이다. 정책은 몇 가지 다음 단계를 제안한 다음 각 단계에 대해 짧은 롤아웃을 수행한다. 롤아웃 중에 솔루션이 발견되면 탐색이 조기에 중지된다. 그렇지 않으면 PRM이 각 롤아웃의 점수를 매기고 가장 높은 점수를 받은 단계가 선택된다.^[15]

자기 일관성은 ORM과 결합될 수 있다. 모델은 여러 답변을 생성하고, 각 클러스터가 동일한 최종 답변을 갖도록 답변이 클러스터링된다. ORM은 각 답변의 점수를 매기고, 각 클러스터의 점수가 합산되며, 가장 높은 점수를 받은 클러스터의 답변이 반환된다.^[27]

Remove ads

벤치마크

추론 모델은 일반적으로 비추론 모델보다 많은 벤치마크, 특히 다단계 추론이 필요한 작업에서 더 높은 점수를 받는다.

일부 벤치마크는 추론 모델의 응답 시간이 더 길고 비용이 더 많이 들기 때문에 추론 모델을 제외한다.^[33]^[34]^[35]^[36]

인류의 마지막 시험

HLE 벤치마크는 수학, 인문학, 자연 과학 전반에 걸친 전문가 수준의 추론을 테스트하며, 모델 간의 큰 성능 격차를 보여준다. 최신 추론 모델은 HLE에서 낮은 점수를 받아 개선의 여지가 남아있다. 예를 들어, 완전 추론 모델 o3는 26.6%를 기록한 반면,^[21] 경량 o3-mini-high(텍스트 전용 질문)는 13%를 기록했다.^[37]

AIME

어려운 수학 경시 대회인 AIME에서 비추론 모델은 일반적으로 문제의 30% 미만을 해결한다. 추론 방법을 사용하는 모델은 50%에서 80% 사이의 점수를 받는다.^[2]^[17]^[20] 오픈AI의 o1이 2024년에 보고된 결과에서 2025년 AIME 결과까지 정확도를 유지하거나 약간 향상시킨 반면, o3-mini(고)는 훨씬 낮은 비용(약 12배 저렴)으로 더 높은 정확도(80%)를 달성했다.^[38]

o3-mini 성능

오픈AI의 2025년 1월 o3-mini 보고서에 따르면, "추론 노력"을 조정하는 것은 특히 STEM 작업에서 성능에 큰 영향을 미친다. 낮은 추론 노력에서 높은 추론 노력으로 이동하면 AIME 2024, GPQA Diamond, Codeforces의 정확도가 일반적으로 10-30% 증가한다. 높은 노력으로 o3-mini(고)는 AIME(MathArena AIME 벤치마크와 다름)에서 87.3%, GPQA Diamond에서 79.7%, Codeforces에서 2130 Elo, SWE-bench Verified에서 49.3을 달성했다.^[38]

Remove ads

단점

계산 비용

추론 모델은 비추론 모델보다 답변하는 데 훨씬 더 많은 연산량을 필요로 하는 경우가 많다. AIME에서 이들은 비추론 모델보다 10~74배 더 비쌌다.^[26]

생성 시간

추론은 응답 시간을 증가시키며, 현재 모델은 답변하는 데 몇 초에서 몇 분이 걸린다. 추론의 깊이가 증가함에 따라 미래 모델은 더 오랜 시간이 걸릴 수 있다.

모델

오픈AI

제미나이

딥시크

R1 (V3 기반)
R1-Lite-Preview (V2.5 기반 테스트 버전)

Qwen

QvQ-72B-Preview — 2024년 12월 24일에 출시된 실험적인 시각 추론 모델로, 이미지 이해와 언어적 연쇄 사고 추론을 통합한다.
QwQ-32B-Preview — 2024년 11월 말에 출시된 실험적인 텍스트 기반 추론 모델로, 복잡하고 단계별 분석을 강조한다.

앤트로픽

클로드 소넷 3.7은 조절 가능한 '사고' 토큰 양을 가지고 있다.

미스트랄 AI

매지스트랄 (중형 및 소형)

xAI

그록 3
그록 4

허깅 페이스

올림픽코더-7B 및 32B (R1 훈련을 공개적으로 재현하는 Open R1 프로젝트의 일부).^[39]^[40]

Remove ads

추론 전략

사고 사슬(CoT) — 문제 해결 과정을 자연어 단계로 전개.^[41]
제로샷 CoT — "단계별로 생각하자" 같은 문구로 예시 없이 추론 유도.^[42]
자기 일관성(Self-Consistency) — 다경로 샘플링 후 다수결/재랭킹으로 일관된 답 선택.^[43]
Least‑to‑Most(LtM)·계획형 프롬프트 — 쉬운 하위문제로 분해 후 순차 해결/계획‑해결.^[44]^[45]
Tree‑of‑Thoughts(ToT) — 분기 탐색과 백트래킹을 포함한 의사결정 탐색.^[46]
도구·코드 외부화(PAL/PoT/Toolformer) — 계산은 인터프리터·API가 수행, 모델은 구조화·계획에 집중.^[47]^[48]^[49]
ReAct — Reason–Act를 교차하여 검색·도구 호출과 추론을 결합.^[50]
Self‑RAG — 필요 시점에만 검색하고 생성물·근거를 자기 비평으로 조정.^[51]

Remove ads

테스트 시점 계산 스케일링

동일 모델에 대해 시도 횟수(샘플 수), 사고 길이, 탐색 폭을 늘리거나 검증기(ORM/PRM)·검색을 결합해 성능을 높이는 방법이다. 최적의 테스트 시점 확장이 파라미터 확장보다 효율적일 수 있음이 보고되었다.^[15] 간단한 절차로 강한 성능을 달성한 s1‑32B와 budget forcing은 AIME·MATH 등에서 두드러진 결과를 보였다.^[20] 또한 자기 일관성·best‑of‑N 선택은 비용‑성능 절충을 제어하는 실무적 도구로 쓰인다.^[52]

사실성 및 검증

고난도 추론에서 환각과 자기 모순을 줄이기 위해 자동 평가·탐지 기법이 병행된다. 긴 생성물의 원자적 사실 단위를 평가하는 FActScore와 도구 증강 기반의 FacTool이 제안되었다.^[53]^[54] 또한 의미적 엔트로피 등 불확실성 신호를 활용해 환각을 조기 탐지하는 통계적 방법이 보고되었다.^[55]

같이 보기

자동화된 추론
Reflection (artificial intelligence)
대형 언어 모델

각주

Loading content...

외부 링크

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads