Paper Review

[Paper Review] ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

dotudy 2025. 5. 16. 22:59

ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the trai

arxiv.org

1 Introduction

현재 상황

Language agent: 오픈소스 LLM을 이용해 직접 학습시키려는 시도 증가
어떤 행동을 했고 왜 이런 추론을 했는지 등 문제를 푸는 전 과정을 나타내는 trajectory는 학습 데이터로 사용되며 observations, reasoning, actions로 구성
(a) 전문가가 직접 작성. (b) 다양한 agent framework를 직접 구현하여 폐쇄형 LLM을 사용해 여러 종류의 경로 수집

but, 비용적으로 비효율적이고 prompt를 통한 구성이라 다양성이 부족함
Can a language agent autonomously gather high-quality trajectories, with textual annotations suitable for its further training? Language agent가 스스로 훈련에 적합한 텍스트 기반 주석이 포함된 고품질 경로를 수집할 수 있을까

제안

ReAct 방식으로 돌아가는 language agent의 action trajectory를 annotate할 수 있는 프레임워크인 $A^3T$ (Autonomous Annotation of Agent Trajectories) 제안
다양한 행동 경로를 수집하기 위해서 agent는 action space에서 무작위로 행동을 샘플링해야하는데 선택의 reason이 꼭 필요함. 이를 위해 ActRe라는 행동 후 추론 프롬프트 에이전트를 제안

$A^3T$ 방법론

React 기반 agent는 기존 행동을 실패하면 다른 행동을 선택함
ActRe라는 prompting agent를 기반으로 해당 행동에 대한 이유를 설명
ActRe가 생성한 reasoning을 해당 행동 앞에 붙여 새로운 trajectory를 생성하고 실행
ReAct 스타일의 agent는 실패한 작업에 대한 새로운 경로를 실행하고 성공시, 성공한 경로로 저장. 이는 기존 실패 경로와 비교해서 (contrastive learning)으로 self-training
binarized rewards를 이용한 policy gradient 방식으로 구현되고 누적된 경로들을 통해 반복적인 향상을 유도하는 closed loop을 구성

2 $A^3T$ for Closed-Loop Self-Improvement

2.1 Autonomous Trajectory Annotation with ActRe

$A^3T$ 방법론

여러 가지 행동을 시도해보면 그만큼 다양한 데이터가 생성될 수 있음
but, ReAct같은 language agent는 LLM의 추론 결과를 바탕으로 행동 결정 (Reasoning → Action)
agent가 추론했던 것과 다른 행동을 임의로 선택했을 때 그 행동에 맞는 새 reason이 필요함.
ActRe를 통해 새로운 reasoning 생성 ⇒ ReAct의 인과관계와 반대 (Action → Reason)

수학적 설명

ReAct 스타일 에이전트 경로
- environmental observation: $o_t$, internal reasoning: $RS_t$, external action at the $t$-step: $EA_t$
⇒ $..., o_t, RS_t, EA_t, o_{t+1}, RS_{t+1}, EA_{t+1}, …$
ActRe 에이전트 경로
⇒ $..., o_t, EA_t, RS_t, o_{t+1}, EA_{t+1}, RS_{t+1}, …$
ReAct가 $t+1$단계에서 기존 행동 $EA_{t+1}$를 바꿔 새로운 $\tilde{EA}{t+1}$라는 새로운 행동 시도하면 새로운 $\tilde{RS}{t+1}$도 필요
⇒ $..., o_t, EA_t, RS_t, o_{t+1}, \tilde{EA}{t+1}, \tilde{RS}{t+1}, …$
ActRe에게 $\tilde{EA}{t+1}$에 대한 이유를 묻는 식으로 $\tilde{RS}{t+1}$ 생성하여 새로운 ReAct 경로 생김
⇒ $..., o_t, RS_t, EA_t, o_{t+1}, \tilde{RS}{t+1}, \tilde{EA}{t+1}, …$
각 경로의 끝에서 환경은 보상 R을 0, 1로 주고 이는 전체 경로의 품질을 자동으로 annotate해주는 역할을 함

2.2 Contrastive Self-Training

같은 task내에서 실패한 경로와 성공한 경로의 차이를 인식하게 만들기 위해 Policy Gradient 방식을 사용

수학적 설명

ReAct-style language agent는 $T$ step짜리 경로를 다음과 같이 구성함$o_t$: 환경 관찰을 나타내는 토큰 문자열 / $a_t$: agent의 텍스트 기반 행동 (reasoning 또는 action)
⇒ $τ = \{{o_1, a_1, o_2, a_2, · · · , o_t, a_T }\}$
총 M개의 경로가 주어졌을 때 다음과 같은 objective를 policy gradient 기반으로 최적화함.
⇒

성공한 trajectory의 확률을 높이는 방향으로 θ 업데이트
실패 traj와 성공 traj를 1:K로 묶어 대조 학습

3 Experiment

벤치마크: AlfWorld과 WebShop

초기 데이터 생성 및 ActRe LLM: gpt-3.5-turbo-instruct-0914

실제 학습 대상 LLM: Mistral-7B-Instruct-v0.2

Round 0:

ReAct prompting (GPT-3.5)
성공 trajectory만 수집
실패 trajectory는 학습에 사용 안 함

Round 1~4:

Agent가 실패한 행동에서 다른 행동 탐색
ActRe (GPT-3.5)가 이유 생성
성공/실패 trajectory 수집 → contrastive 학습
fine-tuned Mistral-7B로 성능 향상

3.1 AlfWorld

3.2 WebShop

Table 4, 5

test 한 번의 실행으로 평균적인 인간 수준의 성능 달성
test를 4번 시도하는 환경에서는 54.8% 성공률을 달성하여 전문가 수준에 근접

Table 6

반복 훈련을 통해 생성한 trajectory 품질이 점차적으로 어떻게 개선되었는지 표현

5 Conclusion

$A^3T$ 프레임워크 제안
ActRe + ReAct + policy gradient 학습 루프로 구성했으며 실제 환경에서 성능이 GPT-4 기반 방법보다 더 좋았음.

'Paper Review' 카테고리의 다른 글

[Paper Review] Improving Factuality and Reasoning in Language Models through Multiagent Debate (2)	2025.05.27
[Paper Review] AFLOW: Automating Agentic Workflow Generation (0)	2025.05.23
[Paper Review] SELF-REFINE: Iterative Refinement with Self-Feedback (0)	2025.05.09
[Paper Review] A Survey on Large Language Model based Autonomous Agents [23.08 ~ 25.03 Survey] (0)	2025.04.22
[Paper Review] Adaptive Human-Agent Teaming: A Review of Empirical Studies from theProcess Dynamics Perspective [25.04 Survey] (1)	2025.04.22

현재글[Paper Review] ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

우당탕탕 공부중

오리 공부하다. 개발자를 꿈꾸는 사람의 개인 공부 블로그입니다.

select, 데베시, 선형회귀, DB, 스위프트, 파이썬, DATABASE, Swift, 한양대학교, 백준, 머신러닝, 데이터베이스시스템, python, SQL, 데이터베이스, 편미분, 티스토리챌린지, 오블완, query, Gradient descent,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

우당탕탕 공부중

[Paper Review] ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

1 Introduction

2 $A^3T$ for Closed-Loop Self-Improvement

2.1 Autonomous Trajectory Annotation with ActRe

2.2 Contrastive Self-Training

3 Experiment

3.1 AlfWorld

3.2 WebShop

5 Conclusion

'Paper Review' 카테고리의 다른 글

'Paper Review'의 다른글

티스토리툴바

[Paper Review] ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

1 Introduction

2 $A^3T$ for Closed-Loop Self-Improvement

2.1 Autonomous Trajectory Annotation with ActRe

2.2 Contrastive Self-Training

3 Experiment

3.1 AlfWorld

3.2 WebShop

5 Conclusion

'Paper Review' 카테고리의 다른 글

'Paper Review'의 다른글

관련글

티스토리툴바