Paper Review

[Paper Review] ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

dotudy 2025. 5. 16. 22:59

https://arxiv.org/abs/2403.14589

 

ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

Language agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the trai

arxiv.org

 

1 Introduction

현재 상황

  • Language agent: 오픈소스 LLM을 이용해 직접 학습시키려는 시도 증가
  • 어떤 행동을 했고 왜 이런 추론을 했는지 등 문제를 푸는 전 과정을 나타내는 trajectory는 학습 데이터로 사용되며 observations, reasoning, actions로 구성
  • (a) 전문가가 직접 작성. (b) 다양한 agent framework를 직접 구현하여 폐쇄형 LLM을 사용해 여러 종류의 경로 수집

  • but, 비용적으로 비효율적이고 prompt를 통한 구성이라 다양성이 부족함
  • Can a language agent autonomously gather high-quality trajectories, with textual annotations suitable for its further training? Language agent가 스스로 훈련에 적합한 텍스트 기반 주석이 포함된 고품질 경로를 수집할 수 있을까

 

제안

  • ReAct 방식으로 돌아가는 language agent의 action trajectory를 annotate할 수 있는 프레임워크인 $A^3T$ (Autonomous Annotation of Agent Trajectories) 제안
  • 다양한 행동 경로를 수집하기 위해서 agent는 action space에서 무작위로 행동을 샘플링해야하는데 선택의 reason이 꼭 필요함. 이를 위해 ActRe라는 행동 후 추론 프롬프트 에이전트를 제안

 

$A^3T$ 방법론

  • React 기반 agent는 기존 행동을 실패하면 다른 행동을 선택함
  • ActRe라는 prompting agent를 기반으로 해당 행동에 대한 이유를 설명
  • ActRe가 생성한 reasoning을 해당 행동 앞에 붙여 새로운 trajectory를 생성하고 실행
  • ReAct 스타일의 agent는 실패한 작업에 대한 새로운 경로를 실행하고 성공시, 성공한 경로로 저장. 이는 기존 실패 경로와 비교해서 (contrastive learning)으로 self-training
  • binarized rewards를 이용한 policy gradient 방식으로 구현되고 누적된 경로들을 통해 반복적인 향상을 유도하는 closed loop을 구성

2 $A^3T$ for Closed-Loop Self-Improvement

2.1 Autonomous Trajectory Annotation with ActRe

$A^3T$ 방법론

  • 여러 가지 행동을 시도해보면 그만큼 다양한 데이터가 생성될 수 있음
  • but, ReAct같은 language agent는 LLM의 추론 결과를 바탕으로 행동 결정 (Reasoning → Action)
  • agent가 추론했던 것과 다른 행동을 임의로 선택했을 때 그 행동에 맞는 새 reason이 필요함.
  • ActRe를 통해 새로운 reasoning 생성 ⇒ ReAct의 인과관계와 반대 (Action → Reason)

수학적 설명

  • ReAct 스타일 에이전트 경로
    • environmental observation: $o_t$, internal reasoning: $RS_t$, external action at the $t$-step: $EA_t$
    ⇒ $..., o_t, RS_t, EA_t, o_{t+1}, RS_{t+1}, EA_{t+1}, …$
  • ActRe 에이전트 경로
  • ⇒ $..., o_t, EA_t, RS_t, o_{t+1}, EA_{t+1}, RS_{t+1}, …$
  • ReAct가 $t+1$단계에서 기존 행동 $EA_{t+1}$를 바꿔 새로운 $\tilde{EA}{t+1}$라는 새로운 행동 시도하면 새로운 $\tilde{RS}{t+1}$도 필요
  • ⇒ $..., o_t, EA_t, RS_t, o_{t+1}, \tilde{EA}{t+1}, \tilde{RS}{t+1}, …$
  • ActRe에게 $\tilde{EA}{t+1}$에 대한 이유를 묻는 식으로 $\tilde{RS}{t+1}$ 생성하여 새로운 ReAct 경로 생김
  • ⇒ $..., o_t, RS_t, EA_t, o_{t+1}, \tilde{RS}{t+1}, \tilde{EA}{t+1}, …$
  • 각 경로의 끝에서 환경은 보상 R을 0, 1로 주고 이는 전체 경로의 품질을 자동으로 annotate해주는 역할을 함

2.2 Contrastive Self-Training

  • 같은 task내에서 실패한 경로와 성공한 경로의 차이를 인식하게 만들기 위해 Policy Gradient 방식을 사용

수학적 설명

  • ReAct-style language agent는 $T$ step짜리 경로를 다음과 같이 구성함$o_t$: 환경 관찰을 나타내는 토큰 문자열 / $a_t$: agent의 텍스트 기반 행동 (reasoning 또는 action)
  • ⇒ $τ = \{{o_1, a_1, o_2, a_2, · · · , o_t, a_T }\}$
  • 총 M개의 경로가 주어졌을 때 다음과 같은 objective를 policy gradient 기반으로 최적화함.

 

  • 성공한 trajectory의 확률을 높이는 방향으로 θ 업데이트
  • 실패 traj와 성공 traj를 1:K로 묶어 대조 학습

 

3 Experiment

벤치마크: AlfWorld과 WebShop

초기 데이터 생성 및 ActRe LLM: gpt-3.5-turbo-instruct-0914

실제 학습 대상 LLM: Mistral-7B-Instruct-v0.2

Round 0:

  • ReAct prompting (GPT-3.5)
  • 성공 trajectory만 수집
  • 실패 trajectory는 학습에 사용 안 함

Round 1~4:

  • Agent가 실패한 행동에서 다른 행동 탐색
  • ActRe (GPT-3.5)가 이유 생성
  • 성공/실패 trajectory 수집 → contrastive 학습
  • fine-tuned Mistral-7B로 성능 향상

3.1 AlfWorld

 

 

3.2 WebShop

 

Table 4, 5

  • test 한 번의 실행으로 평균적인 인간 수준의 성능 달성
  • test를 4번 시도하는 환경에서는 54.8% 성공률을 달성하여 전문가 수준에 근접

Table 6

  • 반복 훈련을 통해 생성한 trajectory 품질이 점차적으로 어떻게 개선되었는지 표현

5 Conclusion

  • $A^3T$ 프레임워크 제안
  • ActRe + ReAct + policy gradient 학습 루프로 구성했으며 실제 환경에서 성능이 GPT-4 기반 방법보다 더 좋았음.