Paper Review

[Paper Review] $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment

dotudy 2025. 10. 15. 18:54

오랜만에 comeback!!

https://arxiv.org/abs/2506.07982

0. Abstract

현황

  1. 기존 벤치마크는 AI agent만이 도구를 사용할 수 있는 환경을 가정함.
  2. 사용자는 수동적인 정보 제공자일 뿐 능동적인 역할을 하지 않음.
  3. 현실에서는 사용자도 적극적으로 시스템의 상태를 변경해야 할 경우가 많음.

제안: $τ^2$-bench

  1. Dual-control 환경 (Dec-POMDP 기반): Agent와 user 모두 tool을 사용해서 공유된 동적 환경을 제어함
  2. Compositional task generator: 다양하고 검증 가능한 과제를 자동으로 생성
  3. 환경과 밀접하게 연동된 사용자 시뮬레이터: 도구 및 상태에 따라 현실적인 동작만 수행, 시뮬레이션의 현실성 및 신뢰성 향상
  4. 정교한 agent 성능 분석: agent 성능을 정교하게 분석할 수 있도록 다양한 요소 제거 실험 제공

결과

  1. 사용자 없이 혼자 행동할 때보다 사용자를 안내하며 행동하는 상황에서 성능이 크게 하락함.

1. Introduction

현황

  1. 기존의 벤치마크는 AI가 사용자와 소통하고 적절한 행동 순서를 따라 문제를 해결하는 능력을 테스트함.
  2. 하지만 모두 단일 제어 환경으로 AI만 환경과 상호작용할 수 있는 구조임.
  3. → 사용자는 단순히 정보 제공자의 역할만 함.
  4. $τ$-bench와 같은 사용자는 지시문만 보고 환경을 추론해야하며 AI의 행동을 직접적으로 관찰하거나 영향을 줄 수 없음.
  5. 현실은 ‘휴대폰을 껐다 켜세요’ 등과 같은 실제 행동을 취하는 능동적 행위자임.

제안: $τ^2$-bench

  1. 현실의 복잡성을 담아내기 위해서 tau2-bench를 제안
  2. 사용자도 도구를 사용하고 환경을 조작하는 직접적인 행동 가능
  3. 현실성과 명확성을 증가시키기 위해 제공하는 기능
    1. 사용자에게 일부 정보만 보여줄 수 있어서 현실적인 제한을 시뮬레이션 가능
    2. 사용자가 직접 도구를 호출해 대화 외적으로도 환경 조작 가능
    3. 자연어보다 도구 포맷으로 사용자 행동을 지정하면 더 명확하게 시나리오 구성 가능

Challenge

  • user 시뮬레이터에게 도구를 통한 자율성을 부여함과 동시에 agent와 user사이의 complexity asymmetry도 유지해야함.
    • 사용자의 기능을 제한하여 여전히 문제 해결에 있어서는 agent의 도움을 필요로 하도록 해야함.
  • 해결책
    1. 사용자 도구는 사람이 읽을 수 있는 출력만 제공
    2. 사용자가 계획적으로 도구를 사용하는 것을 제한하고 오직 agent의 요청에 반응하는 방식으로만 사용하게함.
    3. 환경 자체를 통해 사용자 행동을 제약

기여점

  1. Telecom dual-control domain
  • AI agent와 User 모두가 각기 다른 도구를 사용하여 공유되고 동적으로 변하는 환경을 관찰, 조작, 검증 가능
  • Dec-POMDP를 이용해 형식화
  • SOTA 모델들도 해당 domain에서 상당한 어려움을 겪음. (pass@1 GPT-4.1: 34%, o4-mini: 42%, claude-3.7-sonnet: 49%)
  1. Compositional Task Generator
  • 프로그래밍 방식으로 작동하는 태스크 생성기 포함 → 기본 시나리오들로부터 검증 가능한 다양한 태스크를 자동으로 구성 가능 (기본 시나리오: 시작 상태, 해결 방법, 체크 방법)
  1. Reliable user simulator
  • user 시뮬레이터를 환경에 밀접하게 연동시킴.
  • User simulator의 자연어 prompt의 복잡성을 줄여줌.
  1. Fine-grained diagnosis of agent failures
  • agent의 성능을 분해해서 평가 가능
    1. no-user mode
      • agent가 모든 도구를 통제하여 순수한 추론 능력만을 평가
    2. dual-control mode
      • 사용자와의 의사소통 및 협업이 필요한 환경
      • agent가 사용자를 지도해야함.
  • 실험 결과, dual-control mode에서 성능이 평균 20%p 하락함.

3. $τ^2$-bench: Evaluating Agents in a Dual-Control Environment

대화형 AI agent와 user simulator간의 multi turn interaction을 체계적으로 연구하기 위한 플랫폼

Decentralized Partially Observable Markov Decision Process (Dec-POMDP)로 모델링되며 해당 구조에서 agent, user모두가 소통하고 도구를 사용하고 관찰함.

 

 

3.1 The Dec-POMDP Formalism

  • 전체 process는 다음과 같은 튜플 형식으로 정의
  • $(S, {Ai}, {Oi}, T , R, U, M)$ ($i ∈ {agent, user}$)
  1. Message space $(M)$
    • agent와 user 간에 주고받을 수 있는 모든 자연어 메시지 집합
  2. State space(S)
    • Global State: $S = S_{world} ⊗ S_{history}$
    • $S_{world} = S_{db,agent} ⊗ S_{db,user}$ agent와 user 내부 DB 상태
    • $S_{history}$ 상호작용을 하며 발생한 모든 event들을 기록
    • ex) 통신 도메인
    • $S_{db,user}$: 휴대폰의 상태(비행기 모드, 네트워크 상태 등)
    • $S_{db,agent}$: 고객 정보나 회선 정보가 담긴 CRM 데이터
  3. Action space($A_i$)
    • 도구 호출 ($a_{i,tool} ∈ A_{i,tool}$): 함수 호출로 $S_{db,i}$와 상호작용
    • 메시지 전송 ($m_i ∈ M$): 오직 한 명의 player만 행동 가능.
  4. Observation spaces ($Oᵢ$)
    • 플레이어 i의 관찰에는 두 가지 종류가 있음.
    • 도구 관찰 ($o_{i,tool}$): 도구 호출 결과(데이터, 메시지, 에러 등)
    • 상대방의 메시지 관찰($m_j ∈ M$): 오직 한 명의 player만 관찰 가능
  5. Transition function $(T)$
    • $T: S × A → S × O$
    • 현재 상태 $s$와 행동 $a = (a_{agent}, a_{user})$가 주어지면, 새로운 상태 $s’$와 관찰 $o = (o_{agent}, o_{user})$가 반환됨.
    • 플레이어 $i$가 도구 $a_{i,tool} ∈ A_{i,tool}$를 호출하면 $S_{world}$가 변경되고 도구 출력 $o_i ∈ O_{i,tool}$가 생김.
    • 메시지 $m_i ∈ M$를 보내면 상대방은 $o_j = m_i$로 관찰을 받음.
    • c, d 모두 s’는 업데이트된 $S_{world}$와 $S_{history}$를 포함함.
  6. Reward function $(R)$
    • $R : S → [0, 1]$
    • 전체 상태 s를 기반으로 태스크 성공 또는 실패 여부를 나타내는 글로벌 보상 값을 제공
    • ex) user의 모바일 데이터가 되지 않는 문제가 해결되고 그것이 사용자 DB 상태로 검증되면 에이전트는 보상을 받음.
  7. Instruction Space $(U)$
    • 현실적인 사용자 시뮬레이션을 유도하는 시나리오
    • 에이전트가 사용자 지원시 따라야하는 도메인 정책

Global State: $S = S_{world} ⊗ S_{history}$

Global State: $S = S_{world} ⊗ S_{history}$

  • 이러한 Dec-POMDP 형식은 복잡하고 상호작용적인 시나리오를 시뮬레이션하는데 이점 제공
    • 사용자가 agent의 안내를 받아 도구를 실행하는 협업 환경을 현실적으로 시뮬레이션할 수 있도록 함.
    • 사용자는 더 예측 가능한 행동을 하게 되고, 자연어 프롬프트에 대한 의존도 감소

3.2 Domain and task creation

기존의 tau-bench와 유사.

  1. Creating agent’s database schema and tools
    • domain의 핵심 비즈니스 로직을 설명하는 PRD 작성
    • PRD: 고객 CRM을 정의하고 이를 관리하기 위한 함수들을 제작
  2. Creating user’s database schema and tools
    • 사용자의 핸드폰을 mock으로 구현
    • 상태 정보, 다양한 기능들 포함.
  3. Programmatic task creation
    • combination으로 다양하고 검증 가능한 태스크 생성
    • service_issue, mobile_data_issue, mms_issue에 대해 15개의 atomic subtask 그룹 개발
    • 그중 프로그래밍 방식으로 조합하여 2,285개의 태스크를 만들었고 그중 114개를 샘플링하여 user intent와 subtask 개수에 걸쳐 균형 잡힌 분포 구성
    • task creation example
      • {${f^{init}_{t,k}}$}: 문제의 원인 ex) 사용자의 휴대폰 상태에 비행기 모드가 켜진 상황을 만듦.
      • {$f^{sol}_{t,k}$}: 도구로 해결 ex) toggle_airplane_mode()로 비행기 모드를 끔.
      • {$f^{assert}_{t,k}$}: 정상 상태 검증 ex) assert_service_status(”connected”)로 모바일 데이터가 되나 확인Atomic subtask (개수 명시 안 됨)
        • 비행기 모드 켜져서 데이터 안 됨
          • 데이터 설정 문제
          • SIM 카드 오류 …
        위의 automic subtask들 중에서 동시에 발생하면 안 되는 것들끼리 묶어서 그룹을 만들었더니 총 15개의 그룹이 나옴. (ex. airplane_mode_on, sim_card_removed)We then subsample 114 tasks to form a balanced distribution over different intents and numbers of subtasks.
      • 근데 그걸 다 쓰지 않고 service_issue, mobile_data_issue, mms_issue가 골고루 나오게 114개를 뽑음. 여러 개의 Intent가 섞이지 않은 것들만 사용.
      • (각 그룹에서 선택 가능한 subtask 수 + 1) 를 모두 곱했더니 2285개 도출
  4. 태스크와 해결책을 바탕으로 LLM에게 프롬프트를 입력하여 도메인별 에이전트 정책 생성
    1. 문제 해결 상황에서는 agent가 사용자 문제를 진단하고 해결하는 데 도움이 되도록 사용자 의도별로 문제 해결 절차를 제공함.
  5. Manual refinement
    1. 관련 모든 자료들 정제
    2. 각 태스크에 persona 지정 가능.
      1. None: 아무 페르소나 없음 (기본값)
      2. Easy: 도메인에 익숙한 사용자
      3. Hard: 기술 지식이 낮은 사용자

 

3.3 Task evaluation

태스크 성공 여부를 판단하는 방식

  1. DB check
    1. DB 상태를 기준으로 평가
  2. Status assertions → Telecom에서는 이거만 사용
    1. 최종 world state S_world에 대해 정의된 조건 확인 (특정 tool이 true인지)
  3. Natural language assertions
    1. 대화 이력 S_history에 대해 조건 충족 여부 평가 (특정 문장이 포함되어 있는가)
  4. Communication info check
    1. agent가 특정 정보를 유저에게 전달했는지 평가 ?
  5. Action matching
    1. 미리 정의된 solution action들이 실제 실행되었는지 평가 (특정 tool을 불렀는가 → every solution tools를 불렀는가)

4 Experiments

4.1 Agent settings

  • 평가 대상 LLM: gpt-4.1-mini, gpt-4.1, o4-mini, claude-3.5-sonnet
  • User simulator: gpt-4.1
  • LLM 실행 횟수: 각 태스크마다 4번 실행
  • temperature: 0
  • prompt 구성: agent/user 모두 공통 가이드라인 + task/domain-specific 정책 포함

4.2 Results

$Pass^k$ scores

 

기존 tau1에 있던 retail, airline 도메인보다 telecom 도메인이 훨씬 어려운 task라는 것을 알 수 있음.

 

Ablation analysis

Agent의 성능에 영향을 주는 두 요인이 있다.

  1. 커뮤니케이션 능력: 사용자와 효과적으로 상호작용을 하며 문제 해결
  2. 도메인 정책 적용 능력: policy를 읽고 적절한 도구를 호출하는 능력

이 두 가지 요인에 대해 평가하기 위해서 추가 실험을 진행

  1. Default: Agent와 User가 함께 협업. User simulator가 실제로 작동함 → 전체 능력 평가
  2. No-User: User simulator 제거 → Agent가 user 도구까지 다 직접 호출함. 단, 문제 요약이 주어짐 → Reasoning 능력만 평가
  3. Oracle Plan: Ground-truth plan 제공. Agent는 이 plan을 사용자와 협력해서 수행만 하면 됨 → 커뮤니케이션 능력만 평가

Impact of policy document on performance

Impact of number of actions and sub-tasks

 

 

Impact of issue types

Impact of user persona

 

 

5 Conclusion

성과

  • 기존 tau-bench를 확장하여 dual-control 환경 도입
  • LLM들이 추론은 잘하지만 coordinaion과 communication이 추가되면 성능이 급감함을 확인 가능

User Simulator 한계

  • 사용자 시뮬레이터 일반화 가능성은 열려있지만 아직 확장을 해야함.

domain 확장 자동화의 어려움

  • 도메인을 확장하기 위해서는 여전히 사람의 개입이 필수적임.

전문가와 초보자의 격차 미반영

  • 고객지원 상황에서 나타나는 전문자와 초보자 간의 이해 차이를 명시적으로 반영하지 못함.
  • 이러한 gap을 다루는 부분도 추가되어야함.