오랜만에 comeback!!https://arxiv.org/abs/2506.079820. Abstract현황기존 벤치마크는 AI agent만이 도구를 사용할 수 있는 환경을 가정함.사용자는 수동적인 정보 제공자일 뿐 능동적인 역할을 하지 않음.현실에서는 사용자도 적극적으로 시스템의 상태를 변경해야 할 경우가 많음.제안: $τ^2$-benchDual-control 환경 (Dec-POMDP 기반): Agent와 user 모두 tool을 사용해서 공유된 동적 환경을 제어함Compositional task generator: 다양하고 검증 가능한 과제를 자동으로 생성환경과 밀접하게 연동된 사용자 시뮬레이터: 도구 및 상태에 따라 현실적인 동작만 수행, 시뮬레이션의 현실성 및 신뢰성 향상정교한 agent 성능 분..