Paper Review 22

[Paper Review] $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment

오랜만에 comeback!!https://arxiv.org/abs/2506.079820. Abstract현황기존 벤치마크는 AI agent만이 도구를 사용할 수 있는 환경을 가정함.사용자는 수동적인 정보 제공자일 뿐 능동적인 역할을 하지 않음.현실에서는 사용자도 적극적으로 시스템의 상태를 변경해야 할 경우가 많음.제안: $τ^2$-benchDual-control 환경 (Dec-POMDP 기반): Agent와 user 모두 tool을 사용해서 공유된 동적 환경을 제어함Compositional task generator: 다양하고 검증 가능한 과제를 자동으로 생성환경과 밀접하게 연동된 사용자 시뮬레이터: 도구 및 상태에 따라 현실적인 동작만 수행, 시뮬레이션의 현실성 및 신뢰성 향상정교한 agent 성능 분..

Paper Review 2025.10.15

[Paper Review] τ -bench: A Benchmark for Tool-Agent-UserInteraction in Real-World Domains

0. Abstract기존 한계Language Agent가 사람 사용자와 상호작용하는 능력이나 domain-specific한 능력을 평가하지 않음.→ but, real world application을 위해서는 꼭 필요!제안τ -bench사용자 역할을 LLM이 대신하는 대화 시뮬레이션외부 API나 정책 가이드라인 등 규칙이 있는 환경에서 제공받은 agent의 능력 평가대화 후 db의 상태를 목표 상태와 비교하여 평가pass^kagent의 행동 신뢰도를 여러 번 반복 실행하여 평가할 수 있도록 새로운 평가지표 pass^k 제안결과GPT-4o와 같은 SOTA function calling agent 마저도 작업의 절반을 성공하지 못함.retail domain에서는 pass^8 수치가 25% 미만일 정도로 일관..

Paper Review 2025.07.28

[Paper Review] Understanding and Mitigating Language Confusion in LLMs

0. Abstract현황LLM이 사용자가 원하는 언어로 일정하게 텍스트를 생성하지 못함.제안Language Confusion Benchmark(LCB)를 만들어 총 15개의 언어를 대상으로 영어/다국어 프롬프트를 사용하여 테스트 진행실험 결과LLaMA Instruct와 Mistral 모델이 Language confusion이 심함.Base Model과 영어 중심의 instruct 모델이 language confusion에 더 취약복잡한 prompt와 sampling temperature가 높을수록 혼동이 심해짐.few-shot prompt, 다국어 SFT(Supervised Fine-Tuning), 선호 조성(Preference Tuning)을 통해 부분적으로 완화 가능1. Introduction현황 및..

Paper Review 2025.06.23

[Paper Review] HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

0. Abstract문제 인식기존 QA 데이터셋들은 복잡한 추론을 수행하고 답변에 대한 설명을 제공하는 QA 시스템을 학습시키기 부족함.제안: HOTPOTQA위키백과 기반의 113,000개 QA 쌍으로 구성되어 있음.핵심 특징다중 문서 추론: 여러 문서를 같이 읽고 연결해서 답을 찾아야 함.다양하고 자유로운 질문: 특정 지식베이스에 묶이지 않아서 질문이 더 자연스럽고 현실적임.문장 수준 근거 제공: 모델이 왜 그 답을 했는지 설명할 수 있도록 도와주는 문장 단위의 supporting facts 포함비교형 질문 포함: 비교 질문을 통해 논리적 사고력 테스트 가능1. Introduction문제 인식multi-hop reasoning, 두 개 이상의 문서에 걸쳐있는 정보를 연결해서 답을 도출해야하는 추론에서 ..

Paper Review 2025.06.13

[Paper Review] All It Takes Is One Prompt: An Autonomous LLM-MA System

ACL ARR 2024 December SubmissionICLR 20250. Abstract문제의식기존 LLM-MA 시스템은 한계가 존재함.제한적인 agent 간 협업사전에 정의된 Standard Operating Procedures(SOP)에 의존 → 사람의 개입이 많이 필요함.제안: MegaAgent단 하나의 프롬프트로 전체 시스템을 작동시킬 수 있는 LLM-MA 프레임워크특징동적 에이전트 생성: 작업의 복잡도에 따라서 자동으로 agent 수 선택됨작업 분해 → 각 그룹이 병렬 실행agent의 모니터링 및 관리 기능 포함성능Gobang 게임 구현: 800초 내 개발 성공국자 정책 시뮬레이션: 590개의 agent가 다영역 정책을 병렬로 실행→ MetaGPT보다 성능/확장성/자율성 모두 뛰어남.1. ..

Paper Review 2025.06.10

[Paper Review] Improving Factuality and Reasoning in Language Models through Multiagent Debate

https://arxiv.org/abs/2305.143250. Abstract배경LLM은 생성, 이해, few-shot 학습에서 뛰어난 성과를 보여줌.성능 향상을 위해 여러 prompting 기법들이 사용됨.(verification, self-consistency, scratchpad 등)제안 방법여러 LLM이 개별 응답과 추론을 제시한 뒤 서로 debate를 하고 최종 합의된 답을 도출하는 구조효과수학적/전략적 추론 능력 크게 향상허위 정보나 hallucination 감소factual validity 향상적용성블랙박스 모델에도 적용 가능(내부 구조 변경 없이도 사용 가능)모든 태스크에 동일한 프롬프트 절차로 적용 가능 → 범용성 우수1. Introduction배경LLM은 방대한 텍스트로 학습이 되었지만..

Paper Review 2025.05.27

[Paper Review] AFLOW: Automating Agentic Workflow Generation

0. Abstract현 상황LLM은 다양한 도메인에서 복잡한 과제를 수행하기 위해 정교한 지시와 실행 순서를 따르는 agentic workflow 사용workflow 구축 자체로 비용이 들고 이로 인해 확장성과 범용성 제한. 또한 자동화 하려는 시도도 이어지고 있지만 초기 구성 및 설정은 사람이 필요제안workflow 최적화를 code-represented workflow 그래프 탐색 문제로 재정의AFLOW: Monte Carlo Tree Search(MCTS)를 활용해 workflow 공간을 효율적으로 탐색하는 자동화 framework코드 수정, 트리 구조에서 탐색 결과 누적, 실행 결과 기반 피드백을 통해 workflow 반복 개선실험 결과6개 benchmark 실험에서 SOTA 방법보다 평균 5.7..

Paper Review 2025.05.23

[Paper Review] ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy

https://arxiv.org/abs/2403.14589 ReAct Meets ActRe: When Language Agents Enjoy Training Data AutonomyLanguage agents have demonstrated autonomous decision-making abilities by reasoning with foundation models. Recently, efforts have been made to train language agents for performance improvement, with multi-step reasoning and action trajectories as the traiarxiv.org 1 Introduction현재 상황Language age..

Paper Review 2025.05.16

[Paper Review] SELF-REFINE: Iterative Refinement with Self-Feedback

Abstract문제사람과 마찬가지로 LLM도 한 번에 좋은 답을 내지 못할 수도 있음.제안SELF-REFINE 방법을 제안하여 인간처럼 LLM도 자기 피드백으로 글을 다듬게 하자.방법처음에 LLM이 답을 작성그 답을 다시 LLM이 읽고 스스로 피드백을 작성해당 피드백을 반영하여 더 나은 답을 재작성iterative refinement장점별도 학습이 필요 없음라벨링 데이터가 필요 없음강화학습없이 단 하나의 LLM만 있으면 됨.실험7개의 과제에서 실험 진행기존 방식보다 평균 20% 성능 향상을 보였고 사람과 자동 평가 모두에서 더 나은 결과로 평가됨.1 Introduction문제 상황LLM이 일관성 있는 출력을 생성할 수 있지만 여러 목적이 얽혀 있는 과제나 목표를 명확히 정의하기 어려운 과제와 같은 복잡한..

Paper Review 2025.05.09

[Paper Review] A Survey on Large Language Model based Autonomous Agents [23.08 ~ 25.03 Survey]

https://arxiv.org/abs/2308.11432 최종 요약LLM 기반 자율 agent의 architecture, capability acquistion, application, evaluation을 포괄적으로 정리한다.agent의 모듈들을 체계적으로 분석하고 주관적. 객관적 평가 방법과 다양한 벤치마크를 소개한다.역할 수행, 일반화된 human alignment, 장기 추론, 메모리 통합 등 아직 해결되지 않은 주요 과제들을 제시하고 미래 연구 방향을 제안한다.AbstractLLM-based autonomous agents의 구성, 다양한 응용 분야, 평가 방법 분석 1 Introduction과거 연구: Simple & heuristic policy function에 따라 작동 + 제한된, ..

Paper Review 2025.04.22