agent의 모듈들을 체계적으로 분석하고 주관적. 객관적 평가 방법과 다양한 벤치마크를 소개한다.
역할 수행, 일반화된 human alignment, 장기 추론, 메모리 통합 등 아직 해결되지 않은 주요 과제들을 제시하고 미래 연구 방향을 제안한다.
Abstract
LLM-based autonomous agents의 구성, 다양한 응용 분야, 평가 방법 분석
1 Introduction
과거 연구: Simple & heuristic policy function에 따라 작동 + 제한된, 고립된 환경에서 학습 = human과 gap
최근 연구: LLM의 발전 → human like intelligence
2 LLM-based Autonomous Agent Construction
LLM의 능력을 향상시키기 위한 수많은 module들이 개발됨.
이를 요약하여 LLM이 능력을 극대화할 수 있도록 돕는 합리적인 agent architecture 설계
2.1 Agent Architecture Design
Profiling Module: 구체적인 role을 정해줌.(다른 agent와의 관계까지도)
어떤 유형인지 식별 후 구체적인 프로파일링 전략 선택
Handcrafting Method: 사람이 직접 명시(prompt) ⇒ but, multi agent 환경에서 bad ex) MetaGPT, ChatDev, Self-collaboration, PTLLM
LLM-generation Method: profile 생성 규칙을 정의한 후 seed agent profile로 few-shot을 넣어주고 LLM을 활용해 전체 agent profile 정의 ⇒ but, 정확한 통제의 어려움, 불일치 발생 가능 ex) RecAgent
Dataset Alignment Method: 실제 세계의 dataset를 prompt로 정리 후 agent profile 정의 ⇒ 현실 세계 시나리오 반영 가능
이들을 조합하는 방법이 유용할 것이라고 주장
Memory Module: 지각한 정보 저장
경험을 축적하고 자기 진화하고 일관적, 합리적, 효율적인 행동을 하도록 지원
Memory Structure: 인간 기억 메커니즘에서 아이디어 차용. Short-Term Memory는 context window내의 입력 정보와 유사. Long-Term Memory는 external vector storage와 유사
Unified Memory: Short-term memory만 사용. in-context 방식으로 구현. prompt에 직접 삽입되어 활용 ⇒ 구현의 용이성, 최근 관찰 내용 인식 but, 포괄적인 기억 정보 담을 수 없음. ex) RLP, SayPlan, CALYPSO, DEPS
Hybrid Memory: Short/Long-term memory 모두 사용. 최근의 인식을 임시로 저장 후 중요한 정보는 vectorDB에 지속적으로 저장 ⇒ 장기 추론 능력을 향상 ex) Generative Agent, AgentSims, GITM, Reflexion, SCM, SimplyRetrieve, MemorySandbox
Long-term memory만 사용하는 경우는 거의 존재하지 않음. 단기 기억이 agent의 즉각적인 판단과 반응에 필수적이기 때문.
Memory Format: 저장 매체의 형식에 따라 구분
Natural Languages: 행동, 관찰 정보를 문장으로 저장. ⇒ 유연한 표현, 이해하기 용이, 정보 유지를 통한 다양한 신호 유도 가능 ex) Reflexion, Voyager
Databases: DB에 저장. SQL을 통해 memory 정보 update 가능 ⇒ 효율적이고 포괄적으로 기억 조작 가능 ex) ChatDB
Structured Lists: 메모리 정보가 list 형태로 구성 ⇒ 의미를 효율적이고 간결하게 전달 가능 ex) GITM(key: embedding vector, value: raw nl), RETLLM
프로그래밍 코드와 같은 다른 형식도 존재 가능. 여러 형식을 공유하여 사용 가능
Memory Operations: 외부 환경과 상호작용
Memory Reading: 메모리 읽기. 의미 있는 정보를 메모리에서 추출하는 방법이 핵심. 최근성, 관련성, 중요성이 자주 사용되는 기준.공식 설명
$q$: 쿼리 (예: 현재 작업 또는 현재 상황)
$M$: 모든 기억의 집합
$s^{rec}(q,m)$: 최근성 점수 – q와 memory m 간 시간 거리 측정
$s^{rel}(q,m)$: 관련성 점수 – q와 memory m 간 임베딩 유사도 등
$s^{imp}(m)$: 중요성 점수 – memory 자체의 중요도, q와 무관
$α,β,γ$: 각 기준에 대한 가중치 (조절 가능)
Memory Writing: 메모리 쓰기. 환경에서 인지한 정보를 메모리에 저장. 중복 정보와 storage limit 관리가 핵심.
Memory Duplicated: 새로운 기록과 기존 기록을 통합하는 다양한 방법 존재 ex) Augmented LLM
Memory Overflow: 기존 정보를 삭제하는 다양한 방법 존재 ex) ChatDB, RET-LLM
Memory Reflection: 메모리 회고. 과거를 추상화한 뒤 더 추상적이고 고차원적인 정보 습득을 목표로 함. ex) Generative Agent(3개의 주요 질문을 생성한 후 검색된 메모리를 바탕으로 5개의 통찰 생성), ExpeL
LLM과 agent의 가장 큰 차이!! : agent는 동적인 환경에서 학습하고 작업을 완수할 능력이 있어야 한다.
Planning Module: 복잡한 작업을 분해하고 단계적으로 해결하는 것이 핵심. 계획 과정 중 피드백 여부로 분류.
Planning without Feedback: 행동 후 결과에 대한 직접적인 피드백이 없고 스스로 계획을 수립하고 실행.
Single-path Reasoning: 각 단계가 일직선으로 연결되어 차례대로 계획 생성CoT 전략들은 한 번에 모든 단계 생성 / 그 외는 여러 번 LLM 호출 ex) CoT, Zero-shot-CoT, RePrompting, ReWOO, HuggingGPT, SWIFTSAGE
Multi-path Reasoning: 트리, 그래프 기반으로 다양한 경로 탐색하여 계획 생성 ex) CoT-SC(다수결 방식), ToT, RecMind, GoT, AoT, Zero-shot planners, RAP
External Planner: 도메인 특화에 대한 LLM의 한계를 보완하기 위해 외부 도구 사용 ex) LLM+P(작업 설명 → 계획 도메인 정의 언어(PDDL) → 외부 플래너(계획 수립) → LLM(PDDL → 자연어), LLM-DP, CO-LLM
Planning with Feedback: 행동 이후 피드백을 수용하고 계획을 수정하는 적응형 전략
Environmental Feedback: 행동 후 관찰 결과와 같은 실제, 가상 환경의 feedback을 받아 계획을 수정. 객관적 결과 ex) ReAct, Voyager, Ghost, SayPlan, DEPS, LLMPlanner, Inner Monologue(agent)
Human Feedback: 사람과 직접 상호작용하며 feedback을 받아 계획 수정. 주관적 기준 반영 ⇒ 인간의 가치와 선호에 맞도록 조정하여 hallucination 완화 ex) Inner Monologue(agent)
Model Feedback: 외부가 아닌 LLM 자신 또는 다른 모델들로부터 발생하는 내부 피드백. 주로 사전 학습된 모델들에 의해 생성됨. ex) Self-refine, SelfCheck, InterAct, ChatCoT, Reflexion(agent 내부에 적용되는 전략)
피드백 없는 계획 모듈은 구현이 단순하지만 간단한 작업에만 적합. 피드백 기반 계획 모듈은 설계가 복잡하지만 long-range reasoning이 필요한 복잡한 작업에 훨씬 효과적
Action Module: agent의 decision을 구체적인 outcome으로 바꿈. 아키텍처 상 가장 하단에 위치하여 실제 환경과 직접 상호작용. 앞의 세 모듈에 영향을 받음.
Action Goal: agent는 어떤 목적을 향해 수행되는가.
Task Completion: 정해진 작업을 완수하는 데 목적을 둠. 가장 일반적인 목표 유형 ex) Voyager, ChatDev
Communication: 다른 agent나 인간과 정보를 주고받거나 협업하기 위함. 대화나 정보 교환 자체가 목적. ex) ChatDev, Inner Monologue
Environment Exploration: 미지의 환경을 탐험하여 인지 범위를 확장하고 새로운 정보를 습득 목적. 목표가 완전히 정의되지 않았을 때 사용. ex) Voyager
Action Production: agent가 어떻게 행동을 생성하는지, 어떤 전략에 따라 행동을 결정하고 실행하는가. LLM은 입력과 출력이 직접 연결되지만 agent는 다양한 전략과 출처를 바탕으로 행동 생성 가능.
Action via Memory Recollection: 현재 작업에 따라 memory에서 정보를 꺼내어 행동 수행 ex) Generative Agents, GITM, ChatDev, MetaGPT
Aciton via Plan Following: agent가 미리 만든 계획에 따라 행동 수행 ex) DEPS, GITM
Action Space: agent가 실제로 취할 수 있는 가능한 행동의 집합. 무엇을 할 수 있는가.
External Tools: LLM은 domain이 정해진 분야에서 부족하거나 hallucination 문제도 있기 때문에 agent는 외부 도구를 사용함.
APIs: 최근 많이 사용하는 패러다임 ex) HuggingGPT, WebGPT, TPTU, Gorilla, ToolFormer, API-Bank, ToolLLaMA, RestGPT,TaskMatrix.AI (직.간접적으로 API 호출을 가능하게 만드는 방식들)
Databases & Knowledge Bases: 외부 DB, 지식베이스, 외부 모델들을 활용해서 행동을 생성할 수 있는 방식. LLM의 환각 문제 완화, domain 지식 보완 ex) ChatDB, MRKL, OpenAGI
External Models: 외부 ML/DL 모델 사용하는 방식. 단순 API 호출보다 범위가 넓고 고차원 작업에 적합. 각 모델이 여러 API 기능을 내포하거나 코드 실행을 통해 복합 행동 가능. ex) ViperGPT, ChemCrow, MM-REACT(VideoBERT, X-decoder, SpeechBERT)
Internal Knowledge: 외부 도구 없이 LLM이 학습된 지식만으로 행동을 생성.(2) Conversation Capability: 고품질 대화를 생성할 수 있는 능력 ex) ChatDev, RLP
Planning Capability: 복잡한 과제를 단순한 하위 과제로 나누는 계획 능력 ex) DEPS, GITM, Voyager
Conversation Capability: 고품질 대화를 생성할 수 있는 능력 ex) ChatDev, RLP
Common Sense Understanding: 상식을 이해해서 인간과 유사한 결정을 내릴 수 있는 능력 ex) Generative Agent, RecAgent, S3
Action Impact: 행동을 수행했을 때 agent 자신과 환경에 어떤 변화를 유발하나. 나오는 결과
Changing Environment: 위치 이동, 아이템 수집, 건물 건설 등으로 환경 자체 직접 변경 ex) GITM, Voyager
Altering Internal States: 기억 업데이트, 계획 변경, 지식 습득 등 내부 상태 변화 ex) Generative Agents, SayCan
Triggering New Actions: 다음 행동 유발 ex) Voyager(자원을 모으면 건물 건설 행동이 자동으로 이어짐)
2.2 Agent Capability Acquisition
agent가 인간처럼 작업을 수행하려면 architecture만으로는 부족하고 작업에 특화된 능력, 기술, 경험을 갖추게 하기 위한 다양한 전략이 필요
Capability Acquisition with Fine-tuning: task-specific dataset을 기반으로 LLM을 fine-tuning. agent 능력을 향상시키는 가장 직접적인 방법
Fine-tuning with Human Annotated Datasets: 사람이 직접 주석을 단 데이터셋을 활용. ⇒ 고품질 데이터 사용 가능. ex) CoH, RET-LLM, WebShop, EduChat
Fine-tuning with LLM Generated Datasets: LLM이 생성한 데이터셋을 활용. ⇒ 사람보다는 부족할 수 있지만 비용이 적고 확장성이 뛰어남. ex) ToolBench, Social Agent
Fine-tuning with Real-world Datasets: real-world에서 수집한 데이터를 활용. ⇒ 현실을 기반으로 자연스러운 사용자 행동 반영 가능, 규모가 크고 다양한 데이터셋 확보 가능. but, 데이터 품질이 고르지 않을 수 있고 보안 이슈 가능성 존재. ex) MIND2WEB, SQL-PaLM
Capability Acquisition without Fine-tuning: 과거 ML의 모델 능력은 데이터 학습을 통한 파라미터 업데이트였음. 현재 LLM의 모델 능력은 Fine-tuning, prompt engineering, mechanism engineering을 통해 습득됨.
Prompting Engineering: 원하는 능력이나 행동을 자연어로 설명하고 이를 프롬프트에 넣어 LLM 행동 유도 ex) CoT, Self-Consistent CoT, ToT, Reflective Listening Prompting (RLP), Retroformer
Mechanism Engineering: agent 자체의 행동 규칙, 피드백 매커니즘, 구조를 설계해서 능력을 강화하는 방법
Trial-and-Error: agent가 행동을 하면 사전에 정의한 critic이 행동을 평가. 행동이 만족스럽지 않으면 critic의 feedback을 받아 행동 수정. (self-improving loop 사용) ex) RAH, DEPS, RoCo, PREFER
Crowd-sourcing: 여러 agent가 서로 의견을 교환하고 조율하여 능력을 집단적으로 향상시키는 구조. 처음에는 서로 다른 agent들이 독립적으로 답변 → 답변이 일치하지 않으면 서로의 솔루션을 참고해서 답변을 update → 합의된 답변에 도달할 때까지 반복 →?? A2A인가 ㅇㅅㅇ ?????
Experience Accumulation: agent가 스스로 경험을 쌓고 기억하여 미래에 더 나은 행동을 하도록 만드는 구조 ex) GITM, Voyager, AppAgent, MemPrompt
Self-driven Evolution: agent가 스스로 목표를 세우고, 탐색하고, 피드백을 받아 성장하는 구조. ex) LMA3, SALLMMS, CLMTWA, NLSOM
Remark
Fine-tuning방법은 task-specific knowledge를 습득할 수 있지만 open source LLM에만 적합.
without Fine-tuning 방법은 open, close source LLM에 모두 적용가능하지만 LLM의 input context window로 인해 많은 정보를 줄 수 없음. 또한 design space가 너무 커서 최적의 방법을 찾기 어려움.
각자의 장단점이 있으니 상황에 맞는 선택 필요
3 LLM-based Autonomous Agent Application
LLM 기반 autonomous agent는 강력한 언어 이해, 복잡한 과제 추론, 일반 상식에 대한 이해 능력을 바탕으로 다양한 분야에 큰 영향을 미칠 수 있음.
이전 연구들을 요약하여 응용 분야에 따라 세 가지 영역으로 분류하여 소개
3.1 Social Science
인간 이해력, 인간적 사고, 복잡한 과제 해결 능력을 바탕으로 사회과학 분야를 발전 시킬 수 있음.
LLM 기반 agent가 사회과학 분야에서 영향을 미칠 수 있는 주요 영역들 소개
Psychology
심리 실험 시뮬레이션, 정신 건강 지원 등으로 활용 가능.
Political Science and Economy
정치적 이념 탐지, 투표 예측, 정치 연설 분석, 경제적 행동 시뮬레이션 등으로 활용 가능.
Social Simulation
LLM 기반 agent로 가상 사회를 구축하고 다양한 사회 현상 시뮬레이션이 가능해짐. ex) Social Simulacra, Generative Agents, AgentSims, SocialAI School, S³, CGMI
Jurisprudence
법적 의사결정 과정 지원 및 판결 보조 ex) Blind Judgement, ChatLaw
Research Assistant
사회과학 연구 전반에서도 사용됨. 새로운 연구 탐색, 논문 초록 생성, 핵심 키워드 추출, 연구 설계 스크립트 작성 등 다양한 지원 기능 존재.
3.2 Natural Science
자연현상을 기술하고 이해하고 예측하는 자연과학 분야에도 agent가 사용됨.
Documentation and Data Management
문헌 수집, 조직화, 통합 등에 시간이 많이 소요되지만 agent의 tool 활용 능력으로 인해 문서화 및 데이터 관리 작업에서 좋은 성과를 보임. ex) ChatMOF, ChemCrow
Natural Science Education
독립적으로 실험을 수행할 수 있는 능력을 갖추고 있음. agent를 통해 과학 실험 설계, 계획, 실행을 자동화 가능. ex) ChemCrow
3.3 Engineering
공학 연구 및 응용에도 많이 사용됨.
Computer Science & Software Engineering
코딩 자동화, 테스트, 디버깅, 문서 생성 등에 큰 가능성을 보임. ex) ChatDev, MetaGPT, LLIFT, ChatEDA, CodeHelp, Pentest, D-Bot
Industrial Automation
산업 생산 공정에서 지능형 계획와 제어를 수행. 디지털 트윈 시스템과 LLM의 통합으로 유연한 생산 요구에 대응함. ex) IELLM
Robotics & Embodied Artificial Intelligence
로봇 및 실제 환경 속에서 동작하는 인공지능 분야에서 LLM 기반 agent를 통한 강화학습 향상. embodied environment안에서 계획, 추론, 협력 능력 강화. ex) DECKARD(agent의 활동을 planner, actor, reporter 세 단계로 분리하여 체계적인 로봇 행동 설계), TaPA(multi modal 학습 데이터셋을 구축하여 이를 기반으로 LLM fine tuning. 시각 기반 작업에서 더 정확하고 실행 가능한 계획 생성 가능)
물리적 제약을 극복하기 위해 여러 skill을 활용해 실행 가능한 계획을 세우고 long-term task를 완료할 수 있음. ex) SayCan(집기, 놓기, 잡기, 조작 등과 같은 551개의 skill을 학습시켜 이동형 조작 로봇이 다양한 일상 환경 작업을 수행할 수 있도록 설계), TidyBot(가정 청소 작업을 개인화하는 인체화 agent)
LLM 기반 자율 agent의 적용을 용이하게 하기 위해 다양한 open source library들이 개발됨. ex) LangChain, XLang, AutoGPT, WorkGPT, GPT-Engineer, DemoGPT, SmolModels, AGiXT, AgentVerse, GPT Researcher, BMTools
정리: LLM 기반 agent는 복합 스킬을 활용해 실제 물리적 작업을 수행할 수 있으며 오픈소스 플랫폼을 통해 개발자들이 쉽게 커스터마이즈하고 실험할 수 있다.
Remark
위의 LLM-based agents의 응용에는 위험과 도전과제도 존재함.
LLM 자체가 오류를 내거나 illusion에 빠질 수 있음. 잘못된 답변, 실험 실패, 위험한 실험에서는 안전에 위협이 될 수 있음.
LLM agent가 악의적으로 사용될 가능성 human alignment같은 보안/윤리 조치가 필요함.
4 LLM-based Autonomous Agent Evaluation
agent의 성능 평가 역시 매우 어려운 분야
4.1 Subjective Evaluation
인간 평가자의 평가를 기반으로 agent 성능 측정. 평가용 dataset이 존재하지 않을 때 혹은 agent의 지능이나 사용자 친화성과 같은 수치화된 matrics 설계가 어려울 때 사용.
Human Annotation
사람 평가자가 직접 agent의 output을 평가하거나 ranking.
Turing Test
인간과 agent 결과를 구별할 수 있는지 평가하는 방법
인간 평가자가 agent 결과와 human 결과를 구분하지 못한다면 agent는 인간 수준의 성능을 달성했다고 볼 수 있음.
Remark
Agent는 인간을 위해 설계되므로 주관적 평가가 매우 중요함.
but, 비용이 많이 들고 비효율적이고 평가자 집단 편향 문제도 존재.
따라서 LLM을 활용해 주관적 평가를 대체, 보완하려는 연구가 활발해지고 있음.
ex) ChemCrow, ChatEval
4.2 Objective Evaluation
정량적 metrics를 기반으로 agent 능력 평가. 수치로 측정 가능하기에 비교와 시간 흐름에 따른 추적이 가능함.
Metrics
agent의 성능을 정확하고 포괄적으로 측정할 수 있도록 적절한 metrics를 설계
agent quality를 정확히 반영해야하고 실제 사용자 경험과도 align되어야 함.
기존 연구들에서 사용된 대표적인 메트릭
Task Success Metrics: agent가 주어진 과제를 얼마나 잘 수행했는지 측정 ex) Success Rate, Reward/Score, Coverage, Accuracy/Error Rate
Human Similarity Metrics: agent 행동이 인간과 얼마나 유사한지 수치화 ex) Coherence, Fluency, Dialogue Similarity, Human Acceptance Rate
Efficiency Metrics: 성과 자체가 아니라 성과를 내는 데 걸린 resource 평가 ex) Development Cost, Training Efficiency
Protocols
설계한 평가 metrics를 실제로 어떻게 활용할지에 대한 절차
기존 연구들에서 사용된 대표적인 평가 프로토콜
Real-world Simulation: 게임이나 대화형 시뮬레이터 같은 몰입형 환경 안에서 agent 평가. agent는 자율적으로 작업을 수행하고 완료된 목표를 기반으로 성공률, 인간 유사성 같은 메트릭으로 평가됨. 현실세계에서 이를 시뮬레이션함으로써 agent의 실제 적용 능력 평가 가능.
Social Evaluation: 시뮬레이션된 사회 환경 안에서 agent의 상호작용을 분석하여 사회적 지능 평가. 협업 과제에서는 팀워크 평가, 토론에서는 논증적 추론 능력 평가, 인간 대상 연구에서는 사회성 평가를 진행함. 일관성, Theory of Mind, Social IQ 등을 분석하여 협력, 커뮤니케이션 등과 같은 능력을 측정함.
Multi-task Evaluation: 다양한 domain의 여러 작업을 이용해 agent 평가. agent의 범용성 측정
Software Testing: teat case generation, 버그 재현, 코드 디버깅, 개발자 및 외부 툴과 상호작용을 시킴. 이후 test coverage, bug detection rate 같은 객관적 메트릭을 이용해 성능을 수치화.
Benchmarks
정해진 Metrics와 Protocols를 활용해 agent를 평가하기 위해 사용하는 표준 test 환경 및 시나리오.
다양한 domain, 상황에서 LLM agent 능력을 평가하기 위한 벤치마크가 개발되어옴. ex) ALFWorld, IGLU, Minecraft, Tachikuma, AgentBench, SocKET, AgentSims, ToolBench, WebShop, Mobile-Env, WebArena, GentBench, RocoBench, EmotionBench, PEB, ClemBench, E2E
Remark
객관적 평가는 다양한 metrics를 통해 agent의 능력을 정량적으로 분석할 수 있게 해줌.
현재 기술로는 agent의 모든 능력을 완벽하게 측정할 수 없지만 객관적, 주관적 평가를 보완하는 중요한 insight를 제공함.
두 방법을 결합해 종합적으로 평가하는 것이 중요함.
정리: 어떤 기준으로 성능을 평가할지 metric으로 나타내고 정한 기준, metric을 실제로 어떻게 적용할지 protocol로 나타낸다.
5 Related Surveys
LLM과 관련된 다양한 survey 논문들을 소개하고 본 논문의 차별점 강조
지금까지 LLM 자체, 응용, human alignment, reasoning, 평가 등을 주제로 다양한 서베이가 존재했지만 LLM 기반 agent를 포괄적으로 다룬 최초의 survey
6 Challenges
6.1 Role-playing Capability
agent가 다양한 roles를 정확히 수행하는 데 한계 존재
LLM은 web-corpus 기반으로 훈련됨.
웹에서 드물게 다루어지는 역할, 새롭게 등장한 역할에는 취약
LLM은 인간 인지 심리 특성을 잘 모델링하지 못해 self-awareness가 필요한 대화 상황에서 부족함.
→ 이를 해결하기 위해서는 fine-tuning, agent prompt, architecture 정교한 설계 등이 있음.
fine-tuning → 새로운 역할 수행 능력을 높이면서도 기존의 성능을 유지하는 것이 문제
prompt/architecture → design space가 너무 넓어서 최적을 찾기 쉽지 않음
6.2 Generalized Human Alignment
LLM에서도 human alignment는 많이 논의되어왔지만 시뮬레이션 기반 agent 분야에서는 훨씬 더 깊이 있게 논의되어야함.
LLM은 correct human values에 맞추어 fine-tuning됨.
agent를 현실 세계 시뮬레이션에 활용하기 위해서는 인간의 다양한 특성을 정직하게 묘사할 수 있어야함.ex) 현실 세계 사회를 시뮬레이션하려면 agent가 폭탄을 만드는 계획을 세우는 것을 허용해야하고 그것이 실제로 어떻게 실행되는지, 그 행동이 어떤 영향을 미치는지 관찰해야함. + 이 관찰을 바탕으로 현실 세계에서 비슷한 행동을 막기 위한 대응을 설계할 수 있음.
→ incorrect values까지 포함해야함.
목적과 응용 분야에 따라 agent가 다양한 인간 가치에 맞춰 alignment될 수 있어야함.
prompting strategies를 설계하여 모델 realign하는 방법 찾아야함.
6.3 Prompt Robustness
agent에 memory나 planning 같은 보조 module을 추가하면 일관된 작동과 효과적인 module간 소통을 위해 complex prompts를 설계해야함.
현재 LLM의 prompt는 robustness가 부족함. → minor alterations에도 결과가 크게 달라짐.
autonomous agent는 모든 모듈을 고려한 prompt framework 구성의 어려움.
해결: 필수적인 프롬프트 요소를 수작업으로 시행착오를 거쳐 만들어내는 법 / GPT를 사용하여 프롬프트를 자동 생성하는 법
결론: 다양한 모델에서도 잘 작동하는 통합적이고 견고한 프롬프트 프레임워크 개발이 매해결 과제
6.4 Hallucination
모델이 높은 confidence를 가지고 false information을 생성하는 경향
단순 LLM뿐만 아니라 자율 agent 분야에서도 심각한 문제
해결: 실시간으로 인간이 수정하고 피드백을 주는 구조 필요
6.5 Knowledge Boundary
LLM이 인간을 시뮬레이션할 때 과도한 사전 지식을 사용하는 문제
즉, 일반적인 사람을 초월하는 웹 지식을 가지고 있어 지나치게 똑똑한 agent가 될 수 있음.
인간처럼 모르는 상황을 제대로 재현하지 못함.
해결: 사용자가 모르는 지식을 LLM이 사용하지 못하도록 constrain 필요
6.6 Efficiency
LLM의 autogressive architecture로 인해 inference speed가 느림.
agent는 메모리 조회, 계획 수립 등을 위해 매 행동마다 여러 번 LLM에 질의를 해야하기 때문에 LLM 추론 속도에 의해 agent의 효율성이 심각하게 제한됨.
해결: ?? 논문에서 언급하지는 않았으나 추론 최적화, 모델 경량화, 캐싱 등의 연구 필요