INTERN 14

[Paper Review] SELF-REFINE: Iterative Refinement with Self-Feedback

Abstract문제사람과 마찬가지로 LLM도 한 번에 좋은 답을 내지 못할 수도 있음.제안SELF-REFINE 방법을 제안하여 인간처럼 LLM도 자기 피드백으로 글을 다듬게 하자.방법처음에 LLM이 답을 작성그 답을 다시 LLM이 읽고 스스로 피드백을 작성해당 피드백을 반영하여 더 나은 답을 재작성iterative refinement장점별도 학습이 필요 없음라벨링 데이터가 필요 없음강화학습없이 단 하나의 LLM만 있으면 됨.실험7개의 과제에서 실험 진행기존 방식보다 평균 20% 성능 향상을 보였고 사람과 자동 평가 모두에서 더 나은 결과로 평가됨.1 Introduction문제 상황LLM이 일관성 있는 출력을 생성할 수 있지만 여러 목적이 얽혀 있는 과제나 목표를 명확히 정의하기 어려운 과제와 같은 복잡한..

INTERN/Paper Review 2025.05.09

[Paper Review] A Survey on Large Language Model based Autonomous Agents [23.08 ~ 25.03 Survey]

https://arxiv.org/abs/2308.11432 최종 요약LLM 기반 자율 agent의 architecture, capability acquistion, application, evaluation을 포괄적으로 정리한다.agent의 모듈들을 체계적으로 분석하고 주관적. 객관적 평가 방법과 다양한 벤치마크를 소개한다.역할 수행, 일반화된 human alignment, 장기 추론, 메모리 통합 등 아직 해결되지 않은 주요 과제들을 제시하고 미래 연구 방향을 제안한다.AbstractLLM-based autonomous agents의 구성, 다양한 응용 분야, 평가 방법 분석 1 Introduction과거 연구: Simple & heuristic policy function에 따라 작동 + 제한된, ..

INTERN/Paper Review 2025.04.22

[Paper Review] Adaptive Human-Agent Teaming: A Review of Empirical Studies from theProcess Dynamics Perspective [25.04 Survey]

https://arxiv.org/abs/2504.109181. Introduction사람과 에이전트가 팀을 이루는 HAT(Human-Agent Teaming) 패러다임 발전현재까지 연구는 단편적이고 특정 이슈(신뢰)에만 집중되어 현실에서 중요한 적응력은 다루지 못함.**→ T⁴ 프레임워크**를 통해 HAT 체계적 분석팀 형성 → 과업 및 역할 개발 → 팀 개발 → 팀 개선 (현재는 2, 3단계에 과도하게 집중되어있음)결론 : 팀 형성과 진화 과정을 통합적으로 이해하고, 실제 적용 가능한 HAT 시스템을 만들기 위한 방향성 제시2. Related Work지금까지의 HAT reviewsProblem-Based Reviews: 특정 문제 상황이나 이슈에 집중함(팀 성능, 권한 분배 문제)Factor-Based..

INTERN/Paper Review 2025.04.22

[Paper Review] Mixture-of-Agents Enhances Large Language Model Capabilities

0. AbstractLLM이 하나일 때보다 여러 개의 LLM을 잘 조합하면 더 좋은 성능을 보이지 않을까해서 나온 논문이다. 어떤 문제를 풀 때 한 모델만 쓰는게 아니라 여러 모델들이 서로 협력해서 더 똑똑한 답을 내보자는 것이다. 해당 논문에서 제안한 방식은 Mixture-of-Agents, 즉 여러 LLM을 에이전트로 묶어서 사용하는 구조이다. 이 agent들은 layer처럼 층을 이루고 각 agent는 그 전 단계의 다른 agent들이 낸 답변들을 참고해서 새로운 답변을 만든다. AlpacaEval 2.0, MT-Bench, FLASK에서 테스트했을 때 최신 GPT-4 Omni보다 성능이 좋았고 오픈소스 모델만으로 만든 MoA가 GPT-4 Omni보다 더 높은 점수를 받았다는데 의의가 있다.  1...

INTERN/Paper Review 2025.04.04

[Paper Review] Large Language Model based Multi-Agents: A Survey of Progress and Challenges

https://arxiv.org/pdf/2402.016800. Abstract LLM은 요즘 많이 발전을 해서 혼자서도 다양한 일을 잘 처리할 수 있다. 그래서 이 모델을 하나만 쓰는 것이 아니라 여러 개를 통합적으로 써서 더 복잡한 문제를 해결하려는 시도가 많아지고 있다. 이를 multi agent system이라고 부른다. 해당 논문은 그런 LLM 기반 multi agent system이 지금까지 어떻게 발전했는지, 어떤 문제가 있는지, 그리고 어떤 기술이 사용되는지 등을 정리해서 보여주는 서베이 논문이다. 또한 자주 사용되는 데이터셋이나 벤치마크도 정리해두어 쉽게 접근할 수 있도록 하였다. 1. Introduction LLM은 최근에 사람과 비슷한 수준의 추론 및 계획 수립 능력을 보여주며 rema..

INTERN/Paper Review 2025.03.28

[Paper Review] Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Abstract 인공지능 언어 모델이 여러 문제를 해결하는데 널리 사용되고 있지만 여전히 단어를 왼쪽에서 오른쪽으로 순차적으로 예측하는 방식인 Left-To-Right, Token-Level decision Process에 국한된다. 이는 탐험, 전략 예측 혹은 initial decision이 큰 영향을 미치는 문제에 대해서는 어려움을 겪을 수 있다.  더보기Token-Level Decision Process: 이 모델은 문장을 한꺼번에 생성하는 것이 아니라, 단어(또는 서브워드) 단위로 하나씩 생성하며 예측합니다. 즉, 한 번에 문장을 전체적으로 조망하는 것이 아니라 앞선 단어들을 기반으로 점진적으로 단어를 선택합니다.이를 해결하기 위해서 LM 추론을 위한 새 framework인 Tree of Thou..

INTERN/Paper Review 2025.03.14

[Paper Review] Least-to-Most Prompting Enables Complex Reasoning in Large Language Models

AbstractChain-of-thought (CoT) prompting이 다양한 자연어 추론 작업에서 뛰어난 성능을 보이지만 주어진 예제보다 더 어려운 문제를 해결하는 능력에서는 한계를 보인다. 이를 해결하기 위해 저자는 Least-to-Most prompting이라는 새로운 프롬프팅 기법을 제안한다. 핵심 아이디어는 복잡한 문제를 일련의 더 간단한 하위 문제로 나눈 뒤 이를 순차적으로 해결하는 것이다. 이전 단계에서 해결한 하위 문제의 답을 활용하서 다음 하위 문제를 풀어나가면서 최종적으로 원래의 복잡한 문제를 해결하는 방식이다. 실험 결과 기호 조작, compositional generalization, 수학적 추론 등의 작업에서 Least-to-Most prompting이 기존 방법보다 더 어려운..

INTERN/Paper Review 2025.02.28

MathPrompter: Mathematical Reasoning using Large Language Models

https://arxiv.org/abs/2303.05398 OverviewArithmetic 문제에 대한 LLM의 성능을 향상시키고 생성 결과물에 대한 신뢰도를 높이는 방법론인 MathPrompter 제안 AbstractLLM은 산술 추론 문제를 풀 때 성능이 제한적이며 틀린 답을 제공한다. 이는 유일한 정답을 갖기 때문에 LLM이 정확한 해답을 생성하는 것이 까다롭다. 자신의 응답에 대한 확신 수준을 명시해 주는 LLM은 존재하지 않기 때문에 모델의 신뢰도가 낮아져 실제 활용이 어려워진다. 이런 한계를 해결하기 위해 저자는 산술 문제에서 LLM의 성능을 개선하고 예측 결과에 대한 신뢰도를 높일 수 있는 MathPrompter를 제안한다.  MathPrompter는 Zero-shot CoT 프롬프트 기법..

INTERN/Paper Review 2025.02.21

[Paper Review] Dense Passage Retrieval for Open-Domain Question Answering

Open-demain question answering(ODQA) task는 large collection of document로부터 question에 대한 정보를 찾아 답변하는 task이다.이런 task를 수행하는 framework는 retriever-reader 두 가지로 구성된다.retriever는 질문에 대한 답이 담겨있는 small subset of passage를 선택하여 retrieve 하는 역할reader는 retrieved context를 받아와 알맞은 answer를 산출하는 역할을 한다.  해당 연구가 진행될 시기는 retriever 부분에서 TF-IDF와 BM25와 같은 방법론들이 주로 사용되었다.그리고 이러한 방법론이 아닌 dense encoding에 집중하였다. 이는 동음이의어나 ..

INTERN/Paper Review 2025.01.10

[논문 리뷰] DeBERTa: Decoding-enhanced BERT with Disentangled Attention

Abstractpre-trained neural language model은 많은 NLP의 성능의 향상을 가져왔다. 해당 논문에서는 두 개의 새로운 기술을 이용하여 BERT와 RoBERTa 모델을 향상시킨 새로운 model architecture DeBERTa (Decoding-enhanced BERT with disentangled attention)를 제공한다. 첫번째로 disentangled attention mechanism이 있다. 이는 Content vector, Position vector 벡터로 나눠서 단어를 표현하고 단어들 사이의 attention weight을 단어의 내용과 상대적인 위치에 따라 각각 disentanlged matrices를 사용해 계산된다. Content vector는..

INTERN/Paper Review 2025.01.03