INTERN/Paper Review

[Paper Review] Mixture-of-Agents Enhances Large Language Model Capabilities

dotudy 2025. 4. 4. 11:02

0. Abstract

LLM이 하나일 때보다 여러 개의 LLM을 잘 조합하면 더 좋은 성능을 보이지 않을까해서 나온 논문이다. 어떤 문제를 풀 때 한 모델만 쓰는게 아니라 여러 모델들이 서로 협력해서 더 똑똑한 답을 내보자는 것이다. 해당 논문에서 제안한 방식은 Mixture-of-Agents, 즉 여러 LLM을 에이전트로 묶어서 사용하는 구조이다. 이 agent들은 layer처럼 층을 이루고 각 agent는 그 전 단계의 다른 agent들이 낸 답변들을 참고해서 새로운 답변을 만든다. AlpacaEval 2.0, MT-Bench, FLASK에서 테스트했을 때 최신 GPT-4 Omni보다 성능이 좋았고 오픈소스 모델만으로 만든 MoA가 GPT-4 Omni보다 더 높은 점수를 받았다는데 의의가 있다. 

 

1. Introduction

LLM이 빠르게 발전하고 있고 엄청난 데이터로 pre-training하고 human preference에 맞춰 fine-tuning된다. 하지만 여전히 한계는 존재한다. 아직 모델 크기에는 물리적 한계가 있고 더 성능을 높이기 위해 수조 token의 data로 재학습해야하기 때문에 돈도, 자원도 엄청 드는 것이다. 또한 LLM들은 각자 특화된 능력들이 있기 때문에 이를 모아보면 더 똑똑한 system이 될 수 있다는 생각에 이러한 질문을 만들어냈다. 

Can we harness the collective expertise of multiple LLMs to create a more capable and robust model?

여러 LLM의 전문성을 모아보면 더 똑똑한 system을 만들 수 있지 않을까?

LLM이 다른 모델의 출력, 답변을 같이 보여주면 원래보다 더 나은 답변을 하는 Collaborativeness라는 현상을 발견했다. 아래의 Figure 1에서는 AlpacaEval 2.0에서 6개의 LLM들이 협업 구조에서 얼마나 성능이 올라가는지를 확인할 수 있다.

Length-Controlled AlpacaEval 기준 승률(답변 길이를 통제한 조건)

실험 결과, 어떤 LLM에 다른 모델들이 낸 답변을 보여주면 

1. 해당 LLM의 성능이 눈에 띄게 올라갔고

2. 그 다른 답변의 질이 낮더라도 효과가 있었으며

3. 그것을 LLM collaborativeness라고 부르기로 했다.

 

이러한 insight를 바탕으로 저자들은 Mixture-of-Agents(MoA)라는 방식을 만들어냈다. 다음 그림과 같이 해당 구조는 여러 레이어로 구성되어 있다. 

1. 1단계의 LLM들(A₁,₁ ~ A₁,ₙ)이 같은 프롬프트에 대해 각자 독립적으로 답변을 만든다.

2. 2단계의 LLM들(A₂,₁ ~ A₂,ₙ)이 1단계 모델들의 답변을 보고 더 나은 답변으로 다듬는다. (이전 단계와 같은 모델을 재사용할 수도 있다.)

3. 이 과정을 반복하면서 더 정교한 답변을 만든다.

4. 결론적으로 더 종합적인 응답을 얻을 수 있다. 

 

물론 MoA 구조에서 어떤 모델들을 어떤 순서로 배치할지 결정하는 것도 중요하다. 해당 논문에서는 두 가지 선택 기준을 가지고 모델을 선택하였다.

1. 성능 기준(Performance Metrics)

각 레이어의 모델들이 얼마나 잘했는지를 보고 다음 레이어 넣을 모델을 골라야한다. i번째 레이어에서 평균 win rate가 높은 모델을 i+1번째 레이어에서도 쓰면 좋다.

2. 다양성 기준(Diversity Considerations)

서로 다른 아키텍처와 훈련 방식의 모델을 쓸수록 더 풍부한 답변이 나온다.

 

이러한 기준에 따라 MoA를 설계했더니 AlpacaEval 2.0에서 65.8%의 win rate를 보였고 이는 GPT-4 Omni보다 8% 높은 성능이다. 따라서 해당 논문은 여러 LLM의 강점을 합치는 Mixture-of-Agents를 제안했고 질이 낮은 답변이라도 다른 LLM과 함께 쓴다면 더 좋은 답변이 나올 수 있다는 것을 보였고 주요 벤치마크에서 SOTA를 달성했다는데에 의의가 있다.

 

2. Mixture-of-Agents Methodology

 

해당 파트에서는 여러 모델들을 활용해 성능을 향상시키는 방법론을 제시하고 이 collaborativeness을 바탕으로 MoA 구조가 어떻게 동작하는지 소개한다. 그리고 설계시 어떤 점을 고려해야하는지 design implications를 다룬다. 

 

2.1 Collaborativeness of LLMs

 

LLM에게 서로의 답변을 보여주면 더 좋은 결과가 나온다는 것을 확인했다. 이제 어떻게 협업을 시켜야 가장 maximize 성능을 보일 수 있을지를 연구하였다. 그래서 LLM들은 두 가지 역할로 분류하였다.

1) Proposers

해당 역할의 모델은 다른 모델이 참고할 수 있는 유용한 응답을 잘 만들어내는 데 특화되어있다. Proposer 그 자체만으로 성능이 좋진 않더라도 더 풍부한 context와 다양한 perspective를 제공해서 다른 모델이 더 나은 결과를 내는 데 기여할 수 있다. 이렇게 형성된 응답은 aggregator에 의해 통합될 때 더 나은 최종 응답을 만드는 데 기여한다. 

2) Aggregator

해당 역할의 모델은 다른 모델들의 응답을 하나의 고품질 응답으로 잘 통합하는 데 특화되어있다. 자신보다 수준이 낮은 입력들을 받아들이더라도 출력의 품질을 유지하거나 향상시킬 수 있어야한다.  

 

대부분의 모델은 두 역할 모두 어느 정도 가능하지만 일부는 특정 역할에 더 특화되어있음을 실험으로 검증하였다. GPT-4o, Qwen1.5, LLaMA-3는 둘다 잘하지만 WizardLM과 같은 경우는 Proposer로는 높은 성능을 보였지만 Aggregator의 역할에서는 부족함을 보였다. 이런 실험은 Section 3에서 다룬다. 

 

더 좋은 결과를 얻기 위해서는

1) 여러 Proposer가 아이디어를 제시하고

2) 여러 Aggregator가 이것을 한 번에 모으고

3) 이 결과를 다시 다른 Aggregator가 정제하는 방식이 필요하다.

이러한 Iterative Aggregation을 통해 모델들의 강점을 합치고 더 정제된 응답을 생성하는 것이 Mixture-of-Agent 구조의 설계 아이디어이다. 

 

2.2 Mixture-of-Agents

 

MoA는 여러 개의 layer로 구성되어있고 각 layer에는 여러 개의 LLM agent $A_{i,j}$가 있다. 각 agent는 입력 텍스트를 받아 응답을 생성하고 각 층의 모든 agent 결과를 합해서 다음 층으로 전달한다. Temperature sampling의 확률성 때문에 매번 다른 결과가 출력되므로 같은 층이든, 다른 층이든 같은 모델을 여러 번 재사용할 수 있다. 같은 층에 하나의 모델만을 여 번 사용해서 여러 제안을 뽑아내는 구조를 single-proposer라고 한다.

$x_i$: $i$번째 레이어의 입력

$A_{i,j}(x_i)$: $i$번째 레이어의 $j$번째 모델이 생성한 응답

$⊕$: 여러 응답을 Aggregate-and-Synthesize 프롬프트로 묶는 것

$+$: 프롬프트 $x_1$과 concatenation

 

즉,

1) 각 레이어에서 n개의 모델이 각각 응답을 생성하면 

2) 이를 다 합쳐서 새로운 프롬프트처럼 만들어서 다음 레이어로 전달하고

3) 레이어를 반복해서 마지막 단계 ($l$번째)의 결과만 평가한다.

 

이러한 구조에서는 프롬프트만 잘 구성해서 LLM에 넣어주면 되기 때문에 fine-tuning이 필요없어서 프로그래밍만으로 간단하게 MoA를 구현할 수 있다. 또한 마지막 단계에서는 프롬프트와 모델 응답을 연결할 필요가 없으므로 하나의 LLM만 사용하면 된다. 

 

아래의 Table 1이 사용하는 프롬프트이다. 

 

2.3 Analogy to Mixture-of-Experts (MoE)

MoE는 머신러닝에서 여러 개의 Expert를 조합해 문제를 푸는 구조이고 각 submodel는 특정 능력에 특화되어있다. 어떤 입력이 들어오면 gating Network가 어떤 expert한테 일을 맡길지 결정한다. 보통 MoE layer라는 계층 구조로 구성되며 각 레이어에는 n개의 expert들과 gating network가 함께 존재한다. 

$E_{i,j}$: j번째 expert가 처리한 출력

$G_{i,j}$: gating network가 판단한 가중치

$x$: 입력값

$+ x_i$: 원래의 입력을 더해 안정성을 높임

 

MoA는 이 개념을 한 단계 더 확장한 것이다.

1) 하나의 모델 안에 전문가 서브 네트워크가 있는 MoE와 달리 MoA는 서로 다른 LLM들 자체가 전문가로 구성된다.

2) 모델 내부의 가중치나 활성값들을 조정하지 않고 프롬프트 인터페이스만 사용하여 작동한다.

3) 게이팅 역할과 전문가 역할 모두 LLM이 수행한다. LLM은 프롬프트를 이해해서 중요한 응답을 뽑고 종합된 고품질 응답을 생성한다. 

4) MoA는 기존 LLM의 프롬프트 기능만 활용하기 때문에 fine-tuning이 필요없고 최신 LLM에 유연하게 적용 가능한 확장성까지 확보했다.

 

3. Evaluation

 

핵심 결과만 얘기하자면 다음과 같다. 

1) AlpacaEval 2.0, MT-Bench, FLASK 모두에서 성능 향상을 보였다.

- AlpacaEval 2.0, FLASK를 기준으로 오픈소스 모델만으로도 GPT-4o를 능가할 수 있었다.

2) MoA의 작동 원리를 실험적으로 분석하여 어떤 구조나 역할 배치가 더 작동하는지 분석하였다.

3) 비용 대비 성능이 뛰어나다. 몇몇 MoA 구조는 GPT-4 Turbo 수준 성능을 절반 비용으로 구현이 가능하다.

 

3.1 Setup

1) Benchmarks

- AlpacalEval 2.0: 805개의 현실적인 지시문 사용. GPT-4와 비교하며 선호도 평가, 길이 통제 포함

- MT-Bench: GPT-4가 각 응답을 직접 점수로 평가

- FLASK: 12개의 세부 스킬 점수를 기준으로 평가 (정확성, 추론, 요약 등)

2) Models

 

  • Qwen1.5-110B-Chat
  • Qwen1.5-72B-Chat
  • WizardLM-8x22B
  • LLaMA-3-70B-Instruct
  • Mixtral-8x22B-v0.1
  • dbrx-instruct

위의 6개 모델을 3개의 모든 MoA layer에 동일하게 사용하였다.

마지막 layer에는 Qwen1.5-110B-Chat모델을 aggregator로 사용하였다. 

 

이름 구조 Aggregator 특징
MoA 3-layer Qwen1.5-110B-Chat 기본 구조, 성능 우선
MoA w/ GPT-4o 3-layer GPT-4o 마지막 레이어만 GPT-4o 사용 -> 고품질 출력
MoA-Lite 2-layer Qwen1.5-72B-Chat 비용 절감 버전, 성능도 준수함 (AlpacaEval 기준 GPT-4o보다 1.8% 높음)

 

 

3.2 Benchmark Results

 

AlpacaEval 2.0 리더보드에서 MoA가 최상위 성능을 기록했다. 오픈소스 모델만 사용했을 때도 GPT-4o보다 높은 성능을 보이고 심지어 비용 절감을 위한 MoA-Lite 구조조차도 GPT-4o를 이겼다. 

 

MT-Bench에서는 MoA의 성능 향상이 상대적으로 높지는 않았지만 여전히 리더보드에서 1위를 기록했다. 현재 모델들이 이미 9점 이상일 정도로 상향평준화된 환경이기 때문이다. 이미 최적화된 환경에서도 MoA는 더 성능을 끌어올릴 수 있다는 것을 보여준다.

 

FLASK에서는 정확성, 사실성 등 12가지 세부 항목별로 평가를 제공하고 MoA가 여러 항목에서 Aggregator 단독 모델(Qwen-110B-Chat)보다 우수했다. 견고함, 정확성, 효율성, 사실성, 상식, 통찰력, 완성도가 그 항목이다. 또한 GPT-4 Omni와 비교했을 때도 MoA는 정확성, 사실성, 통찰력, 완성도, 메타인지 부분에서 우수했다.

다만, 간결성 항목에서 조금 더 장황한 응답을 생성했다. 이는 출력이 조금 더 길고 설명이 많은 경향이 있었음을 의미한다. 

 

3.3 What Makes Mixture-of-Agents Work Well?

 

Mixture-of-Agents significantly outperforms LLM rankers.

MoA는 proposer 여러 개의 응답을 종합해서 새로운 응답을 생성하지만 LLM-ranker는 proposer 응답 중 하나만 골라서 채택한다. 

Figure 4의 (a)에 그 결과가 나와있다. 같은 6개 proposer 모델을 쓰되 마지막 aggregator만 다르게 바꿔 실험을 진행하였다. MoA방식이 Ranker방식보다 LC win rate가 눈에 띄게 높음을 확인할 수 있고 GPT-4o를 aggregator로 쓰면 당연히 성능이 더 좋지만 오픈소스만으로도 상당한 성능이 확보가 됨을 알 수 있다. 이 결과로 aggregator가 단순히 좋은 응답을 고르기만 하는 것이 아니라 여러 응답을 바탕으로 복잡하고 정교한 통합을 수행한다는 것을 시사한다.

 

MoA tends to incorporate the best proposed answers.

MoA의 aggregator가 정말 좋은 proposer 답변을 잘 활용하는 것인지 확인하기 위한 실험을 진행하였다. 이를 확인하기 위해 proposer의 응답과 aggregator의 응답 간의 유사도를 측정하였다.

실험 방식은 다음과 같다.

1) n개의 proposer 응답이 있다고 가정한다.

2) 각 proposer 응답과 aggregator의 최종 응답 사이의 유사도 (BLEU 점수)를 계산한다.

3) 동시에, 같은 proposer 응답에 대해 GPT-4 평가자가 얼마나 선호했는지 기록한다.

4) 그 두 값의 순위 상관 관계를 Spearman 상관계수로 계산한다.  

상관관계가 높으면 aggregator의 응답이 GPT-4가 선호한 응답과 더 유사하는 것을 의미하고 MoA가 좋은 답을 잘 골라서 반영하고 있음을 의미한다. BLEU 외에도 Levenshtein 거리, TF-IDF 기반 유사도 실험을 반복하였으며 모두 GPT-4의 선호도와 양의 상관관계를 보였다.

Figure 4의 (b)를 보면 초기 단계부터 aggregator가 좋은 응답을 잘 반영하고 있으며 레이어를 거치며 종합이 더 정교해지기 때문에 유사도보다는 논리적 구성이나 재표현하는 것이 높아져 유사도는 약간 떨어져도 응답 품질은 여전히 높을 수 있음을 시사한다.  

 

Effect of model diversity and the number of proposers.

모델의 다양성과 proposer 수가 MoA 성능에 어떤 영향을 미치는지를 분석하였다. 각 레이어에 있는 proposer 수(n)를 바꿔가며, 최종 출력 품질이 어떻게 변하는지 실험했다. Table 3의 결과에 따르면 proposer의 수가 더 많을수록 응답 점수도 꾸준히 증가함을 알 수 있다. 

또한 proposer들을 다양한 LLM으로 구성했을 때의 효과를 보았다. single-proposer일 때는 같은 LLM이 temperature=0.7로 n개의 응답을 생성하였고 multiple-proposer일 때는 서로 다른 LLM들이 각각 응답을 생성하였다. 실험 결과 더 다양한 모델을 쓴 경우가 항상 더 좋은 결과를 만들었다. 

 

Specialization of models in the Mixture-of-Agent ecosystem.

MoA 구조 안에서 모델들이 Proposer과 Aggregator 중 어떤 역할에 더 적합한지를 알아보기 위한 역할 특화 실험을 진행했다. Table 4의 결과를 보면 GPT-4o, Qwen 시리즈, LLaMA-3는 Proposer와 Aggregator 역할을 모두 잘 수행함을 볼 수 있다. 반면, WizardLM은 proposer의 역할에 아주 강점을 보였다. 

 

3.4 Budget and Token Analysis

해당 파트에서는 단순히 성능이 높다는 것을 넘어, 비용대비 얼마나 효율적인지, 속도 측면에서 경쟁력이 있는지를 분석하였다. 

Figure 5a는 성능과 비용 사이의 관계를 비교하였다. 그래프에는 같은 성능일 때 더 저렴한 조합, 또는 같은 비용일 때 더 높은 성능 조합을 보여주는 파레토 최적선을 그려준다. 같은 비용이면 성능이 더 좋은 모델, 혹은 같은 성능이면 비용이 더 낮은 모델이 이 선 위에 위치한다. MoA 구조는 이 선 위에 위치하므로 비용 대비 성능이 최적화된 구조임을 알 수 있다. 반면 GPT-Turbo나 GPT-4o는 같은 성능을 내더라도 MoA보다 비싸서 비효율적이다. 

Figure 5b는 성능과 FLOPs(초당 연산량)의 관계를 그렸는데 FLOPs는 대략적으로 추론에 걸리는 시간의 지로 쓰인다. proposer는 병렬 실행이 가능하기 때문에 각 레이어마다 proposer 중 가장 연산량이 큰 모델의 FLOPs만 더해서 계산하였다. 비용-성능 분석과 마찬가지로, 이 연산량-성능 관계에서도 Pareto 최적선이 형성되고 Pareto 선 위에 있는 모델들은 최소한의 연산 자원으로 최대한의 성능을 내는 효율적인 구조라는 의미이다. 그리고 MoA는 지연 대비 성능 면에서도 더 효율적이다. GPT-4의 정확한 FLOPs는 알려져 있지 않지만 커뮤니티에서 추정하는 8x220B 아키텍처 기준으로 계산했다.

 

5. Conclusion

여러 LLM을 협업시키는 Mixture-of-Agents(MoA) 구조를 제안하였고 각각의 LLM보다 훨씬 뛰어난 응답 품질을 달성하였다. 

Limitations

여러 레이어에서 모델 응답을 반복적으로 종합하기 때문에 마지막 MoA 레이어까지 도달해야 첫 토큰을 생성할 수 있다. 이는 사용자가 볼 수 있는 응답 시작이 늦어진다는 뜻이다. 이로 인해 TTFT(첫 토큰 생성까지 걸리는 시간)가 길어질 수 있다. 이를 해결하기 위해서는 MoA 레이어 수를 줄이는 것이다. 또는 전체 응답을 한 번에 통합하는 대신 일부 chunk로 나눠서 점진적으로 종합하는 방식도 고려해볼 수 있다. 

 

 

MoA 방식이 실제로 SOTA 성능을 뛰어넘었고 다수 모델 협업이라는 패러다임이 가능성이 크기 때문에 spotlight로 선정되었다.