0. Abstract현황LLM이 사용자가 원하는 언어로 일정하게 텍스트를 생성하지 못함.제안Language Confusion Benchmark(LCB)를 만들어 총 15개의 언어를 대상으로 영어/다국어 프롬프트를 사용하여 테스트 진행실험 결과LLaMA Instruct와 Mistral 모델이 Language confusion이 심함.Base Model과 영어 중심의 instruct 모델이 language confusion에 더 취약복잡한 prompt와 sampling temperature가 높을수록 혼동이 심해짐.few-shot prompt, 다국어 SFT(Supervised Fine-Tuning), 선호 조성(Preference Tuning)을 통해 부분적으로 완화 가능1. Introduction현황 및..