효율적인 LLM Fine-Tuning 기법: Adapter Tuning vs Full Fine-Tuning 차이점 분석

대규모 언어 모델(LLM)을 특정 도메인이나 태스크에 맞게 최적화하려면 파인튜닝(Fine-Tuning) 과정이 필요합니다. 하지만 LLM의 크기가 수십억 개의 파라미터를 포함하는 만큼, 기존의 풀 파인튜닝(Full Fine-Tuning) 방식은 매우 높은 연산 비용과 메모리 사용량을 요구한다는 부분을 놓칠 수 없습니다. 이를 해결하기 위해 등장한 방법이 어댑터 튜닝(Adapter Tuning)이며, 두 기법은 각각의 장점과 한계를 가지고 있어 이를 한 번 살펴보겠습니다.

1. Full Fine-Tuning의 개념과 적용 방식

Full Fine-Tuning은 모델의 모든 가중치를 학습 가능한 상태로 두고 새로운 데이터셋을 이용해 다시 학습하는 방식입니다. 이 방법은 원본 모델의 성능을 극대화하면서도 특정 태스크에 대한 적응력을 높일 수 있다는 장점이 있습니다.

Full Fine-Tuning의 주요 특징은 아래와 같습니다.

모델의 모든 파라미터를 업데이트하며, 원래의 사전 학습된 가중치를 수정합니다.
도메인 특화된 데이터셋을 활용하여 높은 성능을 얻을 수 있습니다.
대규모 데이터셋을 활용하면 강력한 모델을 만들 수 있지만, 연산 비용이 매우 높고 메모리 사용량이 큽니다.

Hugging Face의 `transformers` 라이브러리를 활용한 Full Fine-Tuning 예제를 한 번 코드로 살펴보겠습니다.


from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
import torch

# 모델 및 토크나이저 로드
model_name = "meta-llama/Llama-2-7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 데이터셋 예제
train_data = [
    {"input": "Translate this to French: Hello, how are you?", "output": "Bonjour, comment ça va?"},
    {"input": "Summarize: The global economy is unstable due to...", "output": "Economic instability is rising..."}
]

# TrainingArguments 설정
training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    logging_dir="./logs",
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_data
)

trainer.train()

Full Fine-Tuning 방식은 모델이 특정 태스크에 대해 최적화될 수 있지만, 모든 파라미터를 업데이트해야 하기 때문에 훈련 시간이 오래 걸리고 대규모 GPU 리소스가 필요합니다.

2. Adapter Tuning의 개념과 적용 방식

Adapter Tuning은 기존 모델의 가중치를 고정한 상태에서, 추가적인 작은 네트워크(어댑터)를 삽입하여 학습하는 방식입니다. 이 방식은 파라미터 업데이트를 최소화하면서도 특정 태스크에 맞는 튜닝이 가능하도록 해줍니다.

Adapter Tuning의 주요 특징은 다음과 같습니다.

기존 모델의 가중치는 변경하지 않고, 특정 레이어 사이에 작은 어댑터 모듈을 추가하여 학습합니다.
훈련해야 할 파라미터 수가 적어 GPU 메모리 사용량이 줄어들고, 학습 속도가 빨라집니다.
어댑터 모듈을 저장하고 쉽게 교체할 수 있어, 여러 태스크에 빠르게 적용할 수 있습니다.

Hugging Face의 `peft` 라이브러리를 활용한 Adapter Tuning 예제를 코드로 살펴보겠습니다. llama 모델을 사옹하여 구현하였습니다.


from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import get_peft_model, PeftConfig, TaskType

# 모델 및 토크나이저 로드
model_name = "meta-llama/Llama-2-7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Adapter 설정
adapter_config = PeftConfig(
    task_type=TaskType.CAUSAL_LM, 
    inference_mode=False, 
    r=8, 
    lora_alpha=32, 
    lora_dropout=0.1
)

# Adapter 적용
adapter_model = get_peft_model(model, adapter_config)

# 모델 훈련 수행
adapter_model.train()

Adapter Tuning 방식은 Full Fine-Tuning과 비교했을 때 메모리 사용량을 크게 줄일 수 있으며, 특정 태스크에 맞춘 튜닝이 빠르게 이루어질 수 있다는 장점이 있습니다.

3. 그렇다면 Adapter Tuning vs Full Fine-Tuning 중에 어떤 방식이 더 적합할까?

두 기법은 각각의 장단점이 있으며, 사용 목적에 따라 적절한 방식을 선택해야 한다고 생각합니다.

첫 번째로, Full Fine-Tuning은 모델의 모든 파라미터를 업데이트하기 때문에 최상의 성능을 얻을 수 있지만, 연산 비용이 매우 높아 GPU 자원이 충분해야 한다는 점이 부각됩니다. 따라서, 새로운 언어 모델을 개발하거나 대규모 데이터셋을 이용해 강력한 모델을 만들 때 적합합니다. 하지만 기업 환경에서 제한된 리소스로 특정 태스크에 최적화해야 하는 경우에는 부담이 될 수 있다는 점도, 고려해야 합니다.

반면에 Adapter Tuning은 기존 모델의 가중치를 그대로 유지하면서도 특정 태스크에 맞춰 효율적으로 튜닝할 수 있는 방식입니다. GPU 메모리 사용량이 적어 단일 GPU에서도 훈련할 수 있으며, 어댑터 모듈을 따로 저장하고 교체할 수 있기 때문에 다양한 태스크에 빠르게 적용할 수 있습니다. 다만, 모델의 전체적인 성능을 최적화하기보다는 특정 태스크에 초점을 맞추는 방식이므로, 복잡한 자연어 이해 능력을 개선하는 데는 한계가 있을 수 있습니다.

결국에는 모델을 완전히 재학습할 필요가 있는 경우에는 Full Fine-Tuning이 적합하며, 빠르게 특정 태스크에 맞춰 튜닝하고자 한다면 Adapter Tuning이 더 효율적인 선택이 될 것이라고 생각합니다. 최근에는 두 가지의 방식을 결합하여, 중요한 태스크에 대해서는 Adapter Tuning을 적용하고, 필요할 때만 Full Fine-Tuning을 수행하는 하이브리드 접근 방식도 연구되고 있습니다.

저작자표시 비영리 변경금지 (새창열림)

부기의 IT 공간

효율적인 LLM Fine-Tuning 기법: Adapter Tuning vs Full Fine-Tuning 차이점 분석

1. Full Fine-Tuning의 개념과 적용 방식

2. Adapter Tuning의 개념과 적용 방식

3. 그렇다면 Adapter Tuning vs Full Fine-Tuning 중에 어떤 방식이 더 적합할까?

티스토리툴바