Gemini Embedding: Gemini를 활용한 일반화된 임베딩 모델

AI로 요약된 콘텐츠

Gemini Embedding: Gemini를 활용한 일반화된 임베딩 모델

1. 개요 (Abstract)

Gemini Embedding은 Google의 강력한 대규모 언어 모델(LLM)인 Gemini를 기반으로 한 최첨단 임베딩 모델입니다. 이 모델은 다국어 처리 능력과 코드 이해 능력을 활용하여 다양한 언어와 텍스트 형식에 걸쳐 일반화된 임베딩을 생성합니다. 이 임베딩은 분류, 유사도 계산, 클러스터링, 랭킹, 검색 등 다양한 작업에 활용될 수 있으며, 사전 계산이 가능해 효율적입니다.

특히, Massive Multilingual Text Embedding Benchmark (MMTEB)에서 250개 이상의 언어와 100개 이상의 작업을 평가한 결과, Gemini Embedding은 기존의 최첨단 모델을 크게 능가하며 다국어, 영어, 코드 작업에서 새로운 기준을 세웠습니다. 이 모델은 특정 도메인에 특화된 모델을 넘어서는 통합된 강력한 성능을 보여줍니다.

2. 도입 (Introduction)

임베딩 모델은 입력 데이터를 밀집 벡터 표현으로 변환하여 텍스트의 의미를 효과적으로 캡처합니다. 예를 들어, 의미적으로 유사한 텍스트는 임베딩 공간에서 가까운 위치에 배치됩니다. 최근 연구는 정보 검색, 클러스터링, 분류와 같은 다양한 작업에서 뛰어난 성능을 발휘할 수 있는 범용 임베딩 모델 개발에 초점을 맞추고 있습니다.

대규모 언어 모델(LLM)은 방대한 사전 학습 데이터를 활용하여 이러한 범용 임베딩 모델을 구축하는 데 유망한 도구로 자리 잡았습니다. 특히, LLM은 고품질 데이터 생성과 모델 초기화에 활용되어 성능을 크게 향상시킬 수 있습니다.

"Gemini Embedding은 Gemini의 강력한 다국어 및 코드 이해 능력을 활용하여, 다양한 작업과 언어에서 뛰어난 성능을 발휘하는 통합 임베딩 모델을 제공합니다."

3. Gemini Embedding의 기술적 세부사항

3.1 모델 구조 (Model Architecture)

Gemini Embedding은 Gemini의 사전 학습된 파라미터를 초기화 값으로 사용하여 구축되었습니다. 이는 모델이 이미 방대한 언어 지식을 보유하고 있음을 의미하며, 이를 기반으로 추가 학습을 통해 다양한 작업에 적합한 표현을 생성합니다.

입력 텍스트는 Transformer 기반 모델을 통해 처리되며, 각 토큰은 벡터로 변환됩니다.
Mean Pooling 기법을 사용하여 전체 입력을 하나의 벡터로 요약합니다.
마지막으로, 선형 변환을 통해 목표 차원에 맞게 임베딩을 조정합니다.

3.2 학습 목표 (Training Objective)

모델은 대조 학습(Contrastive Learning)을 통해 학습됩니다. 이는 쿼리와 긍정적/부정적 예제를 비교하여 의미적으로 유사한 텍스트를 가까운 벡터로 매핑하는 방식입니다.

쿼리(q)와 긍정적 예제(p⁺), 부정적 예제(p⁻) 간의 코사인 유사도를 계산하여 손실을 최소화합니다.
다중 손실(Multi-loss) 기법을 도입하여 다양한 차원에서 학습을 진행합니다.

3.3 학습 과정 (Training Recipe)

사전 미세 조정(Pre-finetuning):
- 대규모의 잠재적으로 노이즈가 있는 데이터셋에서 학습.
- 모델의 초기 파라미터를 조정하여 임베딩 생성에 적합하도록 만듦.
미세 조정(Finetuning):
- 특정 작업에 맞춘 데이터셋에서 학습.
- 소규모 배치 크기를 사용하여 작업별 신호를 강화.
모델 수프(Model Soup):
- 여러 학습 체크포인트를 평균화하여 최종 모델 생성.
- 다양한 데이터 변형과 실험을 통해 최적의 조합을 도출.

4. 데이터셋 및 데이터 품질 향상

4.1 학습 데이터 구성

사전 미세 조정:
- 웹 코퍼스에서 제목과 본문 쌍을 사용하여 긍정적 예제를 생성.
미세 조정:
- 작업 다양성, 언어 다양성, 코드 처리 능력을 목표로 한 데이터셋 혼합.

4.2 Gemini를 활용한 데이터 품질 향상

합성 데이터 생성:
- Gemini를 사용해 검색 및 분류 작업에 적합한 합성 데이터를 생성.
- 예: 감정 분석, 리뷰 분류 데이터셋.
데이터 필터링:
- Gemini를 활용해 저품질 데이터를 제거.
하드 네거티브 마이닝:
- 쿼리와 유사하지만 정답이 아닌 예제를 찾아 학습에 활용.

"Gemini는 데이터 생성, 필터링, 하드 네거티브 마이닝을 통해 학습 데이터의 품질을 크게 향상시켰습니다."

5. 평가 (Evaluation)

5.1 벤치마크 및 작업

Gemini Embedding은 MMTEB, XOR-Retrieve, XTREME-UP와 같은 다양한 벤치마크에서 평가되었습니다. 특히, MMTEB는 250개 이상의 언어와 10가지 작업 유형(예: 분류, 검색, 클러스터링)을 포함합니다.

5.2 전반적인 성능

MMTEB(Multilingual):
- 평균 점수 68.32로 2위 모델 대비 +5.09 향상.
- 분류(+9.6), 클러스터링(+3.7), 검색(+9.0)에서 두드러진 성능.
MTEB(Eng, v2):
- 영어 작업에서도 최고 성능 기록.
MTEB(Code):
- 코드 검색 작업에서도 1위 달성.
XTREME-UP:
- 저자원 언어에서도 뛰어난 교차 언어 검색 성능.

"Gemini Embedding은 다국어와 저자원 언어에서도 강력한 성능을 발휘하며, 새로운 기준을 세웠습니다."

6. 분석 (Ablation Study)

6.1 다국어 작업에 대한 일반화

영어 데이터만으로 학습했을 때도 다국어 작업에서 강력한 성능을 발휘.
작업 다양성이 언어 다양성보다 더 중요한 요소로 나타남.

6.2 데이터 품질 향상 기법

합성 데이터:
- Gemini로 생성한 데이터는 실제 데이터와 유사한 성능을 보임.
데이터 필터링:
- 저품질 데이터를 제거함으로써 성능 향상.
하드 네거티브:
- 적절한 하드 네거티브는 검색 성능을 강화하지만, 과도한 사용은 과적합을 초래.

7. 미래 작업 (Future Work)

다중 모달리티 확장:
- 텍스트 외에도 이미지, 비디오, 오디오를 포함한 임베딩 개발.
통합 임베딩 공간:
- 다양한 모달리티를 하나의 임베딩 공간에 통합.

8. 결론 (Conclusion)

Gemini Embedding은 통합적이고 범용적인 임베딩 모델로, 다국어와 코드 이해 능력을 활용하여 최첨단 성능을 제공합니다. 이 모델은 효율적으로 사전 계산 및 캐싱이 가능하며, 다양한 작업에서 활용될 수 있습니다. 특히, MMTEB 평가에서 기존 모델을 능가하며, 분류, 클러스터링, 검색 작업에서 두드러진 성능을 보였습니다.