1. Introduction
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ฌ์ ํ ์น๋ช ์ ์ธ ๋จ์ ๋ค์ ์๊ณ ์๋ค. ํนํ ํ์ต ๋ฐ์ดํฐ์ ์๋ ์ต์ ์ ๋ณด๋ฅผ ๋ชจ๋ฅธ๋ค๊ฑฐ๋ ์์ฉ ์ํฉ์์ ๊ธฐ์ ๋ด ์ ๋ณด๋ฅผ ์ฐธ์กฐํ ์ ์๋ค. ์ด๋ฌํ ์ง์ cut-off(๋จ์ ) ๋ฌธ์ ๋ ๊ฒฐ๊ณผ์ ์ผ๋ก LLM์ผ๋ก ํ์ฌ๊ธ ์ฌ์ค์ด ์๋ ๋ด์ฉ์ ์ฌ์ค์ฒ๋ผ ๋งํ๋ ํ๊ฐ(Hallucination) ํ์์ ์ ๋ํ๋ค. ๋ํ, ๋ชจ๋ธ์ด ๋ด๋๋ ๋ต์ ์ถ๋ก ๊ณผ์ ์ ํฌ๋ช ํ๊ฒ ์๊ธฐ ์ด๋ ต๋ค๋ ๋จ์ ๋ ์ง์ ๋๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฒ์ด ๋ฐ๋ก RAG(Retrieval-Augmented Generation, ๊ฒ์ ์ฆ๊ฐ ์์ฑ)์ด๋ค. RAG๋ LLM์ด ๋ด๋ถ์ ํ๋ผ๋ฏธํฐ ์ง์์๋ง ์์กดํ๋ ๊ฒ์ด ์๋๋ผ, ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๊ด๋ จ ์ง์์ ์ฐพ์์ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ต๋ณ์ ์์ฑํ๊ฒ ํ๋ค. ์ด๋ฅผ ํตํด ๋ต๋ณ์ ์ ํ๋์ ์ ๋ขฐ์ฑ์ ๋์ด๊ณ , ์ง์์ ์ธ ์ง์ ์ ๋ฐ์ดํธ๊ฐ ๊ฐ๋ฅํด์ง๋ค. ์ด ๋ ผ๋ฌธ์ RAG ๊ธฐ์ ์ด ์ด๋ป๊ฒ ๋ฐ์ ํด์๋์ง๋ฅผ ํ๋์ ๋ณด์ฌ์ฃผ๋ ๊ธฐ์ ํธ๋ฆฌ(Technology Tree)๋ฅผ ์ ์ํ๊ณ ์๋ค.

์ ๊ทธ๋ฆผ(Fig. 1)์์ ๋ณผ ์ ์๋ฏ์ด, RAG ์ฐ๊ตฌ์ ๊ถค์ ์ ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ์งํํด ์๋ค.
- Pre-training (์ฌ์ ํ์ต ๋จ๊ณ): ์ด๊ธฐ์๋ Transformer ๊ตฌ์กฐ์ ๋ฑ์ฅ๊ณผ ํจ๊ป ์ฌ์ ํ์ต ๋ชจ๋ธ(PTM)์ ์ถ๊ฐ์ ์ธ ์ง์์ ์ฃผ์ ํ๋ ์ฐ๊ตฌ๊ฐ ์ฃผ๋ฅผ ์ด๋ค๋ค.
- Inference (์ถ๋ก ๋จ๊ณ): ChatGPT ์ดํ, LLM์ ๊ฐ๋ ฅํ In-Context Learning(ICL) ๋ฅ๋ ฅ์ ํ์ฉํ์ฌ ์ถ๋ก ์์ ์ ๋ ๋์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ์ฐ๊ตฌ๊ฐ ํญ๋ฐ์ ์ผ๋ก ์ฑ์ฅํ๋ค.
- Fine-tuning (๋ฏธ์ธ ์กฐ์ ๋จ๊ณ): ์ต๊ทผ์๋ ๊ฒ์๋ ์ ๋ณด๋ฅผ ๋จ์ํ ํ์ฉํ๋ ๊ฒ์ ๋์ด, RAG ํ๋ก์ธ์ค ์์ฒด๋ฅผ LLM์ ๋ฏธ์ธ ์กฐ์ ๊ณผ ๊ฒฐํฉํ์ฌ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๊ณ ์๋ค.
2. Overview of RAG
1. RAG์ ์๋ ํ๋ก์ธ์ค
์ ํ์ ์ธ RAG์ ๊ณผ์ ์ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ํด ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๊ด๋ จ ๋ฌธ์ ์ฒญํฌ(Chunk)๋ฅผ ๊ฒ์(Retrieval)ํ๊ณ , ์ด๋ฅผ ์ง๋ฌธ๊ณผ ๊ฒฐํฉํ์ฌ LLM์ด ๋ต๋ณ์ ์์ฑ(Generation)ํ๋ ๊ตฌ์กฐ๋ค. ์ด๋ฅผ ํตํด LLM์ ํ์ต ๋ฐ์ดํฐ์ ์๋ ์ต์ ์ ๋ณด๋ฅผ ๋ฐ์ํ๊ณ , ํ๊ฐ(Hallucination)์ ์ค์ด๋ฉฐ ๋ต๋ณ์ ์ ๋ขฐ๋๋ฅผ ๋์ผ ์ ์๋ค.

2. RAG ํจ๋ฌ๋ค์์ ์งํ (RAG Paradigm)
A. Naive RAG (Retrieve - Read Framework)
Naive RAG๋ ChatGPT์ ๋ฑ์ฅ ์งํ ๋๋ฆฌ ์ฑํ๋ ๊ฐ์ฅ ์ด๊ธฐ์ ์ฐ๊ตฌ ํจ๋ฌ๋ค์์ผ๋ก, ์ ํต์ ์ธ "Retrieve-Read" ํ๋ ์์ํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
- ํ๋ก์ธ์ค:
-
Indexing (์ธ๋ฑ์ฑ): PDF, HTML ๋ฑ ๋ค์ํ ํฌ๋งท์ ๋ฌธ์๋ฅผ ํ ์คํธ๋ก ์ถ์ถํ๊ณ ์ฒญํฌ(Chunk) ๋จ์๋ก ์๋ผ ๊ตฌ์ฑํ ๋ค, ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํตํด ๋ฒกํฐ๋ก ๋ณํํ์ฌ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฅํ๋ค.
-
Retrieval (๊ฒ์): ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ฒกํฐํํ์ฌ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ด์ ์ฒญํฌ๋ค๊ณผ ์ ์ฌ๋(Similarity)๋ฅผ ๊ณ์ฐํ๊ณ , ๊ฐ์ฅ ๊ด๋ จ์ฑ์ด ๋์ ์์ K๊ฐ์ ๋ฌธ์๋ฅผ ๊ฐ์ ธ์จ๋ค.
-
Generation (์์ฑ): ๊ฒ์๋ ๋ฌธ์๋ฅผ ์ง๋ฌธ๊ณผ ๊ฒฐํฉํ์ฌ ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํ๊ณ , ์ด๋ฅผ LLM์ ์ ๋ ฅํ์ฌ ์ต์ข ๋ต๋ณ์ ์์ฑํ๋ค.
-
- ํ๊ณ์ (Limitations): ์๋ฌธ์์๋ Naive RAG๊ฐ ๊ฐ์ง๋ ํ๊ณ๋ฅผ ์ธ ๊ฐ์ง ์ธก๋ฉด์์ ๊ตฌ์ฒด์ ์ผ๋ก ์ง์ ํ๋ค.
-
Retrieval Challenges: ๊ฒ์์ ์ ํ๋(Precision)์ ์ฌํ์จ(Recall)์ด ๋ฎ์, ๊ด๋ จ ์๋ ๋ฌธ์๋ฅผ ๊ฐ์ ธ์ค๊ฑฐ๋ ์ค์ํ ์ ๋ณด๋ฅผ ๋์น๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๋ค.
-
Generation Difficulties: ๋ชจ๋ธ์ด ๊ฒ์๋ ์ ๋ณด์ ๊ธฐ๋ฐํ์ง ์๊ณ ํ๊ตฌ์ ๋ด์ฉ์ ๋ตํ๋ ํ๊ฐ(Hallucination) ๋ฌธ์ ๊ฐ ์ฌ์ ํ๋ฉฐ, ๋ต๋ณ์ ํธํฅ์ฑ์ด๋ ๋ ์ฑ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค.
-
Augmentation Hurdles: ๊ฒ์๋ ์ ๋ณด๋ค์ด ์๋ก ์ถฉ๋ํ๊ฑฐ๋ ์ค๋ณต๋ ๋ ์ด๋ฅผ ๋งค๋๋ฝ๊ฒ ํตํฉํ์ง ๋ชปํ์ฌ, ๋ต๋ณ์ด ์๋ค๊ฐ ์ ๋ง๊ฑฐ๋(Disjointed) ๋ถํ์ํ๊ฒ ๋ฐ๋ณต๋๋(Repetitive) ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
-
B. Advanced RAG: Optimization for Quality
Advanced RAG๋ Naive RAG์ ๊ฒ์ ํ์ง๊ณผ ์์ฑ ํ์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฒ์ ์ (Pre-retrieval)๊ณผ ๊ฒ์ ํ(Post-retrieval) ๊ณผ์ ์ ์ต์ ํํ๋ ์ ๋ต์ ๋์ ํ๋ค.
- Pre-retrieval Process (๊ฒ์ ์ ์ต์ ํ):
- Indexing Optimization: ๋ฐ์ดํฐ์ ํ์ง์ ๋์ด๊ธฐ ์ํด ์ฌ๋ผ์ด๋ฉ ์๋์ฐ(Sliding window) ๋ฐฉ์์ด๋ ๋ ์ธ๋ฐํ ์ฒญํน(Fine-grained segmentation)์ ์ ์ฉํ๊ณ , ๋ฉํ๋ฐ์ดํฐ(Metadata)๋ฅผ ์ถ๊ฐํ์ฌ ์ธ๋ฑ์ฑ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ ํ๋ค.
- Query Optimization: ์ฌ์ฉ์์ ์ง๋ฌธ์ ๊ทธ๋๋ก ์ฐ์ง ์๊ณ , ์ฟผ๋ฆฌ ์ฌ์์ฑ(Rewriting), ๋ณํ(Transformation), ํ์ฅ(Expansion) ๋ฑ์ ๊ธฐ๋ฒ์ ํตํด ๊ฒ์์ ์ต์ ํ๋ ํํ๋ก ๋ค๋ฌ๋๋ค.
- Post-retrieval Process (๊ฒ์ ํ ์ต์ ํ):
- Rerank (์ฌ์์ํ): ๊ฒ์๋ ๋ฌธ์๋ค ์ค ๊ฐ์ฅ ๊ด๋ จ์ฑ ๋์ ์ ๋ณด๊ฐ ํ๋กฌํํธ์ ์์ด๋ ๋ค(Edges)์ ์์นํ๋๋ก ์์๋ฅผ ์ฌ์กฐ์ ํ๋ค. ์ด๋ LLM์ด ๊ธด ๋ฌธ๋งฅ์ ์ค๊ฐ์ ์๋ ์ ๋ณด๋ฅผ ๋ง๊ฐํ๋ 'Lost in the middle' ํ์์ ๋ฐฉ์งํ๊ธฐ ์ํจ์ด๋ค.
- Context Compression (๋ฌธ๋งฅ ์์ถ): ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ค ๋ฃ์ผ๋ฉด ์ ๋ณด ๊ณผ๋ถํ๊ฐ ๊ฑธ๋ฆฌ๋ฏ๋ก, ๋ถํ์ํ ๋ด์ฉ์ ์ ๊ฑฐํ๊ณ ํต์ฌ ์ ๋ณด๋ง ์์ถํ์ฌ LLM์ ์ ๋ฌํ๋ค.

C. Modular RAG: Flexibility and Versatility
Modular RAG๋ ๊ธฐ์กด์ ์ ํ์ ์ธ ๊ตฌ์กฐ๋ฅผ ํํผํ์ฌ, ๋ค์ํ ๊ธฐ๋ฅ ๋ชจ๋์ ๋ ๊ณ ๋ธ๋ก์ฒ๋ผ ์กฐ๋ฆฝํ ์ ์๋ ๊ฐ์ฅ ์ง๋ณด๋ ํํ์ด๋ค.
- New Modules (์๋ก์ด ๋ชจ๋์ ๋์
): ๋จ์ ๊ฒ์ ์ธ์ ํนํ๋ ๊ธฐ๋ฅ์ ์ํํ๋ ๋ชจ๋๋ค์ด ์ถ๊ฐ๋์๋ค.
- Search Module: ํน์ ์๋๋ฆฌ์ค(๋ฐ์ดํฐ๋ฒ ์ด์ค, ์ง์ ๊ทธ๋ํ ๋ฑ)์ ๋ง์ถฐ ๊ฒ์ ์์ง์ด๋ ์ฝ๋๋ฅผ ์ด์ฉํด ์ง์ ๊ฒ์์ ์ํํ๋ค.
-
RAG-Fusion: ์ฌ์ฉ์์ ์ฟผ๋ฆฌ๋ฅผ ์ฌ๋ฌ ๊ด์ ์ผ๋ก ํ์ฅ(Multi-query)ํ์ฌ ๊ฒ์ํ๊ณ , ์ด๋ฅผ ๋ค์ ํตํฉํ์ฌ ๋ต๋ณ์ ๋ค์์ฑ์ ํ๋ณดํ๋ค.
-
Memory Module: LLM์ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฅ์ ํ์ฉํ์ฌ ๊ฒ์์ ๊ฐ์ด๋ํ๊ณ , ์ง์์ ์ผ๋ก ์ง์์ ์ ๋ฐ์ดํธํ๋ ๋ฌด์ ํ ๋ฉ๋ชจ๋ฆฌ ํ์ ์์ฑํ๋ค.
- Routing: ์ง๋ฌธ์ ์ข ๋ฅ์ ๋ฐ๋ผ ์์ฝ์ด ํ์ํ์ง, ํน์ DB ๊ฒ์์ด ํ์ํ์ง ๋ฑ ์ต์ ์ ๊ฒฝ๋ก๋ฅผ ์ค์ ํ๋ค.
- Predict: ๊ฒ์ ๋์ LLM์ด ์ง์ ๋งฅ๋ฝ์ ์์ฑํ์ฌ ์ค๋ณต๊ณผ ๋ ธ์ด์ฆ๋ฅผ ์ค์ธ๋ค.
- New Patterns (์๋ก์ด ํจํด์ ์ ์ฉ): ์ ํด์ง ์์(Retrieve -> Read)๊ฐ ์๋๋ผ ์ ์ฐํ ํ๋ฆ์ ๊ฐ์ง๊ธฐ๋ ํ๋ค.
-
Rewrite-Retrieve-Read: ๊ฒ์ ์ ์ ์ฟผ๋ฆฌ๋ฅผ ๋จผ์ ์ฌ์์ฑํ๋ค.
-
Generate-Read: ๊ฒ์ ๋์ LLM์ ์์ฑ ๋ฅ๋ ฅ์ ๋จผ์ ํ์ฉํ๋ค.
-
Hybrid Retrieval: ํค์๋ ๊ฒ์๊ณผ ์๋งจํฑ ๊ฒ์์ ํผํฉํ์ฌ ์ฌ์ฉํ๋ค.
-
DSP (Demonstrate-Search-Predict): ๋ฌธ๋งฅ ๋ด ํ์ต(In-Context Learning)์ ๊ฐํํ๊ธฐ ์ํด ์์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ๊ฒ์ํ๊ณ ์์ธกํ๋ ํ๋ ์์ํฌ์ด๋ค.
- Iterative & Adaptive: ITER-RETGEN์ฒ๋ผ ๊ฒ์๊ณผ ์ฝ๊ธฐ๋ฅผ ๋ฐ๋ณตํ๊ฑฐ๋, Self-RAG์ฒ๋ผ ๊ฒ์์ด ํ์ํ ์๊ฐ์ ๋ชจ๋ธ์ด ์ค์ค๋ก ํ๋จ(Adaptive)ํ์ฌ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ค.
-
์ด๊ธฐ RAG๊ฐ ์ผ์ง์ ์ ํ์ดํ๋ผ์ธ์ด์๋ค๋ฉด, Modular RAG๋ ๋ ๊ณ ๋ธ๋ก์ฒ๋ผ ์กฐ๋ฆฝ ๊ฐ๋ฅํ ์์ฝ์์คํ ์ผ๋ก ๋ณ๋ชจํ๋ค๋ ์ ์ด ํฅ๋ฏธ๋กญ๋ค. ์ด๋ RAG๊ฐ ๋จ์ํ ๊ธฐ์ ์ ๋์ด ํ๋์ ๊ฑฐ๋ํ ์ํคํ ์ฒ๋ก ์งํํ๊ณ ์์์ ์์ฌํ๋ค.
3. RAG vs Fine-tuning "RAG๋ฅผ ์ธ๊น, ํ์ธ ํ๋์ ํ ๊น?"๋ ํ์ ์ ๊ณ ๋ฏผ๊ฑฐ๋ฆฌ์ด๋ค. ์ด๋ฅผ ๋น์ ํ๋ฉด ์๋์ ๊ฐ๋ค.
- RAG: ๋ชจ๋ธ์๊ฒ ๋ง์ถคํ ๊ต๊ณผ์(Textbook)๋ฅผ ์ฅ์ฌ์ฃผ๊ณ ์ ๋ณด๋ฅผ ์ฐพ์๋ณด๊ฒ ํ๋ ๊ฒ๊ณผ ๊ฐ์, ์ ๋ฐํ ์ ๋ณด ๊ฒ์์ ์ ๋ฆฌํ๋ค. ๋ํ, ํ๋ผ๋ฏธํฐ ํ๋์ ์ํ ์ปดํจํ ์์๊ณผ ๋ฐ์ดํฐ, ์๊ฐ์ ๋น์ฉ์ด ์ ๊ธฐ ๋๋ฌธ์ ํจ์จ์ฑ์์ ํฐ ์ฐ์๋ฅผ ๊ฐ์ง๋ค.
- Fine-tuning: ํ์์ด ์ง์์ ๋ด๋ฉดํ(Internalizing)ํ์ฌ ์ํ์ ๋ณด๋ ๊ฒ๊ณผ ๊ฐ์, ํน์ ํ์์ด๋ ์คํ์ผ์ ํ์ตํ๋ ๋ฐ ์ ๋ฆฌํ๋ค. ์ด๋ ๊ธฐ์กด LLM์ ๊ฐ์ ์ธ ๋ณดํธ์ฑ/์ผ๋ฐํ๋ ์ง์์ ํฌ๊ธฐํ๋ ๋์ , ํน์ ์์ ์ ๋ ์ ๋ฌธ์ ์ธ ํ์ฉ์ด ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก ๋ ๊ธฐ์ ์ ์ํธ ๋ฐฐํ์ ์ธ ๊ฒ์ด ์๋๋ผ ์ํธ ๋ณด์์ ์ด๋ฉฐ, ์ต์ ์ ์ฑ๋ฅ์ ์ํด์๋ ํจ๊ป ์ฌ์ฉํ๋ ๊ฒ์ ๊ณ ๋ คํ๋ ๊ฒ์ด ์ ์ ํ๋ค.
3. Retrieval
RAG์ ์ฑ๋ฅ์ ๊ฒฐ๊ตญ "์ผ๋ง๋ ๊ด๋ จ ์๋ ๋ฌธ์๋ฅผ ์ ํํ๊ฒ ์ฐพ์์ค๋๋"์ ๋ฌ๋ ค์๋ค. ์ด ์น์ ์์๋ ๊ฒ์ ํ์ง์ ๋์ด๊ธฐ ์ํ ๋ค์ํ ์๋๋ค์ ๋ค๋ฃฌ๋ค. ๊ฒ์ ์์ค์ ํ์ฅ๋ถํฐ ์ธ๋ฑ์ฑ, ์ฟผ๋ฆฌ ์ต์ ํ, ๊ทธ๋ฆฌ๊ณ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ๋๊น์ง, '์ํ๋ ์ ๋ณด๋ฅผ ์ ํํ ์ฐพ์์ค๊ธฐ ์ํ' ๋ชจ๋ ๊ธฐ์ ์ ์๋๋ค์ด ์ด์ด์ ธ์๋ค.
1. ๊ฒ์ ์์ค (Retrieval Source): ๊ฒ์์ ๋์์ด ๋๋ ๋ฐ์ดํฐ๋ ํํ์ ์ ๋ ๋ด์ง๋ ๋ฐ์ง๋(Granularity)์ ๋ฐ๋ผ RAG์ ์ฑ๋ฅ์ ์ง๋ํ ์ํฅ์ ๋ฏธ์น๋ค.
-
๋ฐ์ ํ ๋ฐ์ดํฐ (Semi-structured): PDF์ฒ๋ผ ํ ์คํธ์ ํ๊ฐ ์์ธ ๋ฐ์ดํฐ๋ ํ ์คํธ ๋ถํ ์ ํ๊ฐ ๊นจ์ง๋ ๋ฌธ์ ๊ฐ ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ๋ฅผ ํ ์คํธ๋ก ๋ณํํ๊ฑฐ๋, LLM์ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ๋น๋ ค Text-to-SQL๋ก ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด ์๋๋๊ณ ์๋ค.
-
๊ตฌ์กฐํ ๋ฐ์ดํฐ (Structured): ์ง์ ๊ทธ๋ํ(Knowledge Graph, KG)๋ ๊ฒ์ฆ๋ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ค๋ ์ ์์ ๋งค์ฐ ์ ์ฉํ๋ค. KnowledGPT๋ G-Retriever ๊ฐ์ ์ฐ๊ตฌ๋ KG์์ ์ ํํ ์ฌ์ค ๊ด๊ณ๋ฅผ ์ถ์ถํด LLM์ ํ๊ฐ์ ์ค์ด๋ ค๊ณ ์๋ํ๋ค.
-
LLM ์์ฑ ์ฝํ ์ธ (LLMs-Generated Content): ์ญ๋ฐ์์ผ๋ก, ์ธ๋ถ ๋ฐ์ดํฐ๊ฐ ์๋ LLM์ด ์ค์ค๋ก ์์ฑํ ์ง์์ ๊ฒ์ ์์ค๋ก ์ฐ๊ธฐ๋ ํ๋ค. GenRead๋ ๊ฒ์๊ธฐ ๋์ LLM ์์ฑ๊ธฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ๋งฅ์ ๋ง๋ค๊ณ , Selfmem์ ์์ฑ๋ ๋ต๋ณ์ ๋ค์ ๋ฉ๋ชจ๋ฆฌ ํ์ ์ ์ฅํด ์ค์ค๋ก๋ฅผ ๊ฐํํ๋ค.
- ๋ฐ์ดํฐ ๊ตฌ์กฐ์ ํ์ฅ: ์ด๊ธฐ์๋ ์ํคํผ๋์ ๊ฐ์ ๋น์ ํ ํ ์คํธ(Unstructured Data)๊ฐ ์ฃผ๋ฅ์์ผ๋, ์ ์ฐจ ๊ทธ ๋ฒ์๊ฐ ๋์ด์ง๊ณ ์๋ค.
- ๊ฒ์ ์ ๋ (Retrieval Granularity): ๋ฐ์ดํฐ๋ฅผ ์ด๋ ํฌ๊ธฐ๋ก ์๋ผ์ ๊ฒ์ํ ์ง ๊ฒฐ์ ํ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ๋ค. ํ ํฐ, ๋ฌธ๊ตฌ, ๋ฌธ์ฅ, ๋ฌธ์ ๋ฑ ๋ค์ํ ๋จ์๊ฐ ์์ง๋ง, ์ต๊ทผ์๋ '๋ช ์ (Proposition)' ๋จ์๊ฐ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค. Proposition ์ฒญํฌ๋ฅผ ์ ์ํ DenseX~๋ ํ ์คํธ๋ฅผ ๊ณ ์ ํ ์ฌ์ค(Fact)์ ๋ด์ ์ต์ ๋จ์์ธ ๋ช ์ ๋ก ์ชผ๊ฐ์ด ๊ฒ์์ ์ ํ๋๋ฅผ ๋์๋ค.
2. ์ธ๋ฑ์ฑ ์ต์ ํ (Indexing Optimization) ๋ฌธ์๋ฅผ ๊ฒ์ ๊ฐ๋ฅํ ํํ๋ก ์ ์ฅํ๋ ์ธ๋ฑ์ฑ ๋จ๊ณ๋ ๊ฒ์ ํ์ง์ ์ข์ฐํ๋ '๊ธฐ์ด ๊ณต์ฌ'์ ๋๋ค.
- ์ฒญํน ์ ๋ต (Chunking Strategy): ๋จ์ํ 100์, 500์ ๋ฑ ๊ณ ์ ๋ ํฌ๊ธฐ๋ก ๋ฌธ์๋ฅผ ์๋ฅด๋ฉด ๋ฌธ๋งฅ์ด ๋๊ธธ ์ํ์ด ์๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ฌ๋ผ์ด๋ฉ ์๋์ฐ(Sliding Window)๋ฅผ ์ฐ๊ฑฐ๋ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ์ฉํ๋ Semantic Chunker์ ๊ฐ์ ์ ๋ต์ ์ฌ์ฉํ๋ค. ํํธ Small2Big์ ๊ฒ์์ ์์ ๋ฌธ์ฅ ๋จ์(Small)๋ก ํ๋, LLM์๊ฒ๋ ๊ทธ ๋ฌธ์ฅ์ด ํฌํจ๋ ๋ ํฐ ๋ฌธ๋งฅ(Big)์ ์ ๊ณตํ์ฌ ์ ๋ฐ๋์ ๋ฌธ๋งฅ ์ดํด๋๋ฅผ ๋์์ ์ก๋ ๊ธฐ๋ฒ์ด๋ค. ์ฆ, ๊ฒ์๊ณผ ์ถ๋ก ์ ์ฐ์ด๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฆฌํ๋ ๊ฒ์ด๋ค.
- ๋ฉํ๋ฐ์ดํฐ ๋ถ์ฐฉ (Metadata Attachments): ์ฒญํฌ์ ํ์ผ๋ช , ์ ์, ํ์์คํฌํ ๋ฑ์ ํ๊น ํ์ฌ ํํฐ๋ง์ ํ์ฉํ๋ค. ํนํ Reverse HyDE๋ผ๋ ๊ธฐ๋ฒ์ด ํฅ๋ฏธ๋ก์ด๋ฐ, ๋ฌธ์ ๋ด์ฉ์ ๋ฐํ์ผ๋ก '์ด ๋ฌธ์๊ฐ ๋ต๋ณํ ์ ์๋ ๊ฐ์์ ์ง๋ฌธ'์ LLM์ผ๋ก ์์ฑํ์ฌ ๋ฉํ๋ฐ์ดํฐ๋ก ์ ์ฅํ๋ค. ๋์ค์ ์ฌ์ฉ์๊ฐ ์ง๋ฌธ์ ๋์ง๋ฉด, ์ด ๊ฐ์์ ์ง๋ฌธ๊ณผ ๋งค์นญ๋์ด ๊ฒ์ ํ๋ฅ ์ ๋์ธ๋ค.
- ๊ตฌ์กฐ์ ์ธ๋ฑ์ค (Structural Index): ๋ฌธ์๋ฅผ ๋ถ๋ชจ-์์ ๋ ธ๋์ ๊ณ์ธต ๊ตฌ์กฐ๋ก ์ ์ฅํ๊ฑฐ๋, ์ง์ ๊ทธ๋ํ(KG)๋ฅผ ํ์ฉํด ๋ฌธ์ ๊ฐ์ ์ฐ๊ฒฐ์ฑ์ ๋ณด์กดํ๋ค. ์ด๋ LLM์ด ๋จํธ์ ์ธ ์ ๋ณด ์กฐ๊ฐ์ด ์๋๋ผ, ์ ๋ณด์ ๊ตฌ์กฐ์ ๋งฅ๋ฝ๊น์ง ์ดํดํ๋๋ก ๋๋๋ค.
3. ์ฟผ๋ฆฌ ์ต์ ํ (Query Optimization): Naive RAG์ ๊ฐ์ฅ ํฐ ํจ์ฐฉ์ ์ฌ์ฉ์์ ๋ถ์์ ํ ์ง๋ฌธ์ ๊ทธ๋๋ก ๊ฒ์์ ์ด๋ค๋ ๊ฒ์ด๋ค.
- ์ฟผ๋ฆฌ ํ์ฅ (Query Expansion): ์ง๋ฌธ ํ๋๋ก๋ ์ธ๋ถ ๋งฅ๋ฝ๊ณผ ๊ด๋ จ ์ ๋ณด๊ฐ ๋ถ์กฑํ ๋ ์ฌ์ฉํ๋ค.
- Multi-Query: LLM์ ์ด์ฉํด ํ๋์ ์ง๋ฌธ์ ๋ค์ํ ๊ด์ ์ ์ฌ๋ฌ ์ง๋ฌธ์ผ๋ก ๋ปฅํ๊ธฐํ๊ณ ๋ณ๋ ฌ๋ก ๊ฒ์ํ๋ค.
- Sub-Query: ๋ณต์กํ ์ง๋ฌธ์ Least-to-Most ํ๋กฌํํ ์ ํตํด ํด๊ฒฐ ๊ฐ๋ฅํ ์์ ํ์ ์ง๋ฌธ๋ค๋ก ์ชผ๊ฐ์ด ๋จ๊ณ์ ์ผ๋ก ๊ฒ์ํ๋ค.
- Chain-of-Verification (CoVe): ํ์ฅ๋ ์ฟผ๋ฆฌ๋ฅผ ๋ค์ ๊ฒ์ฆํ์ฌ ํ๊ฐ์ ์ค์ด๋ ๊ธฐ๋ฒ์ด๋ผ๊ณ ํ๋ค.
- ์ฟผ๋ฆฌ ๋ณํ (Query Transformation): ์ง๋ฌธ์ ๋ณธ์ง์ ํ๊ณ ๋ญ๋๋ค.
- Query Rewrite: LLM์๊ฒ "๊ฒ์ํ๊ธฐ ์ข๊ฒ ๋ค์ ์จ์ค"๋ผ๊ณ ์ํค๋ ๋ฐฉ์์ด๋ค. RRR์ด๋ BEQUE ๊ฐ์ ๋ชจ๋ธ์ด ์ฌ๊ธฐ์ ํด๋นํ๋ค.
- HyDE (Hypothetical Document Embeddings): ์ง๋ฌธ์ ๋ํด LLM์ด '๊ฐ์์ ๋ต๋ณ'์ ๋จผ์ ์์ฑํ๊ฒ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ์์ ๋ต๋ณ๊ณผ ์ ์ฌํ ์ค์ ๋ฌธ์๋ฅผ ์ฐพ๋๋ค. ์ง๋ฌธ-๋ฌธ์ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ณด๋ค, ๋ต๋ณ-๋ฌธ์ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ํจ์ฌ ๊ฐ๊น๋ค๋ ์ ์ ์ด์ฉํ ๊ธฐ๋ฐํ ์์ด๋์ด์ด๋ค.
- Step-back Prompting: ๊ตฌ์ฒด์ ์ธ ์ง๋ฌธ์ ์ถ์์ ์ธ ๊ณ ์ฐจ์ ์ง๋ฌธ์ผ๋ก ๋ฐ๊ฟ์, ๋ ํฌ๊ด์ ์ธ ๋ฐฐ๊ฒฝ ์ง์์ ๊ฒ์ํ๋๋ก ์ ๋ํ๋ค.
- ์ฟผ๋ฆฌ ๋ผ์ฐํ (Query Routing): ์ง๋ฌธ์ ์ฑ๊ฒฉ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ฐ์ดํฐ ์์ค๋ ํ์ดํ๋ผ์ธ์ผ๋ก ์ฐ๊ฒฐํด ์ฃผ๋ '๊ตํต์ ๋ฆฌ' ์ญํ ์ ์ํํ๋ค.
4. ์๋ฒ ๋ฉ (Embedding): ๊ฒฐ๊ตญ ๊ฒ์์ ๋ฒกํฐ ๊ฐ์ ์ ์ฌ๋ ์ธ์์ด๋ค.
- ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์ (Hybrid Retrieval): ํค์๋ ์ผ์น์ ๊ฐํ ํฌ์(Sparse, ์: BM25) ๋ชจ๋ธ๊ณผ ์๋ฏธ์ ๋งฅ๋ฝ์ ์ก๋ ๋ฐ์ง(Dense, ์: BERT) ๋ชจ๋ธ์ ์์ด ์ด๋ค. ํฌ์ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ ์๋ ํฌ๊ท ๋จ์ด๋ ์ ๋ฌธ ์ฉ์ด ๊ฒ์์ ๊ฐํด ๋ฐ์ง ๋ชจ๋ธ์ ์ฝ์ ์ ๋ณด์ํ๋ค.
- ์๋ฒ ๋ฉ ๋ชจ๋ธ ๋ฏธ์ธ ์กฐ์ (Fine-tuning Embedding): ์๋ฃ, ๋ฒ๋ฅ ๋ฑ ํน์ ๋๋ฉ์ธ์์๋ ์ผ๋ฐ์ ์ธ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ด ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ํ๋ฝํ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. PROMPTAGATOR๋ LLM-Embedder ๊ฐ์ ์ฐ๊ตฌ๋ LLM์ ํ์ฉํด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ฑฐ๋ ๋ผ๋ฒจ๋งํ์ฌ, ์ ์ ๋ฐ์ดํฐ๋ก๋ ๋๋ฉ์ธ ํนํ ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ๋ง๋ค ์ ์๊ฒ ํ๋ค. ํนํ REPLUG๋ LLM์ ๊ฐ๋ ๊ด(Supervisor)์ผ๋ก ์ผ์ ๊ฒ์๊ธฐ๋ฅผ ํ๋ จ์ํค๋ ๋ฐฉ์์ ์ ์ํ๋ค.
5. ์ด๋ํฐ (Adapter): ๋ง์ง๋ง์ผ๋ก, ๋ชจ๋ธ ์ ์ฒด๋ฅผ ํ์ธ ํ๋ํ๊ธฐ ์ด๋ ค์ธ ๋ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. LoRA FT์ ๊ฐ์ด ์ธ๋ถ ์ด๋ํฐ๋ฅผ ๋ถ์ฐฉํ์ฌ LLM๊ณผ ๊ฒ์๊ธฐ ์ฌ์ด์ ์ ๋ ฌ(Alignment)์ ๋๋๋ค. UPRISE๋ ์ ๋ก์ท ์์ ์ ๋ง๋ ํ๋กฌํํธ๋ฅผ ์๋์ผ๋ก ๊ฐ์ ธ์ค๋ ๊ฒฝ๋ ๊ฒ์๊ธฐ๋ฅผ, PKG๋ ์์ ๊ฒ์ ๊ณผ์ ์ ์๋ตํ๊ณ ์ฟผ๋ฆฌ์ ๋ง๋ ๋ฌธ์๋ฅผ ๋ฐ๋ก ์์ฑํด ๋ด๋ ๋ฐฉ์์ ์ ์ํ๊ธฐ๋ ํ๋ค.
4. Generation
๋ฌธ์๋ฅผ ์ ์ฐพ์์๋ค๊ณ ๋์ด ์๋๋ค. LLM์ ์ถ๋ก ์ ์ฉ์ดํ๊ฒ ์ ๋ณด๋ฅผ ๊ฐ๊ณตํ๋ฉด ๋ ์ ํํ๊ณ ์๋์ ๋ง๋ ์์ฑ์ ์ ๋ํ ์ ์๋ค.
1. ๋ฌธ๋งฅ ํ๋ ์ด์ (Context Curation): ๊ฒ์๋ ๋ฌธ์๋ฅผ ๊ทธ๋๋ก ๋ค ๋ฃ๋๋ค๊ณ ๋ฅ์ฌ๊ฐ ์๋๋ค. ์ค๋ณต ์ ๋ณด๋ LLM์ ์ถ๋ก ์ ํ๋ฆฌ๊ณ , ๋๋ฌด ๊ธด ๋ฌธ๋งฅ์ ํต์ฌ ์ ๋ณด๋ฅผ ๋์น๊ฒ ๋ง๋ ๋ค.
- Reranking (์ฌ์์ํ): LLM์ ์ธ๊ฐ์ฒ๋ผ ๊ธด ๊ธ์ ์์๊ณผ ๋๋ถ๋ถ์ ์ง์คํ๊ณ ์ค๊ฐ ๋ด์ฉ์ ๊น๋จน๋ 'Lost in the middle' ํ์์ ๋ณด์ธ๋ค. ๋ฐ๋ผ์ ๊ฒ์๋ ๋ฌธ์๋ค์ ๋ค์ ์ ๋ ฌํ์ฌ ๊ฐ์ฅ ์ค์ํ ์ ๋ณด๊ฐ ํ๋กฌํํธ์ ์์ด๋ ๋ค(Edges)์ ์ค๋๋ก ๋ฐฐ์นํ ํ์๊ฐ ์๋ค. ๋จ์ํ ๊ท์น(๋ค์์ฑ, ๊ด๋ จ์ฑ ๋ฑ)์ ์ธ ์๋ ์์ง๋ง, ์ต๊ทผ์๋ BERT ๊ธฐ๋ฐ์ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ์ด๋ Cohere rerank, bge-reranker ๊ฐ์ ํนํ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ ๋ฐํ๊ฒ ์์๋ฅผ ์ฌ์กฐ์ ํ๋ค.
- Context Selection/Compression (๋ฌธ๋งฅ ์ ํ ๋ฐ ์์ถ): "๊ด๋ จ ๋ฌธ์๋ ๋ค๋ค์ต์ "์ด ์๋ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. ๊ณผ๋ํ ๋ฌธ๋งฅ์ ๋
ธ์ด์ฆ๋ฅผ ์ ๋ฐํ๊ธฐ ๋๋ฌธ์ด๋ค.
- LLMLingua: GPT-2 Small์ด๋ LLaMA-7B ๊ฐ์ ์ํ ์ธ์ด ๋ชจ๋ธ(sLLM)์ ์ฌ์ฉํ์ฌ, ์ธ๊ฐ์ ์ฝ๊ธฐ ํ๋ค์ด๋ LLM์ ์ดํดํ ์ ์๋ ์์ค์ผ๋ก ๋ถํ์ํ ํ ํฐ์ ์ ๊ฑฐํ๊ณ ์์ถํ๋ค. ์ด๋ LLM์ ๋ฐ๋ก ํ์ต์ํฌ ํ์ ์์ด ํ๋กฌํํธ ๊ธธ์ด๋ฅผ ํ๊ธฐ์ ์ผ๋ก ์ค์ธ๋ค.
- Filter-Reranker: sLLM์ ํํฐ(Filter)๋ก ์ฌ์ฉํด ์ฌ์ด ๋ฌธ์๋ฅผ ๊ฑฐ๋ฅด๊ณ , LLM์ ๋ฆฌ๋ญ์ปค(Reranker)๋ก ํ์ฉํด ์ด๋ ค์ด ๋ฌธ์๋ฅผ ์ฌ๋ฐฐ์ดํ๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ์ฌ ํจ์จ์ ๋์ด๊ธฐ๋ ํ๋ค.
2. LLM ๋ฏธ์ธ ์กฐ์ (LLM Fine-tuning): RAG ์์คํ ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ์์ฑ ๋ชจ๋ธ(Generator) ์์ฒด๋ฅผ ํ๋ํ๋ ์ ๋ต์ด๋ค.
- ๋๋ฉ์ธ ๋ฐ ํ์ ์ต์ ํ: ํน์ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ๊ฑฐ๋, ํน์ํ ํฌ๋งท(์: JSON ์ถ๋ ฅ, ํน์ ๋งํฌ)์ ๋ฐ๋ผ์ผ ํ ๋ ์ ์ฉํ๋ค.
- SANTA: ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ(Structured Data)๋ฅผ ๋ค๋ฃฐ ๋ ํจ๊ณผ์ ์ด๋ค. ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ ์ฌ์ด์ ๊ตฌ์กฐ์ , ์๋ฏธ์ ๋์์ค๋ฅผ ์บก์ํํ๊ธฐ ์ํด 3๋จ๊ณ ํ์ต ๊ณผ์ ์ ๊ฑฐ์น๋ค.
- ์ ๋ ฌ (Alignment): LLM์ ์ถ๋ ฅ์ ์ฌ๋์ ์ ํธ๋๋ ๊ฒ์๊ธฐ์ ํน์ฑ์ ๋ง์ถ๋ ๊ณผ์ ์ด๋ค.
- RLHF (Reinforcement Learning): ์์ฑ๋ ๋ต๋ณ์ ๋ํด ์ฌ๋์ด ํ๊ฐํ๊ฑฐ๋, ๊ฒ์๋ ๋ฌธ์์์ ๊ด๋ จ์ฑ์ ์ ์ํํ์ฌ ๊ฐํ ํ์ต์ ์ํํ๋ค .
- Distillation (์ง์ ์ฆ๋ฅ): GPT-4 ํน์ ์ด์์ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํ์ต ๋ฐ์ดํฐ๋ก ์ผ์, ๋ ์์ ๋ชจ๋ธ์ ํ๋ํ์ฌ ๋น์ฉ ํจ์จ์ฑ์ ๋์ธ๋ค.
- ํ์
๋ฏธ์ธ ์กฐ์ (Collaborative Fine-tuning): ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ๋ฅผ ๋ฐ๋ก๋ฐ๋ก ๋
ธ๋ ๊ฒ ์๋๋ผ, ์๋ก ํฉ์ ๋ง์ถ๋๋ก ํจ๊ป ํ๋ํ๋ค.
- RA-DIT: ๊ฒ์๊ธฐ์ ์์ฑ๊ธฐ ๊ฐ์ ์ ์ ํจ์๋ฅผ KL ๋ฐ์ฐ(Kullback-Leibler divergence)์ ์ด์ฉํด ์ ๋ ฌํ๋ค. ์ฆ, ์์ฑ๊ธฐ๊ฐ ์ ํธํ๋ ๋ฌธ์๋ฅผ ๊ฒ์๊ธฐ๊ฐ ๋ ์ ์ฐพ์์ค๋๋ก ์๋ก ํผ๋๋ฐฑ์ ์ฃผ๊ณ ๋ฐ์ผ๋ฉฐ ํ์ตํ๋ ๋ฐฉ์์ด๋ค.
5. Augmentation Process in RAG
ํ์ค์ ์ธ RAG๋ "๊ฒ์ ํ ๋ฒ -> ์์ฑ ํ ๋ฒ"์ด๋ผ๋ ๋จ์ํ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ค. ํ์ง๋ง ๋ณต์กํ ์ถ๋ก ์ด๋ ๋ค๋จ๊ณ ์ง์์ด ํ์ํ ๋ฌธ์ ์์๋ ์ด ๋ฐฉ์์ด ๋ถ์ถฉ๋ถํ ๋๊ฐ ๋ง๋ค. ๋ฐ๋ผ์ ์ต๊ทผ์ ์ฐ๊ตฌ๋ค์ ๊ฒ์ ๊ณผ์ ์ ๋ฐ๋ณต์ (Iterative), ์ฌ๊ท์ (Recursive), ์ ์ํ(Adaptive)์ ์ธ ๊ฐ์ง ํ๋ก์ธ์ค๋ก ๋๋์ด ์ต์ ํํ๋ ๋ฐฉ์์ ์ ์ํ๋ฉฐ ํฐ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์๋ค.
A. ๋ฐ๋ณต ๊ฒ์ (Iterative Retrieval)
๋ฐ๋ณต ๊ฒ์์ LLM์ด ๋ต๋ณ์ ์์ฑํ๋ ๋์ ์ง์ ๋ฒ ์ด์ค๋ฅผ ์ฌ๋ฌ ๋ฒ ๊ฒ์ํ์ฌ ๋ฌธ๋งฅ์ ํ๋ถํ๊ฒ ๋ง๋๋ ๋ฐฉ์์ด๋ค.
- ์๋ ๋ฐฉ์: ์ด๊ธฐ ์ฟผ๋ฆฌ๋ก ๊ฒ์์ ํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ์ ํ์ฌ๊น์ง ์์ฑ๋ ํ ์คํธ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ๊ฒ์์ ์ํํ๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉฐ ์ง์์ ์ ์ง์ ์ผ๋ก ๊ตฌ์ฒดํํ๋ค.
- ์ฅ์ : ํ ๋ฒ์ ๊ฒ์์ผ๋ก๋ ๋์น ์ ์๋ ์ถ๊ฐ์ ์ธ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ ๊ณตํ์ฌ ๋ต๋ณ์ ๊ฒฌ๊ณ ์ฑ(Robustness)์ ๋์ธ๋ค.
- ๋ํ ์ฐ๊ตฌ: ITER-RETGEN์ "๊ฒ์์ด ์์ฑ์ ๋๊ณ , ์์ฑ์ด ๋ค์ ๊ฒ์์ ๋๋" ์๋์ง ํจ๊ณผ๋ฅผ ์ป๊ณ ์ ํ๋ค. ์์ฑ๋ ๋ด์ฉ์ด ๋ค์ ๊ฒ์์ ๋ฌธ๋งฅ์ด ๋์ด ๋ ๊ด๋ จ์ฑ ๋์ ์ ๋ณด๋ฅผ ์ฐพ์์ค๋ ์ ์ํ ๊ตฌ์กฐ๋ฅผ ๋ง๋ ๋ค.
- ํ๊ณ: ๋ฐ๋ณต ๊ณผ์ ์์ ์๋ฏธ๊ฐ ๋๊ธฐ๊ฑฐ๋(Semantic discontinuity), ๋ถํ์ํ ์ ๋ณด๊ฐ ๋์ ๋ ์ํ์ด ์๋ค.
B. ์ฌ๊ท์ ๊ฒ์ (Recursive Retrieval)
์ฌ๊ท์ ๊ฒ์์ ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์ฟผ๋ฆฌ๋ฅผ ์ ์ ๋ ๊ตฌ์ฒดํํ๊ฑฐ๋, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์์ ๋จ์๋ก ์ชผ๊ฐ์ด ํ๊ณ ๋๋ ๋ฐฉ์์ด๋ค .
- ์ฟผ๋ฆฌ ์ ์ : ์ด๊ธฐ ๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ๋ง์กฑ์ค๋ฝ์ง ์์ ๋, ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ํผ๋๋ฐฑ ์ผ์ ๊ฒ์ ์ฟผ๋ฆฌ๋ฅผ ์์ ํ๊ณ ๋ค์ ๊ฒ์ํ๋ค. ์ด๋ ์ฌ์ฉ์๊ฐ ๊ฒ์ ์์ง์์ ์ํ๋ ์ ๋ณด๊ฐ ๋์ฌ ๋๊น์ง ๊ฒ์์ด๋ฅผ ๋ฐ๊พธ๋ ๊ฒ๊ณผ ๋น์ทํ๋ค.
- ๋ํ ์ฐ๊ตฌ:
- IRCoT (Information Retrieval with Chain-of-Thought): CoT(์๊ฐ์ ์ฌ์ฌ) ์ถ๋ก ๊ณผ์ ์ ์ฌ์ฉํ์ฌ ๊ฒ์์ ๊ฐ์ด๋ํ๊ณ , ๊ฒ์๋ ๊ฒฐ๊ณผ๋ก ๋ค์ CoT๋ฅผ ์ ์ ํ๋ค.
- ToC (Tree of Clarifications): ๋ชจํธํ ์ง๋ฌธ์ด ๋ค์ด์ค๋ฉด '๋ช ํํ ํธ๋ฆฌ'๋ฅผ ์์ฑํ์ฌ ์ง๋ฌธ์ ์๋๋ฅผ ๊ตฌ์ฒดํํ๊ณ ์ต์ ํํ๋ค.
- ๊ตฌ์กฐ์ ํ์ฉ: ๊ณ์ธต์ ์ธ๋ฑ์ค(Hierarchical Index)๋ฅผ ์ฌ์ฉํ์ฌ ์ฒ์์๋ ๋ฌธ์์ ์์ฝ๋ณธ์ ๊ฒ์ํ๊ณ , ๊ทธ๋ค์ ๊ตฌ์ฒด์ ์ธ ์น์ ์ผ๋ก ๋ค์ด๊ฐ๋ ๋ฐฉ์๋ ์ฌ๊ธฐ์ ํฌํจ๋๋ค. ์ง์ ๊ทธ๋ํ์์ ๊ผฌ๋ฆฌ์ ๊ผฌ๋ฆฌ๋ฅผ ๋ฌด๋ '๋ฉํฐ ํ(Multi-hop)' ๊ฒ์๋ ์ฌ๊ท์ ๊ฒ์์ ์ผ์ข ์ด๋ค.

C. ์ ์ํ ๊ฒ์ (Adaptive Retrieval)
์ ์ํ ๊ฒ์์ RAG ์์คํ ์ด "์ธ์ ๊ฒ์ํ ์ง" ํน์ "๊ฒ์์ด ํ์ํ์ง"๋ฅผ ์ค์ค๋ก ํ๋จํ๋ ๊ฐ์ฅ ์ง๋ฅ์ ์ธ ๋ฐฉ์์ด๋ค. ๋ถํ์ํ ๊ฒ์์ ์ค์ฌ ํจ์จ์ฑ์ ๋์ด๊ณ , LLM์ด ์์ ์ ์ง์๋ง์ผ๋ก ์ถฉ๋ถํ ๋๋ ๊ฒ์์ ๊ฑด๋๋ด๋ค.
- ์์ด์ ํธ์ ์ ๊ทผ: LLM์ด ๋๊ตฌ(Tool)๋ฅผ ์ฌ์ฉํ๋ ์์ด์ ํธ์ฒ๋ผ ํ๋ํ๋ค. AutoGPT๋ Toolformer์ฒ๋ผ, ๋ชจ๋ธ์ด ํ์ํ๋ค๊ณ ํ๋จํ ๋๋ง ๊ฒ์ API๋ฅผ ํธ์ถํ๋ค.
- ๋ํ ์ฐ๊ตฌ:
- WebGPT: ๊ฐํํ์ต์ ํตํด GPT-3๊ฐ ๊ฒ์ ์์ง์ ์ค์ค๋ก ์ฌ์ฉํ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ๋ธ๋ผ์ฐ์งํ๋ฉฐ ์ฐธ๊ณ ๋ฌธํ์ ์ธ์ฉํ๋๋ก ํ๋ จ์์ผฐ๋ค.
- FLARE: ์์ฑ ๊ณผ์ ์์ ๋ชจ๋ธ์ '์์ ๊ฐ(Confidence)'์ ๋ชจ๋ํฐ๋งํ๋ค. ๋ง์ฝ ์์ฑํ๋ ค๋ ๋จ์ด์ ํ๋ฅ ์ด ๋ฎ์ผ๋ฉด(์์ ๊ฐ์ด ์์ผ๋ฉด), ๊ทธ๋ ๊ฒ์ ์์คํ ์ ๊ฐ๋ํ์ฌ ์ ๋ณด๋ฅผ ์ฐพ์์จ๋ค.
- Self-RAG: ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ๋ ๋ชจ๋ธ ์ค ํ๋๋ก, '์ฑ์ฐฐ ํ ํฐ(Reflection Tokens)'์ ๋์ ํ๋ค. ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์์ฑํ๋ฉด์ "Retrieve(๊ฒ์ํด)", "Critic(ํ๊ฐํด)" ๊ฐ์ ํ ํฐ์ ์ค์ค๋ก ๋ด๋ฑ์ผ๋ฉฐ ๊ฒ์์ ํ์์ฑ์ ๊ฒฐ์ ํ๊ณ , ์์ฑ๋ ๋ต๋ณ์ ํ์ง์ ์ ํ ๊ฒ์ฆํ๋ค. "Self-RAG์ ์ค๊ณ๋ ์ถ๊ฐ์ ์ธ ๋ถ๋ฅ๊ธฐ๋ ์์ฐ์ด ์ถ๋ก (NLI) ๋ชจ๋ธ์ ๋ํ ์์กด ํ์์ฑ์ ์ ๊ฑฐํ์ฌ, ๊ฒ์ ๋ฉ์ปค๋์ฆ์ ์ธ์ ์๋์ํฌ์ง์ ๋ํ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ๊ฐ์ํํ๊ณ ์ ํํ ์๋ต์ ์์ฑํ๋ ๋ฐ ์์ด ๋ชจ๋ธ์ ์์จ์ ์ธ ํ๋จ ๋ฅ๋ ฅ์ ํฅ์์์ผฐ๋ค๋ ์ ์์ ์๋ฏธ๊ฐ ์๋ค.
6. Task and Evaluation
RAG ๊ธฐ์ ์ด ์ฑ์ํด์ง์ ๋ฐ๋ผ, ์ด๋ฅผ ์ ์ฉํ๋ ๋ถ์ผ(Task)๊ฐ ๋์ด์ง๊ณ , ์ฑ๋ฅ์ ์ธก์ ํ๋ ๋ฐฉ๋ฒ๋ก ๋ํ ๊ณ ๋ํ๋๊ณ ์๋ค.

A. ํ์ ๊ณผ์ (Downstream Task)
RAG์ ํต์ฌ ์์ฉ ๋ถ์ผ๋ ์ฌ์ ํ ์ง์์๋ต(QA)์ด์ง๋ง, ๊ทธ ์์์ด ํจ์ฌ ๋ณต์กํ๊ณ ๋ค์ํด์ก๋ค.
-
QA์ ์ฌํ: ์ ํต์ ์ธ ๋จ๋ตํ(Single-hop) ์ง๋ฌธ์ ๋์ด, ์ฌ๋ฌ ๋ฌธ์์ ์ ๋ณด๋ฅผ ์ข ํฉํด์ ์ถ๋ก ํด์ผ ํ๋ ๋ฉํฐ ํ(Multi-hop) QA, ํน์ ๋๋ฉ์ธ ์ง์์ด ํ์ํ ๋๋ฉ์ธ ํนํ QA, ๊ทธ๋ฆฌ๊ณ ๊ธด ํธํก์ ๋ต๋ณ์ ์์ฑํด์ผ ํ๋ Long-form QA ๋ฑ์ผ๋ก ์ธ๋ถํ๋์๋ค.
- ์์ญ ํ์ฅ: RAG๋ ์ด์ QA๋ฅผ ๋์ด ํ ์คํธ ์์ฝ(Summarization), ์ ๋ณด ์ถ์ถ(Information Extraction, IE), ๋ํ ์์ฑ(Dialogue Generation), ์ฝ๋ ๊ฒ์(Code Search) ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ ์ผ๋ก ์ํ ๋ฅผ ํ์ฅํ๊ณ ์๋ค.
์ ํ๋ฅผ ๋ณด๋ฉด RAG๊ฐ ์์ ์ถ๋ก , ์ฌ์ค ๊ฒ์ฆ, ๊ธฐ๊ณ ๋ฒ์ญ ๋ฑ ์๊ฐ๋ณด๋ค ํจ์ฌ ๋ฐฉ๋ํ ์์ญ์์ ์ฐ์ด๊ณ ์์์ ์ ์ ์์ต๋๋ค.. ๋๋ฌด ๋ง์์ ์ค๋ช ์ ์๋ตํ๊ฒ ์ต๋๋ค. ์๋ฌธ์ ์ฐธ์กฐํด์ฃผ์๋ฉด ๊ฐ์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.
B. ํ๊ฐ ๋ชฉํ (Evaluation Target)
๊ณผ๊ฑฐ์๋ ์ ๋ต ์ผ์น ์ฌ๋ถ(EM)๋ F1 ์ ์ ๊ฐ์ ์ ํต์ ์ธ ์งํ์ ์์กดํ๋ค. ํ์ง๋ง RAG๋ ๊ฒ์๊ณผ ์์ฑ์ด ๊ฒฐํฉ๋ ๋ณตํฉ ์์คํ ์ด๋ฏ๋ก, ์ด ๋ ๊ฐ์ง ์ถ์ ๋ถ๋ฆฌํด์ ํ๊ฐํ๋ ๊ฒ์ด ํ์ค์ด ๋์๋ค .
- ๊ฒ์ ํ์ง (Retrieval Quality): ๊ฒ์ ๋ชจ๋์ด ์ ์ฉํ ๋ฌธ์๋ฅผ ์ผ๋ง๋ ์ ์ฐพ์์๋๊ฐ? ์ถ์ฒ ์์คํ ์์ ์ฐ์ด๋ Hit Rate, MRR, NDCG ๊ฐ์ ์งํ๋ฅผ ์ฌ์ฉํ์ฌ, ์ ๋ต ๋ฌธ์๊ฐ ์์ ๋ญํน์ ํฌํจ๋์๋์ง๋ฅผ ์ธก์ ํ๋ค .
- ์์ฑ ํ์ง (Generation Quality): ์์ฑ ๋ชจ๋์ด ๋ฌธ๋งฅ์ ์ ๋ฐ์ํ์ฌ ๋ต๋ณํ๋๊ฐ? ์ ๋ต ๋ผ๋ฒจ์ด ์๋ ๊ฒฝ์ฐ(Unlabeled)์๋ ๋ต๋ณ์ ์ถฉ์ค์ฑ(Faithfulness)๊ณผ ๊ด๋ จ์ฑ(Relevance)์ ๋ณด๊ณ , ๋ผ๋ฒจ์ด ์๋ ๊ฒฝ์ฐ์๋ ์ ํ๋(Accuracy)๋ฅผ ์ธก์ ํ๋ค .
C. ํ๊ฐ ์ธก๋ฉด (Evaluation Aspects)
์ด ๋ ผ๋ฌธ์ RAG ํ๊ฐ๋ฅผ ์ํด 3๊ฐ์ง ํ์ง ์ ์์ 4๊ฐ์ง ํ์ ๋ฅ๋ ฅ์ด๋ผ๋ ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ค์ ์ ์ํ๋ค.
- 3๋ ํ์ง ์ ์ (Quality Scores):
- ๋ฌธ๋งฅ ๊ด๋ จ์ฑ (Context Relevance): ๊ฒ์๋ ๋ฌธ์๊ฐ ์ง๋ฌธ๊ณผ ์ง์ง ๊ด๋ จ์ด ์๋๊ฐ? ๋ถํ์ํ ์ ๋ณด๋ ๋น์ฉ์ ๋์ด๊ณ LLM์ ํผ๋์ค๋ฝ๊ฒ ํ๋ฏ๋ก, ์ ๋ฐํ ๊ฒ์์ด ํ์์ ์ด๋ค.
- ๋ต๋ณ ์ถฉ์ค์ฑ (Answer Faithfulness): ์์ฑ๋ ๋ต๋ณ์ด ๊ฒ์๋ ๋ฌธ๋งฅ์ ์ฒ ์ ํ ๊ทผ๊ฑฐํ๊ณ ์๋๊ฐ? ์ด๋ RAG์ ๊ฐ์ฅ ํฐ ์ ์ธ 'ํ๊ฐ(Hallucination)'์ ์ก์๋ด๋ ํต์ฌ ์งํ๋ก, ๋ต๋ณ์ด ๋ฌธ๋งฅ๊ณผ ๋ชจ์๋์ง ์๋์ง๋ฅผ ๋ณธ๋ค.
- ๋ต๋ณ ๊ด๋ จ์ฑ (Answer Relevance): ๋ต๋ณ์ด ์ฌ์ฉ์์ ์ง๋ฌธ ์๋์ ๋ถํฉํ๋๊ฐ? ์๋ฑํ ๋๋ฌธ์๋ต์ ํ์ง ์๊ณ ํต์ฌ์ ์ฐ๋ฅด๋์ง ํ๊ฐํ๋ค.
- RAG ์์คํ
์ 4๋ ํ์ ๋ฅ๋ ฅ (Required Abilities):
- ๋ ธ์ด์ฆ ๊ฐ๊ฑด์ฑ (Noise Robustness): ์ง๋ฌธ๊ณผ ๊ด๋ จ์ ์์ง๋ง ์ ๋ต ์ ๋ณด๋ ์๋ '๋ ธ์ด์ฆ ๋ฌธ์'๊ฐ ์์ฌ ์์ด๋ ํ๋ค๋ฆฌ์ง ์๋๊ฐ?
- ์๊ทน์ ๊ฑฐ๋ถ (Negative Rejection): ๊ฒ์๋ ๋ฌธ์๋ค์ ์ ๋ต์ด ์์ ๋, ์ต์ง๋ก ์ง์ด๋ด์ง ์๊ณ "์ ๋ณด๊ฐ ๋ถ์กฑํ์ฌ ์ ์ ์์ต๋๋ค"๋ผ๊ณ ๊ฑฐ์ ํ ์ ์๋๊ฐ? ์ด๋ ์์คํ ์ ์ ๋ขฐ๋์ ์ง๊ฒฐ๋๋ค.
- ์ ๋ณด ํตํฉ (Information Integration): ์ฌ๋ฌ ๋ฌธ์์ ํฉ์ด์ง ๋จํธ์ ์ธ ์ ๋ณด๋ค์ ์ข ํฉํ์ฌ ๋ณต์กํ ์ง๋ฌธ์ ๋ํ ๋ต์ ๊ตฌ์ฑํ ์ ์๋๊ฐ?
- ๋ฐ์ฌ์ค์ ๊ฐ๊ฑด์ฑ (Counterfactual Robustness): ๋ฌธ์ ์์ ๋ช ๋ฐฑํ ์๋ชป๋ ์ ๋ณด(Known inaccuracies)๊ฐ ํฌํจ๋์ด ์์ ๋, ์ด๋ฅผ ์๋ณํ๊ณ ๋ฌด์ํ ์ ์๋๊ฐ?
D. ํ๊ฐ ๋ฒค์น๋งํฌ ๋ฐ ๋๊ตฌ (Benchmarks and Tools)
์ด๋ฌํ ๋ณต์กํ ์งํ๋ค์ ์ฌ๋์ด ์ผ์ผ์ด ์ฑ์ ํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ LLM์ ์ฌํ๊ด(Judge)์ผ๋ก ํ์ฉํ๋ ์๋ํ๋ ํ๊ฐ ํ๋ ์์ํฌ๋ค์ด ๋ฑ์ฅํ๋ค.
-
๋ฒค์น๋งํฌ: RGB, RECALL, CRUD ๋ฑ์ RAG์ ํ์ ๋ฅ๋ ฅ(๊ฐ๊ฑด์ฑ, ์ ๋ณด ํตํฉ ๋ฑ)์ ์ธก์ ํ๊ธฐ ์ํด ์ค๊ณ๋ ๋ฐ์ดํฐ์ ์ด๋ค.
- ์๋ํ ๋๊ตฌ: RAGAS, ARES, TruLens ๊ฐ์ ๋๊ตฌ๋ค์ ๋ฌธ๋งฅ ๊ด๋ จ์ฑ, ๋ต๋ณ ์ถฉ์ค์ฑ ๋ฑ์ ํ์ง ์ ์๋ฅผ ์ ๋์ ์ผ๋ก ๊ณ์ฐํด ์ค๋ค. ์ด๋ค์ RAG ํ์ดํ๋ผ์ธ์ ๊ฐ์ ํ ๋ ๋์นจ๋ฐ๊ณผ ๊ฐ์ ์ญํ ์ ํ๋ค.
7. Discussion and Future Prospects
๋ ผ๋ฌธ์ RAG์ ๋ฏธ๋์ ๋ํด ๋ช ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ํ๋์ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๋ค.
1. RAG vs ๊ธด ๋ฌธ๋งฅ (RAG vs Long Context)
์ต๊ทผ LLM์ ์ปจํ ์คํธ ์๋์ฐ๊ฐ 20๋ง(2025๋ ํ์ฌ๋ 100๋ง..) ํ ํฐ ์ด์์ผ๋ก ๊ธ๊ฒฉํ ํ์ฅ๋๋ฉด์, "LLM์ด ์ฑ ํ ๊ถ์ ํต์งธ๋ก ์ฝ์ ์ ์๋๋ฐ ๊ตณ์ด RAG๊ฐ ํ์ํ๊ฐ?"๋ผ๋ ์๋ฌธ์ด ์ ๊ธฐ๋๊ณ ์๋ค. ํ์ง๋ง ๋ ผ๋ฌธ์ RAG๊ฐ ์ฌ์ ํ ๋์ฒด ๋ถ๊ฐ๋ฅํ ์ญํ ์ ํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
- ํจ์จ์ฑ: ๊ธด ๋ฌธ๋งฅ์ ํ ๋ฒ์ ์ฒ๋ฆฌํ๋ ๊ฒ์ ์ถ๋ก ์๋๋ฅผ ๋๋ฆฌ๊ฒ ๋ง๋ ๋ค. ๋ฐ๋ฉด RAG๋ ํ์ํ ์ ๋ณด๋ง ์ฒญํฌ ๋จ์๋ก ๊ฐ์ ธ์ค๋ฏ๋ก ํจ์ฌ ํจ์จ์ ์ด๋ค.
- ํฌ๋ช ์ฑ: ๊ธด ๋ฌธ๋งฅ์ ์ฝ๊ณ ์์ฑํ ๋ต๋ณ์ ๋ด๋ถ ์ฒ๋ฆฌ๊ฐ ๋ธ๋๋ฐ์ค์ธ ๋ฐ๋ฉด, RAG๋ ์ฐธ์กฐ ๋ฌธ์๋ฅผ ๋ช ํํ ์ ์ํ๋ฏ๋ก ์ฌ์ฉ์๊ฐ ๋ต๋ณ์ ๊ฒ์ฆํ ์ ์๋ค.
2. RAG ๊ฐ๊ฑด์ฑ (RAG Robustness)
๊ฒ์๋ ์ ๋ณด์ ๋ ธ์ด์ฆ๋ ์๋ชป๋ ์ ๋ณด๊ฐ ์์ฌ ์์ ๋ RAG ํ์ง์ด ์ ํ๋๋ ๋ฌธ์ ๋ ์ฌ์ ํ๋ค. ์ ์๋ค์ "์๋ชป๋ ์ ๋ณด๋ ์ ๋ณด๊ฐ ์๋ ๊ฒ๋ณด๋ค ๋ ๋์๋ค(Misinformation can be worse than no information at all)"๋ผ๊ณ ๊ฒฝ๊ณ ํ๋ค. ํฅ๋ฏธ๋ก์ด ์ ์ ๊ด๋ จ ์๋ ๋ฌธ์๊ฐ ํฌํจ๋์์ ๋ ์คํ๋ ค ์ ํ๋๊ฐ 30% ์ด์ ์ฆ๊ฐํ๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ์๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ์ฐ๋ฆฌ๊ฐ "๋ ธ์ด์ฆ"๋ผ๊ณ ๋ถ๋ฅด๋, "๊ด๋ จ ์์ด ๋ณด์ด๋" ์ ๋ณด๋ค์ด ๋ฌด์กฐ๊ฑด ํด๋ก์ด ๊ฒ์ด ์๋๋ผ, ๊ฒฝ์ฐ์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ถ๋ก ๋ค์์ฑ์ ๋์ผ ์๋ ์์์ ์์ฌํ๋ค. ๋ฐ๋ผ์ ๊ฒ์๋ ์ ๋ณด์ ์์ฑ ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ ๊ธฐ์ ์ผ๋ก ํตํฉํ ์ง์ ๋ํ ์ฐ๊ตฌ๊ฐ ๋ ํ์ํ๋ค.
3. ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ (Hybrid Approaches)
RAG์ ํ์ธ ํ๋(Fine-tuning)์ ๊ฒฐํฉํ๋ ๊ฒ์ด ๋์ธ๊ฐ ๋๊ณ ์๋ค.
- RAG์ ํ์ธ ํ๋์ ์์ฐจ์ ์ผ๋ก ํ ์ง, ๊ต๋๋ก ํ ์ง, ์๋๋ฉด ์ฒ์๋ถํฐ ๋๊น์ง(End-to-End) ๊ณต๋ ํ์ต์ํฌ์ง์ ๋ํ ์ต์ ์ ์กฐํฉ์ ์ฐพ๋ ๊ฒ์ด ์ฐ๊ตฌ ๊ณผ์ ๋ค.
- ๋ํ, CRAG์ฒ๋ผ ๊ฒฝ๋ํ๋ ํ๊ฐ ๋ชจ๋ธ์ ๋์ ํ์ฌ ๊ฒ์ ํ์ง์ ํ๋จํ๊ฒ ํ๋ ๋ฑ, RAG ์์คํ ๋ด์ ์์ ์ ๋ฌธ ๋ชจ๋ธ(+ sLLM)์ ํตํฉํ๋ ์ถ์ธ๋ ๋ํ๋๊ณ ์๋ค.
4. RAG์ ์ค์ผ์ผ๋ง ๋ฒ์น (Scaling Laws of RAG)
LLM์ GPT3 ์ดํ๋ก, ๋ชจ๋ธ, ์ฆ, ํ๋ผ๋ฏธํฐ ์๊ฐ ์ปค์ง์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ค๋ '์ค์ผ์ผ๋ง ๋ฒ์น'์ด ํ๋ฆฝ๋์ด ์์ง๋ง, RAG์๋ ์ด๊ฒ์ด ์ ์ฉ๋๋์ง๋ ๋ฏธ์ง์๋ค.
- ์คํ๋ ค ์์ ๋ชจ๋ธ์ด ์ผ๋ถ ํฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์๋ค๋ '์ญ ์ค์ผ์ผ๋ง ๋ฒ์น(Inverse Scaling Law)'์ ๊ฐ๋ฅ์ฑ๋ ์ ๊ธฐ๋๊ณ ์์ด, ์ด์ ๋ํ ์ฌ๋ ์๋ ์กฐ์ฌ๊ฐ ํ์ํด๋ณด์ธ๋ค.
5. ์์ฉํ ์ค๋น ๋ฐ ์ํ๊ณ (Production-Ready RAG & Ecosystem)
RAG๊ฐ ์คํ์ค์ ๋ฒ์ด๋ ์ค์ ์๋น์ค(Production)๋ก ๋์๊ฐ๊ธฐ ์ํ ์๊ฑด๋ค์ด๋ค.
- ์์ง๋์ด๋ง ๊ณผ์ : ๋๊ท๋ชจ ์ง์ ๋ฒ ์ด์ค์์์ ๋ฌธ์ ์ฌํ์จ(Recall) ํฅ์, ๊ฒ์ ์๋ ๊ฐ์ , ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ ๋ณด์(LLM์ด ์ค์๋ก ๋ฏผ๊ฐ ์ ๋ณด๋ฅผ ์ ์ถํ์ง ์๋๋ก ํ๋ ๊ฒ) ๋ฑ์ด ํด๊ฒฐํด์ผ ํ ์์ ์ด๋ค.
- ์ํ๊ณ: LangChain, LlamaIndex ๊ฐ์ ๋๊ตฌ๋ค์ด RAG ๊ฐ๋ฐ์ ํ์ค ๊ธฐ์ ์คํ์ผ๋ก ์๋ฆฌ ์ก์์ผ๋ฉฐ, Flowise AI ๊ฐ์ ๋ก์ฐ์ฝ๋ ํ๋ซํผ์ด๋ Weaviate Verba ๊ฐ์ ๊ฐ์ธํ ๋น์ ์๋น์ค ๋ฑ์ผ๋ก ์ํ๊ณ๊ฐ ๋ถํํ๊ณ ์๋ค.
- ๋ฐ์ ๋ฐฉํฅ: ๋ง์ถคํ(Customization), ๋จ์ํ(Simplification), ์ ๋ฌธํ(Specialization)์ ์ธ ๊ฐ์ง ๋ฐฉํฅ์ผ๋ก ๊ธฐ์ ์คํ์ด ์งํํ๊ณ ์๋ค.
6. ๋ฉํฐ๋ชจ๋ฌ RAG (Multi-modal RAG)
๋ง์ง๋ง์ผ๋ก RAG๋ ํ ์คํธ์ ๊ฒฝ๊ณ๋ฅผ ๋์ด ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ํ์ฅ ์ค์ด๋ค.
- ์ด๋ฏธ์ง: RA-CM3๋ BLIP-2์ฒ๋ผ ํ ์คํธ์ ์ด๋ฏธ์ง๋ฅผ ํจ๊ป ๊ฒ์ํ๊ณ ์์ฑํ๋ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ๋ค .
- ์ค๋์ค/๋น๋์ค: ์์ฑ์ ํ ์คํธ๋ก ๋ณํํ ๋ ์ธ๋ถ ์ง์์ ์ฐธ์กฐํ๊ฑฐ๋(UEOP), ๋น๋์ค์ ํ์๋ผ์ธ์ ์์ธกํ๊ณ ์ค๋ช ํ๋ ๋ฐ RAG๋ฅผ ํ์ฉํ๋ค.
- ์ฝ๋: ๊ฐ๋ฐ์์ ์๋์ ๋ง๋ ์ฝ๋ ์์ ๋ฅผ ๊ฒ์ํ์ฌ ํ๋ก๊ทธ๋๋ฐ์ ๋๋ RBPS ๊ฐ์ ๋ชจ๋ธ์ด ์๋ค. ๊ตฌ์กฐํ๋ ์ง์์ ๋ค๋ฃจ๋ CoK(Chain of Knowledge)๋ ์ง์ ๊ทธ๋ํ์์ ํฉํธ๋ฅผ ์ถ์ถํด ์ฝ๋ ์์ฑ์ด๋ ์ถ๋ก ์ ๋๋๋ค.
8. Conclusion

์ด ๋ ผ๋ฌธ์ RAG๊ฐ ๋จ์ํ "๊ฒ์ํด์ ๋ถ์ฌ๋ฃ๊ธฐ"ํ๋ ๊ธฐ์ ์ ๋์ด, LLM์ ํ๊ณ๋ฅผ ๋ณด์ํ๊ณ ์ธ๋ถ ์ง์์ ๋ฅ๋์ ์ผ๋ก ํ์ฉํ๋ ๊ฑฐ๋ํ ์ธ์ง ์ํคํ ์ฒ๋ก ์งํํ๊ณ ์์์ ๋ณด์ฌ์ค๋ค.
์ด๊ธฐ RAG๊ฐ ๋ฌธ์๋ฅผ ์ ์ฐพ์์ค๋ ๊ฒ์ ์ง์คํ๋ค๋ฉด, ์ด์ ๋ ๋ชจ๋ํ๋ ๊ตฌ์กฐ ์์์ ๊ฒ์๊ณผ ์์ฑ์ ์ ๊ตํ๊ฒ ์กฐ์จํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๊ณ ์๋ค. LLM์ ๋ฌธ๋งฅ ์๋์ฐ๊ฐ ์๋ฌด๋ฆฌ ๋์ด๋๋, ์ธ๊ฐ์ด ๋ชจ๋ ์ฑ ์ ์ธ์ฐ๊ณ ๋ค๋ ์ ์๋ฏ ๋ฐฉ๋ํ ์ธ๋ถ ์ง์์ ํจ์จ์ ์ผ๋ก ์ฐธ์กฐํ๋ RAG์ ๊ฐ์น๋ ์ฌ๋ผ์ง์ง ์์ ๊ฒ์ด๋ค. ์์ผ๋ก RAG๋ ๋์ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์ ๊ฒฐํฉํ๋ฉฐ AI์ ์ค์ง์ ์ธ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๋์ด๋ ํต์ฌ ์์ง์ผ๋ก ์๋ฆฌ ์ก์ ๊ฒ์ด๋ผ ๊ธฐ๋ํ๋ค.
์ด ๋ ผ๋ฌธ์ ์ค๋ฌด์์ ํต์ฌ ๊ธฐ์ ๋ก ์ฐ์ด๋ RAG์ ์งํ ๊ณผ์ ๊ณผ ํฅํ ๋ฐ์ ๋ฐฉํฅ๊น์ง, ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํด์ฃผ๊ณ ์์ต๋๋ค.
๊ผญ ๋ ผ๋ฌธ์ ์ฝ์ด๋ณด์๊ณ reference๋ฅผ ๋ฐ๋ผ ์ฌ๋ฌ ์ต์ ๋ฐฉ๋ฒ๋ก ๋ค๋ ํจ๊ป ์ดํด๋ณด์๊ธฐ ๋ฐ๋๋๋ค.
์ ๊ฐ์ธ์ ์ผ๋ก๋ ์ฝ 2๋ ์ , ์์ฌ๋ก ์ฐ๊ตฌ์ ์ํ์ ์์ํ ๋ ์ด ๋ ผ๋ฌธ์ ์ฝ๊ณ ์ ์ฒด์ ์ธ ํ๋ฆ์ ํ์ ํ๋ ๋ฐ ๋์์ ์ป์์ต๋๋ค.
์ค์ ๋ก RAG๋ฅผ ๋ค๋ฃจ๋ฉฐ ์ฐ๊ตฌ๋ ํด๋ณด๊ณ ๊ธฐ์ ๊ณผ ํ๋ก์ ํธ๋ก ์์ฉ ์์คํ ๋ ๊ฐ๋ฐํ ๊ฒฝํ์ด ์์ธ ๋ค์ ์ด ๋ ผ๋ฌธ์ ์ฝ์ผ๋ ๋ ์๋กญ๋ค์.
๊ฐํ ํ ๋ง์ ๋๋ฆฌ์๋ฉด, RAG์ ํต์ฌ์ ๊ฒฐ๊ตญ ๋ด๊ฐ ํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ์ฃผ์ด์ง ์์(๋ฐ์ดํฐ ๋ฑ)์ ๋ง๋ ๋ฐฉ๋ฒ๋ก ์ ์ค๊ณํ๋ ๊ฒ์ด ์ค์ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. RAG๋ ์ฌ๋ฌ ์์๋ฅผ ํ๋ถ์ฐฉํด๊ฐ๋ฉฐ ์์ ์ ์ค๊ณ์ ๋ง๊ฒ ์กฐ๋ฆฝํด๋ณผ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ทธ๋งํผ ๋ค์ํ ์๋์ ์์ฉ์ด ๊ฐ๋ฅํ๊ธฐ์ ์ถฉ๋ถํ ๋ง์ ์๋๋ฅผ ํด๊ฐ๋ฉฐ ๋ด๊ฐ ํ์ด์ผํ๋ ๋ฌธ์ ์ ๋ง๋ ์ต์ ์ ์ค๊ณ๋๋ฅผ ์ฐพ์ ๋๊ฐ๋ ๊ณผ์ ์ ๊ฒฝํํด๋ณด์๊ธฐ ๋ฐ๋๋๋ค! (๊ผญ sota๋ผ๊ณ ๋ค ์ข์ ๊ฒ๋ ์๋์ฃ .)
๋ชจ๋ ํ์, ์ฐ๊ตฌ์, ์ค๋ฌด์ ๋ถ๋ค ์์ํฉ๋๋ค!
https://arxiv.org/abs/2312.10997
Retrieval-Augmented Generation for Large Language Models: A Survey
Large Language Models (LLMs) showcase impressive capabilities but encounter challenges like hallucination, outdated knowledge, and non-transparent, untraceable reasoning processes. Retrieval-Augmented Generation (RAG) has emerged as a promising solution by
arxiv.org