1. ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๊นจ์๋ผ
์ค๋๋ ๋ฐ์ดํฐ๋ ๊ธฐ์ ์ ์์ง์ด๋ ๊ฐ์ฅ ์ค์ํ ์์์ด๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๊ฐ ํํ ๋ฐ์ดํฐ๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ์ ๋น์ฐ์ ์ผ๊ฐ์ ๋ถ๊ณผํ๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ๋ฒ ์ด์ค(Relational Database)์ ์ ์ ๋ฆฌ๋ ํ(Row)๊ณผ ์ด(Column) ํํ์ ์ ํ ๋ฐ์ดํฐ๋ ์ ์ฒด ๊ธฐ์ ๋ฐ์ดํฐ์ ์ผ๋ถ์ ์ง๋์ง ์๋๋ค. ์ค์ ์ค๋ฌด์์ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ์ ๋๋ถ๋ถ์ ๊ณ์ฝ์์ ๋ณด๊ณ ์ ๋ฑ์ PDF ๋ฌธ์, ์ค์บ๋ ์ด๋ฏธ์ง ํน์ ๋ ๋์๊ฐ ํ๋ ์ ํ ์ด์ ์ฌ๋ผ์ด๋์ ์ด๋ฉ์ผ๊น์ง, ์ ํํ๋์ง ์์ ์๋ ๊ทธ ์ํ๋ก ์กด์ฌํ๋ฉฐ, ์ด๋ฅผ '๋น์ ํ ๋ฐ์ดํฐ(Unstructured Data)'๋ผ๊ณ ์ด์นญํ๋ค.
๋น์ ํ ๋ฐ์ดํฐ๋ ํ์ ๊ธ์ ์ฝ์ด ์จ ์ธ๊ฐ์๊ฒ๋ ์ฝ๊ธฐ ์ฝ๊ณ ์ดํดํ๊ธฐ ์ข์ผ๋, ์ปดํจํฐ๊ฐ ํด์ํ๊ธฐ์๋ ๋ํดํ ๊ฒ์ ๋ถ๊ณผํ๋ค. ๊ธฐ์ ์ ์ง์ ์์ฐ ์ค ์๋น์๊ฐ ์ด๋ฌํ ๋น์ ํ ๋ฐ์ดํฐ ํํ๋ก ๊ณณ๊ณณ์ ์ ๋ค์ด ์์ผ๋ฉฐ, ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ์ง ๋ชปํ๋ ์ํ๋ฅผ ์ผ์ปฌ์ด '๋คํฌ ๋ฐ์ดํฐ(Dark Data)' ํน์ '์ ์๋ ๋ฐ์ดํฐ(Sleeping Data)'๋ผ ์นญํ๋ค๊ณ ํ๋ค. ์์ฑํ AI(Generative AI)์ ์งํ, ํนํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ฑ์ฅ์ ์ด ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ๊นจ์ ๋น์ฆ๋์ค ์ธํ ๋ฆฌ์ ์ค๋ก ์ ํํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ด์ด์ฃผ์๋ค. ํ์ง๋ง ์ฌ์ ํ '๋ฐ์ดํฐ์ ๊ธฐ๊ณ ๊ฐ๋ ์ฑ(Machine Readability)'์ด๋ผ๋ ํ๊ณ์ ์ง๋ฉดํด ์๋ค.
LLM์ ํ๊ฐ(Hallucination) ํ์์ ์ต์ ํ๊ณ ๊ธฐ์ ๋ด๋ถ์ ์ต์ ์ ๋ณด๋ฅผ ๋ฐ์ํ๊ธฐ ์ํด ๋์ ๋ ๊ฒ์ ์ฆ๊ฐ ์์ฑ(RAG, Retrieval-Augmented Generation)์ ๊ธฐ์ ๋ด AI ์์คํ ์ ํ์ ์์๋ก ์๋ฆฌ ์ก์๋ค.
RAG๋ ์ฌ์ฉ์์ ์ง๋ฌธ๊ณผ ๊ด๋ จ๋ ๋ฌธ์๋ฅผ ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๊ฒ์(Retrieval)ํ์ฌ LLM์ ๋ฌธ๋งฅ(Context)์ผ๋ก ์ ๊ณตํจ์ผ๋ก์จ, ๋ชจ๋ธ์ด ํ์ตํ์ง ์์ ์ ๋ณด์ ๋ํด์๋ ์ ํํ๊ณ ์ ๋ขฐํ ์ ์๋ ๋ต๋ณ์ ์์ฑ(Generation)ํ๋๋ก ์ ๋ํ๋ค.
๊ทธ๋ฌ๋, RAG ์์คํ ์ ๋์ ํ ํ ๋ง์ฃผํ๋, ์ฒซ ๋ฒ์งธ ์คํจ ์์ธ์, ์ผ๋ฐ์ ์ธ ํต๊ณ ๋ชจ๋ธ๊ณผ ML ๋ชจ๋ธ์์์ฒ๋ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์๋๋ผ ๋ฐ์ดํฐ์ ํ์ง์ด๋ค. ๋ชจ๋ธ ์ํคํ ์ฒ ์ค๊ณ๋ ๋ฏธ์ธ ์กฐ์ ๊ฐ์ ํ์ต์ ๋นํด ๊ฐ๊ณผ๋๊ณค ํ์ง๋ง, ์ฌ์ ํ "Garbage In, Garbage Out(GIGO)"์ด๋ผ๋ ์ค๋๋ ์ปดํจํ ๊ฒฉ์ธ์ ์์ฑํ AI ์๋์ ์ ํจํ ๊ฒ์ด๋ค. ์๋ ์ด์ฉ๋ฉด Hallucination์ด๋ผ๋ ๋์ฑ ์น๋ช ์ ์ธ ํํ๋ก ๋ฐํ๋์ด ๊ทธ ๋ฌธ์ ์ ์ฌ๊ฐ์ฑ์ด ๋ ํฌ๋ค๊ณ ํ ์ ์๋ค.
๋ฌธ์์ ๋ ผ๋ฆฌ์ ๊ตฌ์กฐ๊ฐ ํ๊ดด๋ ์ฑ ๋จ์ ํ ์คํธ๋ก๋ง ์ถ์ถ๋์ด ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค(Vector DB)์ ์ ์ฅ๋ ๊ฒฝ์ฐ, ์๋ฌด๋ฆฌ ๋ฐ์ด๋ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ LLM์ ์ฌ์ฉํ๋๋ผ๋ ์ ํํ ๋ต๋ณ์ ๋์ถํ ์ ์๋ ๊ฒ์ด๋ค. ํนํ PDF์ ๊ฐ์ ๋ฌธ์ ํฌ๋งท์ ์ธ์๋ฅผ ์ํ ์๊ฐ์ ํธ์์ฑ(์ธ๊ฐ์ ์ํ ํธ์..)์ ๋ชฉํ๋ก ์ค๊ณ๋์๊ธฐ์, ๊ทธ ๋ด๋ถ์ ์ ๋ณด๋ ๋ ผ๋ฆฌ์ ์ธ ๊ตฌ์กฐ(์ฃผ๋ก HTML, MD, JSON์ผ๋ก ํํ๋๊ณค ํ๋)๋ฅผ ํฌํจํ์ง ์๋ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ด๋ค. ๋ฐ๋ผ์ RAG์ ์ฑ๊ณต์ '์ ์๋ ๋น์ ํ ๋ฐ์ดํฐ'๋ฅผ ์ผ๋ง๋ ์ ๊ตํ๊ฒ ๊นจ์๋ด๋๋, ์ฆ 'Document AI'์ ์์ฑ๋์ ๋ฌ๋ ค ์๋ค๊ณ ํ ์ ์๋ค.

2. RAG ์์คํ ์ ์ํฌ๋ ์ค๊ฑด
RAG ์์คํ ์ด ํ์ฉํ๋ "์ฒญํฌ(Chunk)" ๋ฐ์ดํฐ๋ ํ๋์ ๊ฒ์ ๋จ์์ด์ LLM์ ํ๋กฌํํธ์ ์ฃผ์ ๋๋ ์ฐ๋ฃ์ด๋ค. ๊ทธ๋ฌ๋ ๊ณ ๊ธ์ฐจ์๋ ๊ณ ๊ธ ํ๋ฐ์ ๋ฅผ ๋ฃ์ด์ผ ํ๋ฏ, ์ ํํ ๊ฒ์์ ์ํํ๋ RAG ์์คํ ์๋ ๋ฌธ๋งฅ์ด ์ ์ ์ ๋, ๊ฐ๋ ์ฑ์ด ์ข์ ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด์ผ ํ๋ค. ๋ฌผ๋ก ์ฌ๊ธฐ์ '๊ฐ๋ ์ฑ'์ ์ธ๊ฐ์ ๊ด์ ์ด ์๋ ๊ธฐ๊ณ, ์ฆ ์๊ณ ๋ฆฌ์ฆ์ ๊ด์ ์์์ ๊ฐ๋ ์ฑ์ ์๋ฏธํ๋ค.
๊ธฐ๊ณ(๋น์ฐํ ์ปดํจํฐ) ๊ฐ๋ ์ฑ์ด๋ ๋ฐ์ดํฐ๊ฐ ๊ตฌ์กฐํ๋์ด ์์ด ์ปดํจํฐ๊ฐ ๊ทธ ์๋ฏธ์ ๊ด๊ณ๋ฅผ ๋ช ํํ ํ์ ํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ์ํ๋ฅผ ๋งํ๋ค. ์ธ๊ฐ์ ๋ฌธ์๋ฅผ ๋ณผ ๋ ํฐํธ์ ํฌ๊ธฐ, ๊ตต๊ธฐ, ์์น, ์ฌ๋ฐฑ ๋ฑ์ ํตํด ์ ๋ชฉ๊ณผ ๋ณธ๋ฌธ, ํ์ ์บก์ , ์ฃผ์ ๋ฑ์ ์ง๊ด์ ์ผ๋ก ๊ตฌ๋ถํ๋ค. ํ์ง๋ง ๊ธฐ๊ณ์๊ฒ ์ค์บ๋ PDF ๋ฌธ์๋ ๋จ์ํ ํฝ์ ์ ์งํฉ์ด๊ฑฐ๋, ์๋ฏธ ์๋ ์ขํ ๊ฐ์ ๊ฐ์ง ๊ธ์๋ค์ ๋์ด์ผ ๋ฟ์ด๋ค. ๊ธฐ๊ณ ๊ฐ๋ ์ฑ์ ํ๋ณดํ๊ธฐ ์ํด์๋ ์๊ฐ์ ์ ๋ณด๋ฅผ ๋ ผ๋ฆฌ์ ์ ๋ณด๋ก ๋ณํํ๋ ๊ณผ์ ์ด ํ์์ ์ด๋ค. HTML ๊ตฌ์กฐ๋ฅผ ์๋ก ๋ค์๋ฉด, ํฐ ๊ธ์จ๋ก ์๋จ์ ์์นํ ํ ์คํธ๋ <h1> ํ๊ทธ๋ก, ๊ฒฉ์๋ฌด๋ฌ ์์ ์๋ ์ซ์๋ <table> ํ๊ทธ์ <td> ํ๊ทธ๋ก ๋ช ์๋์ด์ผ LLM์ด ํด๋น ํ ์คํธ์ ์ญํ ์ ์ดํดํ ์ ์๋ค.
๊ตฌ์กฐ์ ์ผ๋ก ์ ์ ๋์ง ์์ '์ ํ์ง์ ๋ฐ์ดํฐ'๊ฐ RAG ํ์ดํ๋ผ์ธ์ ์ ์ ๋ ๋ ๋ฐ์ํ๋ ๋ฌธ์ ๋ ์ฌ๊ฐํ๋ค.
๋ฌธ์์ ๋ฌธ๋จ์ด๋ ํ๊ฐ ์์๋ก ์๋ฆฌ๊ฑฐ๋(Chunking error), ํ์ด์ง๊ฐ ๋์ด๊ฐ๋ฉด์ ๋ฌธ์ฅ์ด ๋์ด์ง๋ ๊ฒฝ์ฐ, ๋น์ฐํ ์ ์ฌ๋ ๊ณ์ฐ์ ์๊ณกํ ์ ์๋ ๋์์ LLM์๊ฒ๋ ํผ๋๋ง ๊ฐ์คํ ๋ฟ์ด๋ค. ๋ํ, ๋จธ๋ฆฌ๊ธ, ๋ฐ๋ฅ๊ธ, ํ์ด์ง ๋ฒํธ, ์ํฐ๋งํฌ ๋ฑ์ด ๋ณธ๋ฌธ ํ ์คํธ์ ์์ฌ ๋ค์ด๊ฐ๋ฉด, ๊ทธ ์์ฒด๋ก ๋ ธ์ด์ฆ๊ฐ ๋์ด ๋ง์ฐฌ๊ฐ์ง ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์ด๋ฌํ ํ์ฑ ์ค๋ฅ(Parsing Error)๋ ๊ธ์ต ๋ณด๊ณ ์๋ ๊ธฐ์ ๋งค๋ด์ผ๊ณผ ๊ฐ์ด ์ ๋ณด์ ๋ฐ๋๊ฐ ๋๊ณ ๊ตฌ์กฐ๊ฐ ๋ณต์กํ ๋ฌธ์์ผ์๋ก ์ทจ์ฝํ๋ค. ๋จ์ํ ํ ์คํธ๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ๋์ด, ๋ฌธ์์ ๊ตฌ์กฐ์ ๋ฌด๊ฒฐ์ฑ์ ๋ณด์กดํ๋ ๊ฒ์ด RAG ์ฑ๋ฅ ์ต์ ํ๋ฅผ ์ํ ๊ฐ์ฅ ๊ธฐ๋ณธ ๋จ๊ณ์ด์ ํต์ฌ ๊ณผ์ ์ธ ๊ฒ์ด๋ค.
3. ๊ธฐ์กด Document AI์ ํ๊ณ: OCR ๊ธฐ์ ์ ํ๊ณ
Document AI์ ๊ฐ์ฅ ์ฒซ ๋จ๊ณ๋ ๋ค์ํ ํํ์ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ Textํ ํ๋ ๊ฒ์ด๋ค. ์ด๋ ์ฐ์ด๋ ์ ํต์ ์ธ OCR(Optical Character Recognition) ๊ธฐ์ , ํนํ Tesseract์ ๊ฐ์ ๊ณ ์ ์ OCR ์์ง์ ์ด๋ฏธ์ง ๋ด์ ํจํด์ ๋ถ์ํ์ฌ ๊ธ์๋ฅผ ์ธ์ํ๋ ๋ฐ ์ฃผ๋ ฅํ๋ฉฐ, ๋ฌธ์์ ๋ ์ด์์์ด๋ ๋ ผ๋ฆฌ์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ ํ์ ํ ๋ถ์กฑํ๋ค. ๋ LLM ์๋๋ฅผ ๋ง์ดํ์ฌ ์ด๋ฌํ OCR์ ํ๊ณ๋ ๋์ฑ ๋๋๋ฌ์ง๊ณ ์๋ค.
3.1 ์ฝ๊ธฐ ์์์ ์ค๋ฅ
๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ฐ์ํ๋ ๋ฌธ์ ๋ '์ฝ๊ธฐ ์์'์ ์ค๋ฅ๋ค. ๋ด์ค ๊ธฐ์ฌ๋ ๋ ผ๋ฌธ์ฒ๋ผ 2๋จ ๋๋ 3๋จ์ผ๋ก ํธ์ง๋ ๋ฌธ์(Multi-column Layout)์์, ๋จ์ OCR์ ํ์ด์ง ์ ์ฒด๋ฅผ ํ๋์ ํฐ ํ ์คํธ ๋ธ๋ก์ผ๋ก ์ธ์ํ์ฌ ์ผ์ชฝ ๋จ์ ์ฒซ ์ค์ ์ฝ๊ณ ๋ฐ๋ก ์ค๋ฅธ์ชฝ ๋จ์ ์ฒซ ์ค๋ก ๋์ด๊ฐ๋ ์ค๋ฅ๋ฅผ ๋ฒํ๋ค.
์๋ฅผ ๋ค์ด, "AI๋ ๋ฏธ๋์ ํต์ฌ ๊ธฐ์ ์ด๋ค"๋ผ๋ ๋ฌธ์ฅ์ด ์ผ์ชฝ ๋จ์ ์๊ณ , "๋ฐ์ดํฐ๋ ์๋ก์ด ์์ ๋ค"๋ผ๋ ๋ฌธ์ฅ์ด ์ค๋ฅธ์ชฝ ๋จ์ ์์ ๋, OCR์ ์ด๋ฅผ "AI๋ ๋ฏธ๋์ ๋ฐ์ดํฐ๋ ์๋ก์ด ํต์ฌ ๊ธฐ์ ์ด๋ค ์์ ๋ค"์ ๊ฐ์ด ๋ค์์ธ ๋ฌธ์ฅ์ผ๋ก ์ถ์ถํ ์ ์๋ค. ์ด๋ฌํ ํ์์ '๋ฌธ์ฅ ์๋ฌ๋(Word Salad)'๋ผ๊ณ ๋ถ๋ฅธ๋ค๊ณ ํ๋๋ฐ, ์๋ฌดํผ ์ด๋ LLM์ ์ถ๋ก ์ ์์ฒ์ ์ผ๋ก ์ ํํ๋ค.
3.2 ํ ์ด๋ธ์ ํํํ (Table Flattening)์ ๊ตฌ์กฐ ์์ค
์ฌ๋ฌด์ ํ, ๊ฐ๊ฒฉํ, ์ค๋ช ์ ๋ฑ ๊ธฐ์ ๋ฌธ์์ ํต์ฌ ์ ๋ณด๋ ๋๋ถ๋ถ ํ(Table)์ ๋ด๊ฒจ ์๋ค. ๊ทธ๋ฌ๋ OCR์ ํ๋ฅผ ์ธ์ํ ๋, ํ(Row)๊ณผ ์ด(Column)์ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๊ณ ํ ์คํธ๋ฅผ ์ ํ์ ์ผ๋ก ๋์ดํ๋๋ฐ, ์ด๋ฅผ 'ํ ์ด๋ธ ํํํ(Table Flattening)'๋ผ๊ณ ํ๋ค.
ํ ๋ด๋ถ์ ํ ์คํธ๋ ์ถ์ถ๋์ง๋ง, ๊ทธ ํ ์คํธ๊ฐ ์ด๋ ํญ๋ชฉ์ ์ํ๋์ง, ์์ ํค๋๊ฐ ๋ฌด์์ธ์ง์ ๋ํ ์ ๋ณด๋ ํญ(Tab) ๋ฌธ์๋ ๊ณต๋ฐฑ์ผ๋ก ๋ถ๋ถ๋ช ํ๊ฒ ์ฒ๋ฆฌ๋๊ฑฐ๋ ์์ ์์ค๋๋ค. ํนํ๋ ์ค๋ฌด ๋ฌธ์์ ํ ํ์์ ๋ ์ ๋ง๋ค ๊ฐ์ฑ์ด ์์ด ๊ต์ฅํ ๋ค์ํ๋ฐ, ๋ง์ฝ ์ ๋ณํฉ์ด ํฌํจ๋ ๋ณต์กํ ํ์ ๊ฒฝ์ฐ๋ผ๋ฉด OCR์ ๋ณํฉ๋ ์ ๋ณด๋ฅผ ๊ฐ๋ณ ์ ์ ์ฌ๋ฐ๋ฅด๊ฒ ํ ๋นํ์ง ๋ชปํด ๋ฐ์ดํฐ์ ์ ํฉ์ฑ์ ์ฌ๊ฐํ๊ฒ ํผ์ํ๋ค. ์ด๋ RAG ์์คํ ์ด ์์น ๋ฐ์ดํฐ์ ๋ํ ์ง์์ ๋ต๋ณํ ๋ ์ฌ๊ฐํ Hallucination์ ์ ๋ฐํ๋ ์ฃผ๋ ์์ธ์ด๋ค.
3.3 ์๊ฐ ์ ๋ณด์ ๋๋ฝ๊ณผ ๋ฉํฐ๋ชจ๋ฌ ์ดํด์ ๋ถ์ฌ
๋ฌธ์์๋ ํ ์คํธ ์ธ์๋ ์ฐจํธ, ๊ทธ๋ํ, ๋ค์ด์ด๊ทธ๋จ ๋ฑ ํ๋ถํ ์๊ฐ ์ ๋ณด๊ฐ ํฌํจ๋์ด ์๋ค. "๊ทธ๋ฆผ 1 ์ฐธ์กฐ"์ ๊ฐ์ ์บก์ ํ ์คํธ๋ง ๋จ๊ณ ์ค์ ๊ทธ๋ฆผ์ ๋ด์ฉ์ ์ถ์ถ๋์ง ์๋ ๊ฒฝ์ฐ, ์ ๋ณด์ ์๋น ๋ถ๋ถ์ด ์ ์ค๋๋ค. ๊ธฐ์กด OCR์ ์ด๋ฏธ์ง ์์ญ์ ๋ฌด์ํ๊ฑฐ๋, ์ด๋ฏธ์ง ๋ด์ ํ ์คํธ๋ฅผ ๋ฌด์์๋ก ์ถ์ถํ์ฌ ๋ณธ๋ฌธ๊ณผ ์์ด๋ฒ๋ฆฌ๋ ๋ฑ์ ๋ฌธ์ ๋ฅผ ์ผ์ผํจ๋ค. LLM์ด ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง์ ๋ํ๋ฅผ ํตํฉ์ ์ผ๋ก ์ดํดํด์ผ ํ๋ ๋ฉํฐ๋ชจ๋ฌ(Multimodal) ํ๊ฒฝ์์, ์ด๋ฌํ ์๊ฐ ์ ๋ณด์ ๋๋ฝ์ ์ง์ ๋ฒ ์ด์ค์ ๋ถ์์ ์ฑ์ ์ด๋ํ๋ค.
4. Layout Analysis์ ๊ตฌ์กฐ์ ํ์ฑ ๊ธฐ์
์ค๋๋ ๋น์ ํ ๋ฐ์ดํฐ ์ ์ ์ ์ค์์ฑ๊ณผ ๊ธฐ์กด OCR์ ํ๊ณ๋ ๋ฌธ์๋ฅผ ์ ๋ค๋ค๋ณด์๋ ๋ ํ๋์ ์ ๋ฌธ ์ฐ๊ตฌ ๋ถ์ผ๋ฅผ ๋ง๋ค์ด๋๋ค. ๊ทธ๊ฒ์ด 'Document AI'์ด๋ค.
๋จผ์ ๊ทธ ํต์ฌ ๊ธฐ์ ์ '๋ ์ด์์ ๋ถ์(Layout Analysis)'์ด๋ค. ๋ ์ด์์ ๋ถ์์ ์ปดํจํฐ ๋น์ (Computer Vision)์ ๊ฐ์ฒด ํ์ง(Object Detection) ๋ฐ ์ธ๊ทธ๋ฉํ ์ด์ (Segmentation) ๊ธฐ์ ์ ๋ฌธ์ ์ฒ๋ฆฌ์ ์ ์ฉํ ๊ฒ์ด๋ค. ์ด ๊ธฐ์ ์ ๋ฌธ์ ์ด๋ฏธ์ง๋ฅผ ํฝ์ ๋จ์๋ก ์ค์บํ์ฌ ํ ์คํธ, ์ ๋ชฉ, ํ, ์ด๋ฏธ์ง, ์บก์ , ๋ฆฌ์คํธ, ์์ ๋ฑ ๋ค์ํ ๋ ์ด์์ ์์๋ฅผ ์๋ณํ๊ณ , ๊ฐ ์์์ ๊ฒฝ๊ณ ์์(Bounding Box)๋ฅผ ๊ฒ์ถํ๋ค. ๋ง์น ์์จ์ฃผํ์ฐจ๊ฐ ๋๋ก ์์ ๋ณดํ์, ์ ํธ๋ฑ, ์ฐจ์ ์ ๊ตฌ๋ถํ๋ฏ, Document AI๋ ๋ฌธ์๋ผ๋ 2์ฐจ์ ๊ณต๊ฐ ์์ ์ ๋ณด ๊ฐ์ฒด๋ค์ ์ธ์ํ๋ค. ์ดํ ์ธ์๋ ๊ฐ์ฒด๋ค์ ์์น ์ ๋ณด(XY ์ขํ)์ ์๊ฐ์ ํน์ง์ ๋ถ์ํ์ฌ ๋ฌธ์์ ๋ ผ๋ฆฌ์ ์ฝ๊ธฐ ์์๋ฅผ ์ถ๋ก ํ๊ณ , ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ์ฌ๊ตฌ์ฑํ๋ค.
๋ํ, "๊ตฌ์กฐ์ ํ์ฑ(Structural Parsing)"์ด ์๋ค. ๋ ์ด์์ ๋ถ์์ ํตํด ์๋ณ๋ ๊ฐ ์์๋ ๊ธฐ๊ณ์ ์ํํ ์ดํด๋ฅผ ๋์ธ ์ ์๋ ๊ตฌ์กฐํ๋ ํฌ๋งท์ผ๋ก ๋ณํ๋์ด์ผ ํ๋ค. ๊ตฌ์กฐ์ ํ์ฑ์ ์ด๋ฅผ ์ํด ๋น์ ํ๋ฅผ ์ฌ์ ์ ์ ์๋ ์คํค๋ง, ํน์ ๊ตฌ์กฐ๋ก ๋ณํํ๋ ๊ฒ์ด๋ค. ์ด๋ ์ฃผ๋ก ์ฐ์ด๋ ๊ตฌ์กฐ๊ฐ HTML(HyperText Markup Language)๊ณผ Markdown, ๊ทธ๋ฆฌ๊ณ JSON์ด๋ค.
HTML์ ์น ํ์ค ์ธ์ด๋ก, <table>, <h1>, <ul> ๋ฑ ๋ค์ํ ํ๊ทธ๋ฅผ ํตํด ๋ฌธ์์ ๊ตฌ์กฐ๋ฅผ ๋ช ํํ ์ ์ํ ์ ์๋ ํ์์ด๋ค. LLM์ ํ์ต ๋ฐ์ดํฐ ์ค ์๋น์๊ฐ ์น ๋ฐ์ดํฐ์ด๊ธฐ ๋๋ฌธ์ LLM ์นํ์ ์ด๋ฉฐ, ๋ณต์กํ ํ๋ ๋ค๋จ ๋ฌธ์, ํ์ดํผ๋งํฌ๊ฐ ํฌํจ๋ ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์ ํฉํ๋ค.
Markdown์ ๋ฌธ๋ฒ์ด ๊ฐ๊ฒฐํ๊ณ ํ ์คํธ ์ค์ฌ์ ์ด๋ผ ํ ํฐ ์๋ชจ๋์ด ์ ์ ํ์์ด๋ค. LLM์ด ์์ฑํ๊ณ ์ดํดํ๊ธฐ์ ํจ์จ์ ์ด๊ธฐ ๋๋ฌธ์, ์ผ๋ฐ์ ์ธ ๋น์ฆ๋์ค ๋ฌธ์๋ ๊ธฐ์ ๋ฌธ์, ๋ฉ๋ชจ ๋ฑ์ ๊ตฌ์ฑํ๋ ๋ฐ ์์ฃผ ํ์ฉ๋๋ค.
JSON์ ๋ฐ์ดํฐ์ ํค-๊ฐ(Key-Value) ๊ตฌ์กฐ๋ฅผ ๋ช ํํ ํํํ๋ ํ์์ผ๋ก, ๋น๊ต์ ํ ํฐ ํจ์จ์ ์ด๋ฉฐ, API ์ฐ๋์ด๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ ์ฅ์ ์ ๋ฆฌํ๋ค. ์ก์ฅ, ์์์ฆ, ์ ์ฒญ์ ๋ฑ ์ ํํ๋ ์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๋ฐ ์ ํฉํ ํฌ๋งท์ด๋ค.
5. ์ฌ๋ก ๋ถ์ 1: Upstage Document Parse
๊ตญ๋ด AI ๊ธฐ์ ๊ธฐ์ ์ธ Upstage๋ ์์ฌ์ LLM์ธ 'Solar'๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ 'Document Parse' ์ค๋ฃจ์ ์ ํตํด ๊ธ๋ก๋ฒ ์์ฅ์์ ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค. Upstage์ ์ ๊ทผ ๋ฐฉ์์ OCR, ๋ ์ด์์ ๋ถ์, ์ ๋ณด ์ถ์ถ์ ๊ฐ๋ณ์ ์ธ ๋จ๊ณ๊ฐ ์๋ ํ๋์ ํตํฉ๋ ํ์ดํ๋ผ์ธ์ผ๋ก ์ฒ๋ฆฌํ๋ฉฐ, ํนํ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ LLM์ด ๊ฐ์ฅ ์ ์ดํดํ ์ ์๋ HTML ํฌ๋งท์ผ๋ก ์ถ๋ ฅํ๋ ๋ฐ ์ต์ ํ๋์ด ์๋ค.
Upstage Document Parse์ ํต์ฌ์ 'Solar' ๋ชจ๋ธ์ ์ธ์ด ์ดํด ๋ฅ๋ ฅ๊ณผ ๊ฐ๋ ฅํ ๋น์ ๊ธฐ์ ์ ๊ฒฐํฉ์ด๋ค. ์ด๋ ๋จ์ํ ๊ธ์๋ฅผ ์ฝ๋ ๊ฒ์ ๋์ด, ๋ฌธ๋งฅ์ ํ์ ํ์ฌ ์คํ์๋ฅผ ๊ต์ ํ๊ณ , ๋ฌธ์์ ๋ ผ๋ฆฌ์ ํ๋ฆ์ ์ถ๋ก ํ์ฌ ํ์ฑ์ ์ ํ๋๋ฅผ ๋์ธ๋ค.

Upstage๊ฐ ๊ฒฝ์์ฌ ๋๋น ๊ฐ์ฅ ํฐ ๊ธฐ์ ์ ์ฐ์๋ฅผ ์ ํ๊ณ ์๋ ๋ถ์ผ๋ '๊ณ ๋๋ ๊ตฌ์กฐ'์ ์ฒ๋ฆฌ๋ค. Upstage๋ ๋ง์ RAG ์์คํ , LLM์ด ์คํจํ๋ ์์ธ์ธ 'ํ' ์ฒ๋ฆฌ์ ์ง์คํ๋ค. ์ด๋ค์ ๋ชจ๋ธ์ ์ ๋ณํฉ, ๋ค์ค ํค๋, ํ ๋๋ฆฌ๊ฐ ์๊ฑฐ๋ ํฌ๋ฏธํ ํ, ๋ฐฐ๊ฒฝ์์ด ์๋ ํ ๋ฑ ๋ค์ํ ํํ์ ๋ณต์กํ ํ๋ฅผ HTML <table> ํ๊ทธ๋ก ๋ณต์ํ๋ค. Upstage๊ฐ ๊ณต๊ฐํ ๋ด์ฉ์ ๋ฐ๋ฅด๋ฉด, Document Parse๋ ๋ ์ด์์ ๋ฐ ํ ์ด๋ธ ์ธ์ ์ ํ๋๋ฅผ ์ธก์ ํ๋ ์งํ์ธ TEDS(Tree Edit Distance-based Similarity) ์ ์์์ 93.48์ ์ ๊ธฐ๋กํ์ฌ, ๊ฒฝ์ ๋ชจ๋ธ ๋๋น 5% ์ด์์ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ ๊ธ์ต ๋ณด๊ณ ์๋ ๋ณดํ ์ฝ๊ด๊ณผ ๊ฐ์ด ํ ์์ ์ค์ํ ์กฐ๊ฑด๊ณผ ์์น๊ฐ ๋ด๊ธด ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ ๋ RAG ์์คํ ์ ๊ฒ์ ์ ํ๋๋ฅผ ํ๊ธฐ์ ์ผ๋ก ํฅ์์ํฌ ์ ์๋ค.
๋ํ, ์ต๊ทผ Upstage๋ ์ ๊ณ ์ต์ด๋ก ๋ฌธ์ ๋ด ์ฐจํธ์ ๊ทธ๋ํ๋ฅผ ๋ถ์ํ์ฌ ์์ฒ ๋ฐ์ดํฐ(Source Data) ์์ค์ผ๋ก ๋ณต์ํ๋ ๊ธฐ๋ฅ์ ์ ๋ณด์๋ค. ๊ธฐ์กด ์ค๋ฃจ์ ๋ค์ด ์ฐจํธ๋ฅผ ๋จ์ํ ์ด๋ฏธ์ง ํ์ผ๋ก ์ ์ฅํ๊ฑฐ๋ "์ฐจํธ ์์" ์ ๋์ ์บก์ ๋ง ๋จ๊ฒผ๋ค๋ฉด, Upstage๋ ์ฐจํธ์ X์ถ, Y์ถ, ๋ฒ๋ก, ๋ฐ์ดํฐ ํฌ์ธํธ ๋ฑ์ ์ธ์ํ์ฌ ์ด๋ฅผ HTML ํ ์ด๋ธ์ด๋ ์์ธํ ํ ์คํธ ์์ฝ์ผ๋ก ๋ณํํ๋ค.
์๋ฅผ ๋ค์ด, ๋ง๋๊ทธ๋ํ ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ์ฌ "2023๋ 1๋ถ๊ธฐ: 50์ต, 2๋ถ๊ธฐ: 60์ต..."๊ณผ ๊ฐ์ ๊ตฌ์กฐํ๋ ํ ์คํธ๋ฅผ ์์ฑํด ์ค๋ค. ์ด๋ ๋น์ ๊ธฐ๋ฐ์ ์ ๋ณด๊ฐ ํ ์คํธ ๊ธฐ๋ฐ์ RAG ๊ฒ์ ์์คํ ์ผ๋ก ํธ์ ๋ ์ ์๊ฒ ํ๋ '๋ชจ๋ฌ๋ฆฌํฐ ๋ณํ(Modality Translation)' ๊ธฐ์ ๋ก, ์ ๋ณด์ ๊ฒ์ ๊ฐ๋ฅ์ฑ์ ๊ทน๋ํํ๋ค. Upstage์ ์์ฒด ์คํ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ฌํ ์ฐจํธ ์ธ์ ๊ธฐ๋ฅ์ ํ์ฑํํ์ ๋ ์ฐจํธ ๊ด๋ จ ๋ฌธ์์ ๋ํ ์ง์์๋ต(QA) ์ ํ๋๊ฐ ๊ฒฝ์์ฌ ๋๋น ์ฝ 6.49% ํฅ์๋์๋ค.
Upstage Document Parse๋ ์ฑ๋ฅ๋ฟ๋ง ์๋๋ผ ์ฒ๋ฆฌ ์๋ ๋ฉด์์๋ ๊ฐ์ ์ ๋ณด์ธ๋ค. Upstage์ ์ฑ๋ฅ ํ๊ฐ์ ๋ฐ๋ฅด๋ฉด, ์ด ์ค๋ฃจ์ ์ ํ์ด์ง๋น ํ๊ท 0.6์ด์ ์ฒ๋ฆฌ ์๋๋ฅผ ๊ธฐ๋กํ๋ฉฐ 100ํ์ด์ง ๋ถ๋์ ๋ฌธ์๋ฅผ 1๋ถ ์ด๋ด์ ์ฒ๋ฆฌํ ์ ์๋ค. ์ด๋ ๋๊ท๋ชจ ๋ฌธ์๋ฅผ ์ค์๊ฐ์ผ๋ก ์ฒ๋ฆฌํด์ผ ํ๋ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์ ์ ํฉํ๋ค.
6. ์ฌ๋ก ๋ถ์ 2: Unstructured
๋ฏธ๊ตญ์ Unstructured๋ Document AI๋ฅผ ํน์ ๋ชจ๋ธ์ ๊ธฐ๋ฅ์ด ์๋, ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์ํ ๊ฑฐ๋ํ 'ETL(Extract, Transform, Load) ํ์ดํ๋ผ์ธ'์ ๊ด์ ์์ ์ ๊ทผํ๋ค. ์ด๋ค์ ๋ชฉํ๋ ์ธ์์ ๋ชจ๋ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ LLM์ด ์๋นํ ์ ์๋ ํํ๋ก ๋ณํํ๋ ํ์ค ์ธํฐํ์ด์ค๊ฐ ๋๋ ๊ฒ์ด๋ค.
Unstructured์ ๊ฐ์ฅ ํฐ ๊ฐ์ ์ ๊ฐ๋ ฅํ ์คํ์์ค ์ปค๋ฎค๋ํฐ์ ์ํ๊ณ๋ค. Unstructured์ ๊ณต์ ๋ฌธ์์ ๋ฐ๋ฅด๋ฉด, ์ด๋ค์ด ์ ๊ณตํ๋ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ PDF, DOCX, PPTX, HTML, ์ด๋ฉ์ผ(EML), ์ด๋ฏธ์ง ๋ฑ 65๊ฐ ์ด์์ ๋ค์ํ ํ์ผ ํฌ๋งท์ ์ง์ํ๋ค. ๊ฐ๋ฐ์๋ ๋ณต์กํ ์ฝ๋๋ฅผ ์์ฑํ ํ์ ์์ด ๋จ ๋ช ์ค์ ๋ช ๋ น์ด๋ก ๋ค์ํ ํฌ๋งท์ ๋ฌธ์๋ฅผ ํต์ผ๋ JSON ๊ตฌ์กฐ๋ก ๋ณํํ ์ ์๋ค.

Unstructured๋ "One Size Does Not Fit All"์ด๋ผ๋ ์ฒ ํ ํ์, ๋ฌธ์์ ํน์ฑ๊ณผ ์ฌ์ฉ์์ ์๊ตฌ์ฌํญ(์๋ vs ์ ํ๋)์ ๋ง์ถฐ ์ ํํ ์ ์๋ ๋ค์ํ 'ํํฐ์ ๋ ์ ๋ต'์ ์ ๊ณตํ๋ค.
1) auto (default strategy): "auto" ์ ๋ต์ ๋ฌธ์์ ํน์ฑ๊ณผ ํจ์์ ์ ๋ฌ๋๋ kwargs๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ ํํฐ์ ๋ ์ ๋ต์ ์๋์ผ๋ก ์ ํํ๋ค.
2) fast: "fast"๋ ๊ท์น ๊ธฐ๋ฐ(rule-based) ์ ๋ต์ผ๋ก, ์ ํต์ ์ธ NLP ์ถ์ถ ๊ธฐ๋ฒ์ ํ์ฉํด ๋ชจ๋ ํ ์คํธ ์์๋ฅผ ๋งค์ฐ ๋น ๋ฅด๊ฒ ์ถ์ถํ๋ค. "fast" ์ ๋ต์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ํ์ผ ํ์ ์๋ ์ฌ์ฉํ๋ ๊ฒ์ด ๊ถ์ฅ๋์ง ์๋๋ค๊ณ ํ๋ค.
3) hi_res: "hi_res"๋ ๋ชจ๋ธ ๊ธฐ๋ฐ(model-based) ์ ๋ต์ผ๋ก, ๋ฌธ์์ ๋ ์ด์์์ ์๋ณํ๋ค. ์ด ์ ๋ต์ ์ฅ์ ์ ๋ฌธ์ ๋ ์ด์์์ ํ์ฉํด ๋ฌธ์ ์์์ ๋ํ ์ถ๊ฐ ์ ๋ณด๋ฅผ ์ป์ ์ ์๋ค. ๋ฌธ์ ์์์ ์ฌ๋ฐ๋ฅธ ๋ถ๋ฅ ์ ํ๋๊ฐ ๋งค์ฐ ์ค์ํ ๊ฒฝ์ฐ ์ด ์ ๋ต ์ฌ์ฉ์ ๊ถ์ฅํ๋ค๊ณ ํ๋ค.
4) ocr_only: "ocr_only"๋ ๋ ๋ค๋ฅธ ๋ชจ๋ธ ๊ธฐ๋ฐ(model-based) ์ ๋ต์ผ๋ก, ๊ดํ ๋ฌธ์ ์ธ์(OCR)์ ํ์ฉํด ์ด๋ฏธ์ง ๊ธฐ๋ฐ ํ์ผ์์ ํ ์คํธ๋ฅผ ์ถ์ถํ๋ค.
Unstructured.io์ ๋ฌธ์์ ๋ฐ๋ฅด๋ฉด, 'Fast' ์ ๋ต์ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ์ฝ 100๋ฐฐ ๋น ๋ฅธ ์ฒ๋ฆฌ ์๋๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฐ๋ฉด, 'Hi_Res' ์ ๋ต์ ์๋๋ ๋๋ฆฌ์ง๋ง ๋ ์ด์์ ์ธ์์ ํตํด ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํ๋ค.
๋ํ, Unstructured.io๋ ๊ณ ํด์๋ ๋ฌธ์์ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํด ์์ฒด์ ์ผ๋ก 'Chipper'๋ผ๋ ๋น์ ํธ๋์คํฌ๋จธ(Vision Transformer, ViT) ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๊ฐ๋ฐํ์ฌ ๋ฒ ํ๋ก ์ ๊ณตํ๊ณ ์๋ค. Chipper๋ ํ ์คํธ์ ์๊ฐ์ ๋ ์ด์์์ ๋์์ ํ์ตํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ธ Donut(Document Understanding Transformer) ์ํคํ ์ฒ ๋ฑ์์ ์๊ฐ์ ๋ฐ์, ๋ฌธ์์ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ๋ ์ ๊ตํ๊ฒ ์ดํดํ ์ ์๋๋ก ํ์ต์์ผฐ๋ค๊ณ ํ๋ค.
๋ํ, ์ด๋ค์ ๋๊ท๋ชจ ์ํฐํ๋ผ์ด์ฆ ๊ณ ๊ฐ์ ์ํด SaaS ํํ์ API์ ์ ์ฉ ํธ์คํ ํ๋ซํผ์ ์ ๊ณตํ๋ค. Unstructured.io์ ๋ฐํ์ ๋ฐ๋ฅด๋ฉด, ์์ฌ์ ํธ์คํ ํ๋ซํผ์ ๋จ์ผ ์์ ์์ 53,000๊ฐ ์ด์์ ๋ ์ฝ๋๋ฅผ ์ฒ๋ฆฌํ๊ณ , ์กฐ์ง๋น ์ต๋ 300๊ฐ์ ๋์ ์์ ์ ์ง์ํ๋ ๋ฑ ๋์ ํ์ฅ์ฑ์ ์ ์ฆํ๋ค.
7. Document AI (Parsing) ๊ธฐ๋ฐ RAG vs ๋ฉํฐ๋ชจ๋ฌ RAG
์ง๊ธ๊น์ง ๋ ผ์ํ Upstage์ Unstructured.io์ ์ ๊ทผ ๋ฐฉ์์ ๋ฌธ์๋ฅผ '๊ตฌ์กฐํ๋ ํ ์คํธ(Text)'๋ก ๋ณํํ์ฌ LLM์ ์ฃผ์ ํ๋ ์ผ์ข ์ "ํ์ฑ ๊ธฐ๋ฐ RAG(Parsing-based RAG)"์ด๋ค. ๊ทธ๋ฌ๋ ์ต๊ทผ์๋ ๋ฌธ์๋ฅผ ํ ์คํธ๋ก ๋ณํํ๋ ์ค๊ฐ ๊ณผ์ ์ ์๋ตํ๊ณ , ๋ฌธ์ ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋๋ก AI ๋ชจ๋ธ์ ์ ๋ ฅํ์ฌ ๊ฒ์ํ๊ณ ๋ต๋ณํ๋ ๋ฉํฐ๋ชจ๋ฌ RAG(Multimodal RAG)๊ฐ ์๋ก์ด ๋์์ผ๋ก ๋ถ์ํ๊ณ ์๋ค.
๋ฉํฐ๋ชจ๋ฌ RAG์ ๋ํ์ ์ธ ๊ธฐ์ ๋ก๋ ColPali (ColBERT + PaliGemma)๊ฐ ์๋ค. ColPali๋ ๋ฌธ์์ ๊ฐ ํ์ด์ง๋ฅผ ํ ์คํธ๋ก OCR ํ๋ ๋์ , ํ์ด์ง ์ ์ฒด๋ฅผ ์๊ฐ์ ์๋ฒ ๋ฉ์ ํตํด ๋ณํํ๋ค. ์ฌ์ฉ์์ ์ง๋ฌธ์ด ํ ์คํธ๋ก ๋ค์ด์ค๋ฉด, ์ด์ ์๋ฏธ์ ์ผ๋ก ์ ์ฌํ '๋ฌธ์ ์ด๋ฏธ์ง'๋ฅผ ๊ฒ์ํ๊ณ , ๊ฒ์๋ ์ด๋ฏธ์ง๋ฅผ VLM(Vision-Language Model)์ ์ ๋ ฅํ์ฌ ๋ต๋ณ์ ์์ฑํ๋ ๊ฒ์ด๋ค. ์ด ๋ฐฉ์์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ํ์ฑ ๊ณผ์ ์์์ ์ ๋ณด ์์ค(Loss)์ด ๋งค์ฐ ์ ๋ค๋ ๊ฒ์ด๋ค. ํ ์คํธ๋ก ๋ณํํ๊ธฐ ํ๋ ๋ณต์กํ ๋ค์ด์ด๊ทธ๋จ, ํฐํธ์ ์์์ด๋ ํฌ๊ธฐ๊ฐ ์ฃผ๋ ๋์์ค, ๋ฏธ์ธํ ๋ ์ด์์์ ์๋ฏธ ๋ฑ์ด ์ด๋ฏธ์ง ์์ฒด์ ๋ณด์กด๋์ด ๋ชจ๋ธ์ ์ ๋ฌ๋๋ค. (๋ฌผ๋ก ๋ฌธ์ ํํ์ ๋ฐ๋ผ ๊ฐ๊ฑดํ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฐ์ ํ์..)

ํ์ง๋ง ๋ฉํฐ๋ชจ๋ฌ RAG๋ ํ์์ ์์ ๋ช ํํ ํ๊ณ, ๋น์ฉ๊ณผ ์๋์ ๋ฌธ์ ๋ฅผ ์๊ณ ์๋ค. Beyond Patch Aggregation์ด๋ผ๋ ์ ๋ชฉ์ ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ์ด๋ ํ ํฐ ๋น์ฉ์ ํ๊ณ๊ฐ ์๋ค. ์ด๋ฏธ์ง๋ฅผ LLM(VLM)์ ์ ๋ ฅํ๊ธฐ ์ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์๋ฐฑ ๊ฐ ์ด์์ ์ด๋ฏธ์ง ํ ํฐ์ผ๋ก ํจ์น(Patch) ํํด์ผ ํ๋ค. ๊ด๋ จ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ColPali ๋ชจ๋ธ์ ํ์ด์ง๋น ์ฝ 1,024๊ฐ์ ํจ์น ์๋ฒ ๋ฉ์ ์์ฑํ๋ฉฐ, ์ด๋ ํ ์คํธ๋ก ๋ณํํ์ ๋๋ณด๋ค ํจ์ฌ ๋ง์ ์ ์ฅ ๊ณต๊ฐ๊ณผ ์ฐ์ฐ ์์์ ์๋ชจํ๋ค.
๋ํ, ๊ฒ์ ๋ฐ ์ถ๋ก ๋ ์ดํด์ ๋ฌธ์ ๋ ์๋ค. ํ ์คํธ ์๋ฒ ๋ฉ๋ณด๋ค ํจ์ฌ ๊ณ ์ฐจ์์ ์ด๊ณ ์ฉ๋์ด ํฐ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ๊ฒ์ํ๊ณ , ๊ฑฐ๋ํ VLM์ด ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ๋ต๋ณ์ ์์ฑํ๋ ๊ณผ์ ์ ํ ์คํธ ๊ธฐ๋ฐ RAG๋ณด๋ค ํจ์ฌ ๋ง์ ์ฐ์ฐ ์์์ ์๊ตฌํ๋ฉฐ ์๋๊ฐ ๋๋ฆฌ๋ค. ์ต๊ทผ ACL Industry 2025์์ ๋ฐํ๋ "EcoDoc"์ด๋ผ๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, VLM ๊ธฐ๋ฐ ์ถ๋ก ์ ํ ์คํธ ๊ธฐ๋ฐ ์ถ๋ก ๋๋น ์ฝ 2๋ฐฐ ์ด์์ ๋ ์ดํด์๊ฐ ๋ฐ์ํ๋ฉฐ, ๋น์ฉ ๋ํ ์ฝ 40% ์ฆ๊ฐํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค.
๋ฐ๋ผ์ ํ์ฌ์ ์ํฐํ๋ผ์ด์ฆ ํ๊ฒฝ์์๋ Document AI์ ์ง์คํ๋ 'ํ์ฑ ๊ธฐ๋ฐ RAG'๊ฐ ์ฌ์ ํ ๊ฐ์ฅ ์ค์ฉ์ ์ด๊ณ ๊ฒฝ์ ์ ์ธ ์ค๋ฃจ์ ์ด๋ค.
8. ๊ฒฐ๋ก
AI ๋ถ์ผ์ ์ธ๊ณ์ ์ํ ์ค๋๋ฅ ์(Andrew Ng) ๊ต์๋ "๋ชจ๋ธ์ ๊ณ ์น๋ ค ํ์ง ๋ง๊ณ , ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ณ๋ผ"๋ผ๊ณ ํ๋ค. Document AI๋ ์ผ์ข ์ "๋ฌธ์ ์ ์ฒ๋ฆฌ์ ์์ง๋์ด๋งํ"๋ฅผ ์๋ฏธํ๋ค. ๋จ์ํ ๋ฌธ์๋ฅผ ์์งํ๋ ๋จ๊ณ๋ฅผ ๋์ด, AI๊ฐ ํ์ตํ๊ณ ์ถ๋ก ํ๊ธฐ ๊ฐ์ฅ ์ข์ ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ๊ณ ์ ์ ํ๋ ๊ฒ์ด AI ์์ง๋์ด์ ํต์ฌ ์ญ๋์ด ๋์ด์ผ ํ๋ค. ์ฌ๊ธฐ์ '์ข์ ๋ฐ์ดํฐ'๋ ๋ ธ์ด์ฆ๊ฐ ์ ๊ฑฐ๋๊ณ (Clean), ๋ ผ๋ฆฌ์ ๊ตฌ์กฐ๊ฐ ๋ช ํํ๋ฉฐ(Structured), ๋ฌธ๋งฅ ์ ๋ณด๊ฐ ๋ณด์กด๋(Context-aware) ๊ธฐ๊ณ ๊ฐ๋ ์ฑ ๋์ ๋ฐ์ดํฐ๋ฅผ ๋ปํ๋ค.
๋ฌผ๋ก ์ข์ ๊ฒ์ด ์์ผ๋ฉด ๋์ ๊ฒ๋ ์๋ค. ์ข์ ๋ชจ๋ ๊ฒ์ ๋ฐ๋์ธ ๋์ ๋ฐ์ดํฐ๋ ๋จ์ํ RAG ๋ต๋ณ์ ์ค๋ฅ์ ๊ทธ์น์ง ์๊ณ , ๋น์ฆ๋์ค ์ ๋ฐ์ ๋ง๋ํ ์จ๊ฒจ์ง ๋น์ฉ์ ์ด๋ํ๋ค. ์ค์ ๋ก ์ด๋ ๋ ํฐ ์ฌ์ฒ๋ฆฌ ๋น์ฉ์ ๋ณ๋๋ค. ํ์ฑ ์ค๋ฅ๋ก ์ธํด ์๋ชป๋ ์ ๋ณด๊ฐ DB์ ์ถ์ ๋๋ฉด, ์ด๋ฅผ ๋ค์ ์ ํํ๊ณ ๋ค์ ์ธ๋ฑ์ฑํ๋ ๋ฐ ๋ง์ ๋ฆฌ์์ค์ ์์ง๋์ด์ ์ญ๋์ด ๋ญ๋น๋๋ค. ๋ํ, ๋น์ฐํ๊ฒ๋ AI๊ฐ ์๋ฑํ ๋ต๋ณ์ ๋ด๋๋ ๋น๋๊ฐ ๋์ด๋๋ฉด, ์์ง์๊ณผ ๊ณ ๊ฐ์ ์์คํ ์ ์ฒด๋ฅผ ๋ถ์ ํ๊ฒ ๋๊ณ , ๊ฒฐ๊ตญ ๊ณ ๊ฐ์ AI ๋์ ํ๋ก์ ํธ ์์ฒด๊ฐ ์คํจ๋ก ๋์๊ฐ๊ฒ ๋ ๊ฒ์ด๋ค.
Document AI๋ ์ค๋๋ ์ง๋ณด๋ ์์ฑํ AI์ ์ค์ง์ ํ์ฉ์ ๋ด๋ณดํ๋ ํ์ ์์์ด์ ์ค์ ์ฐ์ ํ์ฅ์ ๋น์ฆ๋์ค ํจ๊ณผ ์ฐฝ์ถ์ ์์ด์ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๊ธฐ์ ์ด๋ผ ํ ์ ์๊ฒ ๋ค. ๋ฐ๋ผ์ ๊ธฐ์ ์ Document AI๋ฅผ "๋ฐ์ดํฐ ์์ฐํ๋ฅผ ์ํ ์ธํ๋ผ ํฌ์"๋ก ์ธ์ํด์ผ ํ๋ค. Upstage๋ Unstructured๊ฐ ์ค๋๋ ์์ฅ์์ ์ฃผ๋ชฉ์ ๋ฐ๋ ์ด์ ๋ ๋ง์ ๊ธฐ์ ๋ค์ด ์ด ์ธํ๋ผ ํฌ์์ ์ ์ ๊ด์ฌ์ ํฌ๊ฒ ๊ฐ๊ธฐ ์์ํ๋ค๋ ๋ป์ด๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, "์ ์๋ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๊นจ์ฐ๋ ๊ฒ"์ AI ์๋์ ๊ฐ์ฅ ํ์คํ ๊ฒฝ์ ์ฐ์ ํ๋ณด ์ ๋ต์ด ๋ ์ ์๋ค.
์ฐธ๊ณ ๋ฌธํ
Andrew Ng & Data-Centric AI
- LandingAI. Data-Centric AI: A Data-Driven Machine Learning Approach.
- MIT CSAIL. Data-Centric AI Resources.
- Towards Data Science. What are the Data-centric AI Concepts behind GPT Models?
Upstage Document Parse & Technologies
- Upstage. Document Parse Product Page (TEDS ์ ์ ๋ฐ ์ฒ๋ฆฌ ์๋ ์ฑ๋ฅ ์งํ).
- Upstage Blog. Introducing Chart Recognition in Upstage Document Parse (์ฐจํธ ์ธ์ QA ์ ํ๋ ํฅ์ ์ฐ๊ตฌ).
- Upstage Docs. Capabilities: Document Digitization.
- Upstage Blog. Why table structure extraction fails: A deep dive into real-world challenges.
Unstructured & ETL Pipeline
- Unstructured.io. Product Page (์ง์ ํฌ๋งท ๋ฐ ๊ธฐ๋ฅ ๋ช ์ธ).
- Unstructured.io Docs. Partitioning Strategies (Fast, Hi_Res ์ ๋ต ๋น๊ต).
- Unstructured.io. Federal Capabilities Statement for IARPA (๋น์ ํ ๋ฐ์ดํฐ ํต๊ณ).
- Unstructured.io Docs. Chipper Model Architecture.
ColPali, Vision RAG & RAG Challenges
- Faysse et al. (ICLR 2025). ColPali: Efficient Document Retrieval with Vision Language Models.
- ACL Industry 2025. EcoDoc: Cost and Latency Optimization (VLM ๊ธฐ๋ฐ ์ถ๋ก ๋น์ฉ/์๋ ๋น๊ต ์ฐ๊ตฌ).
- ArXiv. VisionRAG: Pyramid Indexing for Efficient Multimodal Retrieval (ColPali ํ ํฐ ์ฌ์ฉ๋ ๋ถ์).
- Medium. RAG with ColPali: Everything You Need to Know.
- Elastic Search Labs. Alternative approach for parsing PDFs in RAG (ํ ์ด๋ธ ํ์ฑ์ ์ด๋ ค์).
'๐จโ๐ป About AI > AI ์นผ๋ผ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| ๋๋ฉ์ธ ์์ฉ: Vertical AI (0) | 2025.12.16 |
|---|---|
| ํ๋ํ๋ AI Agent: ์ค์ผ์คํธ๋ ์ด์ & MCP (0) | 2025.12.12 |
| ์ง์์ ๊ตฌ์กฐํ: Ontology & Knowledge Graph (0) | 2025.11.16 |