์ž ์ž๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊นจ์›Œ๋ผ: Document AI

2025. 11. 12. 05:11ยท๐Ÿ‘จ‍๐Ÿ’ป About AI/AI ์นผ๋Ÿผ

1. ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๊นจ์›Œ๋ผ

 

์˜ค๋Š˜๋‚  ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ์—…์„ ์›€์ง์ด๋Š” ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ž์›์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ๋ฐ์ดํ„ฐ๋ผ๊ณ  ๋ถ€๋ฅด๋Š” ๊ฒƒ์€ ๋น™์‚ฐ์˜ ์ผ๊ฐ์— ๋ถˆ๊ณผํ•˜๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค(Relational Database)์— ์ž˜ ์ •๋ฆฌ๋œ ํ–‰(Row)๊ณผ ์—ด(Column) ํ˜•ํƒœ์˜ ์ •ํ˜• ๋ฐ์ดํ„ฐ๋Š” ์ „์ฒด ๊ธฐ์—… ๋ฐ์ดํ„ฐ์˜ ์ผ๋ถ€์— ์ง€๋‚˜์ง€ ์•Š๋Š”๋‹ค. ์‹ค์ œ ์‹ค๋ฌด์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๋Œ€๋ถ€๋ถ„์€ ๊ณ„์•ฝ์„œ์™€ ๋ณด๊ณ ์„œ ๋“ฑ์˜ PDF ๋ฌธ์„œ, ์Šค์บ”๋œ ์ด๋ฏธ์ง€ ํ˜น์€ ๋” ๋‚˜์•„๊ฐ€ ํ”„๋ ˆ์  ํ…Œ์ด์…˜ ์Šฌ๋ผ์ด๋“œ์™€ ์ด๋ฉ”์ผ๊นŒ์ง€, ์ •ํ˜•ํ™”๋˜์ง€ ์•Š์€ ์›๋ž˜ ๊ทธ ์ƒํƒœ๋กœ ์กด์žฌํ•˜๋ฉฐ, ์ด๋ฅผ '๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ(Unstructured Data)'๋ผ๊ณ  ์ด์นญํ•œ๋‹ค.

 

๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋Š” ํ‰์ƒ ๊ธ€์„ ์ฝ์–ด ์˜จ ์ธ๊ฐ„์—๊ฒŒ๋Š” ์ฝ๊ธฐ ์‰ฝ๊ณ  ์ดํ•ดํ•˜๊ธฐ ์ข‹์œผ๋‚˜, ์ปดํ“จํ„ฐ๊ฐ€ ํ•ด์„ํ•˜๊ธฐ์—๋Š” ๋‚œํ•ดํ•œ ๊ฒƒ์— ๋ถˆ๊ณผํ•˜๋‹ค. ๊ธฐ์—…์˜ ์ง€์‹ ์ž์‚ฐ ์ค‘ ์ƒ๋‹น์ˆ˜๊ฐ€ ์ด๋Ÿฌํ•œ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ํ˜•ํƒœ๋กœ ๊ณณ๊ณณ์— ์ž ๋“ค์–ด ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜์ง€ ๋ชปํ•˜๋Š” ์ƒํƒœ๋ฅผ ์ผ์ปฌ์–ด '๋‹คํฌ ๋ฐ์ดํ„ฐ(Dark Data)' ํ˜น์€ '์ž ์ž๋Š” ๋ฐ์ดํ„ฐ(Sleeping Data)'๋ผ ์นญํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ์ƒ์„ฑํ˜• AI(Generative AI)์˜ ์ง„ํ™”, ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋“ฑ์žฅ์€ ์ด ์ž ์ž๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊นจ์›Œ ๋น„์ฆˆ๋‹ˆ์Šค ์ธํ…”๋ฆฌ์ „์Šค๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ฃผ์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ '๋ฐ์ดํ„ฐ์˜ ๊ธฐ๊ณ„ ๊ฐ€๋…์„ฑ(Machine Readability)'์ด๋ผ๋Š” ํ•œ๊ณ„์— ์ง๋ฉดํ•ด ์žˆ๋‹ค.

 

LLM์˜ ํ™˜๊ฐ(Hallucination) ํ˜„์ƒ์„ ์–ต์ œํ•˜๊ณ  ๊ธฐ์—… ๋‚ด๋ถ€์˜ ์ตœ์‹  ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•˜๊ธฐ ์œ„ํ•ด ๋„์ž…๋œ ๊ฒ€์ƒ‰ ์ฆ๊ฐ• ์ƒ์„ฑ(RAG, Retrieval-Augmented Generation)์€ ๊ธฐ์—… ๋‚ด AI ์‹œ์Šคํ…œ์˜ ํ•„์ˆ˜ ์š”์†Œ๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ค.

RAG๋Š” ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ๊ณผ ๊ด€๋ จ๋œ ๋ฌธ์„œ๋ฅผ ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ๊ฒ€์ƒ‰(Retrieval)ํ•˜์—ฌ LLM์— ๋ฌธ๋งฅ(Context)์œผ๋กœ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ๋ชจ๋ธ์ด ํ•™์Šตํ•˜์ง€ ์•Š์€ ์ •๋ณด์— ๋Œ€ํ•ด์„œ๋„ ์ •ํ™•ํ•˜๊ณ  ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ต๋ณ€์„ ์ƒ์„ฑ(Generation)ํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค.

 

๊ทธ๋Ÿฌ๋‚˜, RAG ์‹œ์Šคํ…œ์„ ๋„์ž…ํ•œ ํ›„ ๋งˆ์ฃผํ•˜๋Š”, ์ฒซ ๋ฒˆ์งธ ์‹คํŒจ ์š”์ธ์€, ์ผ๋ฐ˜์ ์ธ ํ†ต๊ณ„ ๋ชจ๋ธ๊ณผ ML ๋ชจ๋ธ์—์„œ์ฒ˜๋Ÿผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์ด๋‹ค. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๋‚˜ ๋ฏธ์„ธ ์กฐ์ • ๊ฐ™์€ ํ•™์Šต์— ๋น„ํ•ด ๊ฐ„๊ณผ๋˜๊ณค ํ•˜์ง€๋งŒ, ์—ฌ์ „ํžˆ "Garbage In, Garbage Out(GIGO)"์ด๋ผ๋Š” ์˜ค๋ž˜๋œ ์ปดํ“จํŒ… ๊ฒฉ์–ธ์€ ์ƒ์„ฑํ˜• AI ์‹œ๋Œ€์— ์œ ํšจํ•œ ๊ฒƒ์ด๋‹ค. ์•„๋‹ˆ ์–ด์ฉŒ๋ฉด Hallucination์ด๋ผ๋Š” ๋”์šฑ ์น˜๋ช…์ ์ธ ํ˜•ํƒœ๋กœ ๋ฐœํ˜„๋˜์–ด ๊ทธ ๋ฌธ์ œ์˜ ์‹ฌ๊ฐ์„ฑ์ด ๋” ํฌ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ฌธ์„œ์˜ ๋…ผ๋ฆฌ์  ๊ตฌ์กฐ๊ฐ€ ํŒŒ๊ดด๋œ ์ฑ„ ๋‹จ์ˆœ ํ…์ŠคํŠธ๋กœ๋งŒ ์ถ”์ถœ๋˜์–ด ๋ฒกํ„ฐ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค(Vector DB)์— ์ €์žฅ๋  ๊ฒฝ์šฐ, ์•„๋ฌด๋ฆฌ ๋›ฐ์–ด๋‚œ ๊ฒ€์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ LLM์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„ ์ •ํ™•ํ•œ ๋‹ต๋ณ€์„ ๋„์ถœํ•  ์ˆ˜ ์—†๋Š” ๊ฒƒ์ด๋‹ค. ํŠนํžˆ PDF์™€ ๊ฐ™์€ ๋ฌธ์„œ ํฌ๋งท์€ ์ธ์‡„๋ฅผ ์œ„ํ•œ ์‹œ๊ฐ์  ํŽธ์˜์„ฑ(์ธ๊ฐ„์„ ์œ„ํ•œ ํŽธ์˜..)์„ ๋ชฉํ‘œ๋กœ ์„ค๊ณ„๋˜์—ˆ๊ธฐ์—, ๊ทธ ๋‚ด๋ถ€์˜ ์ •๋ณด๋Š” ๋…ผ๋ฆฌ์ ์ธ ๊ตฌ์กฐ(์ฃผ๋กœ HTML, MD, JSON์œผ๋กœ ํ‘œํ˜„๋˜๊ณค ํ•˜๋Š”)๋ฅผ ํฌํ•จํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด๋‹ค. ๋”ฐ๋ผ์„œ RAG์˜ ์„ฑ๊ณต์€ '์ž ์ž๋Š” ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ'๋ฅผ ์–ผ๋งˆ๋‚˜ ์ •๊ตํ•˜๊ฒŒ ๊นจ์›Œ๋‚ด๋А๋ƒ, ์ฆ‰ 'Document AI'์˜ ์™„์„ฑ๋„์— ๋‹ฌ๋ ค ์žˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Document AI (์ถœ์ฒ˜: ๊ตฌ๊ธ€)

 

 

2. RAG ์‹œ์Šคํ…œ์˜ ์•„ํ‚ฌ๋ ˆ์Šค๊ฑด

 

 

RAG ์‹œ์Šคํ…œ์ด ํ™œ์šฉํ•˜๋Š” "์ฒญํฌ(Chunk)" ๋ฐ์ดํ„ฐ๋Š” ํ•˜๋‚˜์˜ ๊ฒ€์ƒ‰ ๋‹จ์œ„์ด์ž LLM์˜ ํ”„๋กฌํ”„ํŠธ์— ์ฃผ์ž…๋˜๋Š” ์—ฐ๋ฃŒ์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ณ ๊ธ‰์ฐจ์—๋Š” ๊ณ ๊ธ‰ ํœ˜๋ฐœ์œ ๋ฅผ ๋„ฃ์–ด์•ผ ํ•˜๋“ฏ, ์ •ํ™•ํ•œ ๊ฒ€์ƒ‰์„ ์ˆ˜ํ–‰ํ•˜๋Š” RAG ์‹œ์Šคํ…œ์—๋Š” ๋ฌธ๋งฅ์ด ์ž˜ ์ •์ œ๋œ, ๊ฐ€๋…์„ฑ์ด ์ข‹์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ์–ด์•ผ ํ•œ๋‹ค. ๋ฌผ๋ก  ์—ฌ๊ธฐ์„œ '๊ฐ€๋…์„ฑ'์€ ์ธ๊ฐ„์˜ ๊ด€์ ์ด ์•„๋‹Œ ๊ธฐ๊ณ„, ์ฆ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ด€์ ์—์„œ์˜ ๊ฐ€๋…์„ฑ์„ ์˜๋ฏธํ•œ๋‹ค.

 

๊ธฐ๊ณ„(๋‹น์—ฐํžˆ ์ปดํ“จํ„ฐ) ๊ฐ€๋…์„ฑ์ด๋ž€ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ตฌ์กฐํ™”๋˜์–ด ์žˆ์–ด ์ปดํ“จํ„ฐ๊ฐ€ ๊ทธ ์˜๋ฏธ์™€ ๊ด€๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ํŒŒ์•…ํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํƒœ๋ฅผ ๋งํ•œ๋‹ค. ์ธ๊ฐ„์€ ๋ฌธ์„œ๋ฅผ ๋ณผ ๋•Œ ํฐํŠธ์˜ ํฌ๊ธฐ, ๊ตต๊ธฐ, ์œ„์น˜, ์—ฌ๋ฐฑ ๋“ฑ์„ ํ†ตํ•ด ์ œ๋ชฉ๊ณผ ๋ณธ๋ฌธ, ํ‘œ์™€ ์บก์…˜, ์ฃผ์„ ๋“ฑ์„ ์ง๊ด€์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ๊ธฐ๊ณ„์—๊ฒŒ ์Šค์บ”๋œ PDF ๋ฌธ์„œ๋Š” ๋‹จ์ˆœํžˆ ํ”ฝ์…€์˜ ์ง‘ํ•ฉ์ด๊ฑฐ๋‚˜, ์˜๋ฏธ ์—†๋Š” ์ขŒํ‘œ ๊ฐ’์„ ๊ฐ€์ง„ ๊ธ€์ž๋“ค์˜ ๋‚˜์—ด์ผ ๋ฟ์ด๋‹ค. ๊ธฐ๊ณ„ ๊ฐ€๋…์„ฑ์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ๋…ผ๋ฆฌ์  ์ •๋ณด๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์ด ํ•„์ˆ˜์ ์ด๋‹ค. HTML ๊ตฌ์กฐ๋ฅผ ์˜ˆ๋กœ ๋“ค์ž๋ฉด, ํฐ ๊ธ€์”จ๋กœ ์ƒ๋‹จ์— ์œ„์น˜ํ•œ ํ…์ŠคํŠธ๋Š” <h1> ํƒœ๊ทธ๋กœ, ๊ฒฉ์ž๋ฌด๋Šฌ ์•ˆ์— ์žˆ๋Š” ์ˆซ์ž๋Š” <table> ํƒœ๊ทธ์™€ <td> ํƒœ๊ทธ๋กœ ๋ช…์‹œ๋˜์–ด์•ผ LLM์ด ํ•ด๋‹น ํ…์ŠคํŠธ์˜ ์—ญํ• ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๊ตฌ์กฐ์ ์œผ๋กœ ์ •์ œ๋˜์ง€ ์•Š์€ '์ €ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ'๊ฐ€ RAG ํŒŒ์ดํ”„๋ผ์ธ์— ์œ ์ž…๋  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋Š” ์‹ฌ๊ฐํ•˜๋‹ค.

๋ฌธ์„œ์˜ ๋ฌธ๋‹จ์ด๋‚˜ ํ‘œ๊ฐ€ ์ž„์˜๋กœ ์ž˜๋ฆฌ๊ฑฐ๋‚˜(Chunking error), ํŽ˜์ด์ง€๊ฐ€ ๋„˜์–ด๊ฐ€๋ฉด์„œ ๋ฌธ์žฅ์ด ๋Š์–ด์ง€๋Š” ๊ฒฝ์šฐ, ๋‹น์—ฐํžˆ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ์„ ์™œ๊ณกํ•  ์ˆ˜ ์žˆ๋Š” ๋™์‹œ์— LLM์—๊ฒŒ๋„ ํ˜ผ๋ž€๋งŒ ๊ฐ€์ค‘ํ•  ๋ฟ์ด๋‹ค. ๋˜ํ•œ, ๋จธ๋ฆฌ๊ธ€, ๋ฐ”๋‹ฅ๊ธ€, ํŽ˜์ด์ง€ ๋ฒˆํ˜ธ, ์›Œํ„ฐ๋งˆํฌ ๋“ฑ์ด ๋ณธ๋ฌธ ํ…์ŠคํŠธ์— ์„ž์—ฌ ๋“ค์–ด๊ฐ€๋ฉด, ๊ทธ ์ž์ฒด๋กœ ๋…ธ์ด์ฆˆ๊ฐ€ ๋˜์–ด ๋งˆ์ฐฌ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

 

์ด๋Ÿฌํ•œ ํŒŒ์‹ฑ ์˜ค๋ฅ˜(Parsing Error)๋Š” ๊ธˆ์œต ๋ณด๊ณ ์„œ๋‚˜ ๊ธฐ์ˆ  ๋งค๋‰ด์–ผ๊ณผ ๊ฐ™์ด ์ •๋ณด์˜ ๋ฐ€๋„๊ฐ€ ๋†’๊ณ  ๊ตฌ์กฐ๊ฐ€ ๋ณต์žกํ•œ ๋ฌธ์„œ์ผ์ˆ˜๋ก ์ทจ์•ฝํ•˜๋‹ค. ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋ฌธ์„œ์˜ ๊ตฌ์กฐ์  ๋ฌด๊ฒฐ์„ฑ์„ ๋ณด์กดํ•˜๋Š” ๊ฒƒ์ด RAG ์„ฑ๋Šฅ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ๊ฐ€์žฅ ๊ธฐ๋ณธ ๋‹จ๊ณ„์ด์ž ํ•ต์‹ฌ ๊ณผ์ œ์ธ ๊ฒƒ์ด๋‹ค.

 

 

3. ๊ธฐ์กด Document AI์˜ ํ•œ๊ณ„: OCR ๊ธฐ์ˆ ์˜ ํ•œ๊ณ„

 

 

Document AI์˜ ๊ฐ€์žฅ ์ฒซ ๋‹จ๊ณ„๋Š” ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ Textํ™” ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ ์“ฐ์ด๋Š” ์ „ํ†ต์ ์ธ OCR(Optical Character Recognition) ๊ธฐ์ˆ , ํŠนํžˆ Tesseract์™€ ๊ฐ™์€ ๊ณ ์ „์  OCR ์—”์ง„์€ ์ด๋ฏธ์ง€ ๋‚ด์˜ ํŒจํ„ด์„ ๋ถ„์„ํ•˜์—ฌ ๊ธ€์ž๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ฐ ์ฃผ๋ ฅํ•˜๋ฉฐ, ๋ฌธ์„œ์˜ ๋ ˆ์ด์•„์›ƒ์ด๋‚˜ ๋…ผ๋ฆฌ์  ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์€ ํ˜„์ €ํžˆ ๋ถ€์กฑํ•˜๋‹ค. ๋Œ€ LLM ์‹œ๋Œ€๋ฅผ ๋งž์ดํ•˜์—ฌ ์ด๋Ÿฌํ•œ OCR์˜ ํ•œ๊ณ„๋Š” ๋”์šฑ ๋‘๋“œ๋Ÿฌ์ง€๊ณ  ์žˆ๋‹ค.

 

3.1 ์ฝ๊ธฐ ์ˆœ์„œ์˜ ์˜ค๋ฅ˜

 

๊ฐ€์žฅ ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋Š” '์ฝ๊ธฐ ์ˆœ์„œ'์˜ ์˜ค๋ฅ˜๋‹ค. ๋‰ด์Šค ๊ธฐ์‚ฌ๋‚˜ ๋…ผ๋ฌธ์ฒ˜๋Ÿผ 2๋‹จ ๋˜๋Š” 3๋‹จ์œผ๋กœ ํŽธ์ง‘๋œ ๋ฌธ์„œ(Multi-column Layout)์—์„œ, ๋‹จ์ˆœ OCR์€ ํŽ˜์ด์ง€ ์ „์ฒด๋ฅผ ํ•˜๋‚˜์˜ ํฐ ํ…์ŠคํŠธ ๋ธ”๋ก์œผ๋กœ ์ธ์‹ํ•˜์—ฌ ์™ผ์ชฝ ๋‹จ์˜ ์ฒซ ์ค„์„ ์ฝ๊ณ  ๋ฐ”๋กœ ์˜ค๋ฅธ์ชฝ ๋‹จ์˜ ์ฒซ ์ค„๋กœ ๋„˜์–ด๊ฐ€๋Š” ์˜ค๋ฅ˜๋ฅผ ๋ฒ”ํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, "AI๋Š” ๋ฏธ๋ž˜์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์ด๋‹ค"๋ผ๋Š” ๋ฌธ์žฅ์ด ์™ผ์ชฝ ๋‹จ์— ์žˆ๊ณ , "๋ฐ์ดํ„ฐ๋Š” ์ƒˆ๋กœ์šด ์„์œ ๋‹ค"๋ผ๋Š” ๋ฌธ์žฅ์ด ์˜ค๋ฅธ์ชฝ ๋‹จ์— ์žˆ์„ ๋•Œ, OCR์€ ์ด๋ฅผ "AI๋Š” ๋ฏธ๋ž˜์˜ ๋ฐ์ดํ„ฐ๋Š” ์ƒˆ๋กœ์šด ํ•ต์‹ฌ ๊ธฐ์ˆ ์ด๋‹ค ์„์œ ๋‹ค"์™€ ๊ฐ™์ด ๋’ค์„ž์ธ ๋ฌธ์žฅ์œผ๋กœ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ํ˜„์ƒ์„ '๋ฌธ์žฅ ์ƒ๋Ÿฌ๋“œ(Word Salad)'๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค๊ณ  ํ•˜๋Š”๋ฐ, ์•„๋ฌดํŠผ ์ด๋Š” LLM์˜ ์ถ”๋ก ์„ ์›์ฒœ์ ์œผ๋กœ ์ œํ•œํ•œ๋‹ค.

3.2 ํ…Œ์ด๋ธ”์˜ ํ‰ํƒ„ํ™” (Table Flattening)์™€ ๊ตฌ์กฐ ์ƒ์‹ค

 

์žฌ๋ฌด์ œํ‘œ, ๊ฐ€๊ฒฉํ‘œ, ์„ค๋ช…์„œ ๋“ฑ ๊ธฐ์—… ๋ฌธ์„œ์˜ ํ•ต์‹ฌ ์ •๋ณด๋Š” ๋Œ€๋ถ€๋ถ„ ํ‘œ(Table)์— ๋‹ด๊ฒจ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ OCR์€ ํ‘œ๋ฅผ ์ธ์‹ํ•  ๋•Œ, ํ–‰(Row)๊ณผ ์—ด(Column)์˜ ๊ตฌ์กฐ๋ฅผ ๋ฌด์‹œํ•˜๊ณ  ํ…์ŠคํŠธ๋ฅผ ์„ ํ˜•์ ์œผ๋กœ ๋‚˜์—ดํ•˜๋Š”๋ฐ, ์ด๋ฅผ 'ํ…Œ์ด๋ธ” ํ‰ํƒ„ํ™”(Table Flattening)'๋ผ๊ณ  ํ•œ๋‹ค.

ํ‘œ ๋‚ด๋ถ€์˜ ํ…์ŠคํŠธ๋Š” ์ถ”์ถœ๋˜์ง€๋งŒ, ๊ทธ ํ…์ŠคํŠธ๊ฐ€ ์–ด๋А ํ•ญ๋ชฉ์— ์†ํ•˜๋Š”์ง€, ์ƒ์œ„ ํ—ค๋”๊ฐ€ ๋ฌด์—‡์ธ์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋Š” ํƒญ(Tab) ๋ฌธ์ž๋‚˜ ๊ณต๋ฐฑ์œผ๋กœ ๋ถˆ๋ถ„๋ช…ํ•˜๊ฒŒ ์ฒ˜๋ฆฌ๋˜๊ฑฐ๋‚˜ ์•„์˜ˆ ์†Œ์‹ค๋œ๋‹ค. ํŠนํžˆ๋‚˜ ์‹ค๋ฌด ๋ฌธ์„œ์˜ ํ‘œ ํ˜•์‹์€ ๋˜ ์ €๋งˆ๋‹ค ๊ฐœ์„ฑ์ด ์žˆ์–ด ๊ต‰์žฅํžˆ ๋‹ค์–‘ํ•œ๋ฐ, ๋งŒ์•ฝ ์…€ ๋ณ‘ํ•ฉ์ด ํฌํ•จ๋œ ๋ณต์žกํ•œ ํ‘œ์˜ ๊ฒฝ์šฐ๋ผ๋ฉด OCR์€ ๋ณ‘ํ•ฉ๋œ ์ •๋ณด๋ฅผ ๊ฐœ๋ณ„ ์…€์— ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํ• ๋‹นํ•˜์ง€ ๋ชปํ•ด ๋ฐ์ดํ„ฐ์˜ ์ •ํ•ฉ์„ฑ์„ ์‹ฌ๊ฐํ•˜๊ฒŒ ํ›ผ์†ํ•œ๋‹ค. ์ด๋Š” RAG ์‹œ์Šคํ…œ์ด ์ˆ˜์น˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์งˆ์˜์— ๋‹ต๋ณ€ํ•  ๋•Œ ์‹ฌ๊ฐํ•œ Hallucination์„ ์œ ๋ฐœํ•˜๋Š” ์ฃผ๋œ ์›์ธ์ด๋‹ค.

3.3 ์‹œ๊ฐ ์ •๋ณด์˜ ๋ˆ„๋ฝ๊ณผ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด์˜ ๋ถ€์žฌ

 

๋ฌธ์„œ์—๋Š” ํ…์ŠคํŠธ ์™ธ์—๋„ ์ฐจํŠธ, ๊ทธ๋ž˜ํ”„, ๋‹ค์ด์–ด๊ทธ๋žจ ๋“ฑ ํ’๋ถ€ํ•œ ์‹œ๊ฐ ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. "๊ทธ๋ฆผ 1 ์ฐธ์กฐ"์™€ ๊ฐ™์€ ์บก์…˜ ํ…์ŠคํŠธ๋งŒ ๋‚จ๊ณ  ์‹ค์ œ ๊ทธ๋ฆผ์˜ ๋‚ด์šฉ์€ ์ถ”์ถœ๋˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ, ์ •๋ณด์˜ ์ƒ๋‹น ๋ถ€๋ถ„์ด ์œ ์‹ค๋œ๋‹ค. ๊ธฐ์กด OCR์€ ์ด๋ฏธ์ง€ ์˜์—ญ์„ ๋ฌด์‹œํ•˜๊ฑฐ๋‚˜, ์ด๋ฏธ์ง€ ๋‚ด์˜ ํ…์ŠคํŠธ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ถ”์ถœํ•˜์—ฌ ๋ณธ๋ฌธ๊ณผ ์„ž์–ด๋ฒ„๋ฆฌ๋Š” ๋“ฑ์˜ ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚จ๋‹ค. LLM์ด ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€์™€ ๋„ํ‘œ๋ฅผ ํ†ตํ•ฉ์ ์œผ๋กœ ์ดํ•ดํ•ด์•ผ ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ(Multimodal) ํ™˜๊ฒฝ์—์„œ, ์ด๋Ÿฌํ•œ ์‹œ๊ฐ ์ •๋ณด์˜ ๋ˆ„๋ฝ์€ ์ง€์‹ ๋ฒ ์ด์Šค์˜ ๋ถˆ์™„์ „์„ฑ์„ ์ดˆ๋ž˜ํ•œ๋‹ค.

 

 

4. Layout Analysis์™€ ๊ตฌ์กฐ์  ํŒŒ์‹ฑ ๊ธฐ์ˆ 

 

 

์˜ค๋Š˜๋‚  ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ์ •์ œ์˜ ์ค‘์š”์„ฑ๊ณผ ๊ธฐ์กด OCR์˜ ํ•œ๊ณ„๋Š” ๋ฌธ์„œ๋ฅผ ์ž˜ ๋‹ค๋ค„๋ณด์ž๋Š” ๋˜ ํ•˜๋‚˜์˜ ์ „๋ฌธ ์—ฐ๊ตฌ ๋ถ„์•ผ๋ฅผ ๋งŒ๋“ค์–ด๋ƒˆ๋‹ค. ๊ทธ๊ฒƒ์ด 'Document AI'์ด๋‹ค.

 

๋จผ์ € ๊ทธ ํ•ต์‹ฌ ๊ธฐ์ˆ ์€ '๋ ˆ์ด์•„์›ƒ ๋ถ„์„(Layout Analysis)'์ด๋‹ค. ๋ ˆ์ด์•„์›ƒ ๋ถ„์„์€ ์ปดํ“จํ„ฐ ๋น„์ „(Computer Vision)์˜ ๊ฐ์ฒด ํƒ์ง€(Object Detection) ๋ฐ ์„ธ๊ทธ๋ฉ˜ํ…Œ์ด์…˜(Segmentation) ๊ธฐ์ˆ ์„ ๋ฌธ์„œ ์ฒ˜๋ฆฌ์— ์ ์šฉํ•œ ๊ฒƒ์ด๋‹ค. ์ด ๊ธฐ์ˆ ์€ ๋ฌธ์„œ ์ด๋ฏธ์ง€๋ฅผ ํ”ฝ์…€ ๋‹จ์œ„๋กœ ์Šค์บ”ํ•˜์—ฌ ํ…์ŠคํŠธ, ์ œ๋ชฉ, ํ‘œ, ์ด๋ฏธ์ง€, ์บก์…˜, ๋ฆฌ์ŠคํŠธ, ์ˆ˜์‹ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ ˆ์ด์•„์›ƒ ์š”์†Œ๋ฅผ ์‹๋ณ„ํ•˜๊ณ , ๊ฐ ์š”์†Œ์˜ ๊ฒฝ๊ณ„ ์ƒ์ž(Bounding Box)๋ฅผ ๊ฒ€์ถœํ•œ๋‹ค. ๋งˆ์น˜ ์ž์œจ์ฃผํ–‰์ฐจ๊ฐ€ ๋„๋กœ ์œ„์˜ ๋ณดํ–‰์ž, ์‹ ํ˜ธ๋“ฑ, ์ฐจ์„ ์„ ๊ตฌ๋ถ„ํ•˜๋“ฏ, Document AI๋Š” ๋ฌธ์„œ๋ผ๋Š” 2์ฐจ์› ๊ณต๊ฐ„ ์œ„์˜ ์ •๋ณด ๊ฐ์ฒด๋“ค์„ ์ธ์‹ํ•œ๋‹ค. ์ดํ›„ ์ธ์‹๋œ ๊ฐ์ฒด๋“ค์˜ ์œ„์น˜ ์ •๋ณด(XY ์ขŒํ‘œ)์™€ ์‹œ๊ฐ์  ํŠน์ง•์„ ๋ถ„์„ํ•˜์—ฌ ๋ฌธ์„œ์˜ ๋…ผ๋ฆฌ์  ์ฝ๊ธฐ ์ˆœ์„œ๋ฅผ ์ถ”๋ก ํ•˜๊ณ , ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ์žฌ๊ตฌ์„ฑํ•œ๋‹ค.

 

๋˜ํ•œ, "๊ตฌ์กฐ์  ํŒŒ์‹ฑ(Structural Parsing)"์ด ์žˆ๋‹ค. ๋ ˆ์ด์•„์›ƒ ๋ถ„์„์„ ํ†ตํ•ด ์‹๋ณ„๋œ ๊ฐ ์š”์†Œ๋Š” ๊ธฐ๊ณ„์˜ ์›ํ™œํ•œ ์ดํ•ด๋ฅผ ๋„์šธ ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐํ™”๋œ ํฌ๋งท์œผ๋กœ ๋ณ€ํ™˜๋˜์–ด์•ผ ํ•œ๋‹ค. ๊ตฌ์กฐ์  ํŒŒ์‹ฑ์€ ์ด๋ฅผ ์œ„ํ•ด ๋น„์ •ํ˜•๋ฅผ ์‚ฌ์ „์— ์ •์˜๋œ ์Šคํ‚ค๋งˆ, ํŠน์ • ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ ์ฃผ๋กœ ์“ฐ์ด๋Š” ๊ตฌ์กฐ๊ฐ€ HTML(HyperText Markup Language)๊ณผ Markdown, ๊ทธ๋ฆฌ๊ณ  JSON์ด๋‹ค.

HTML์€ ์›น ํ‘œ์ค€ ์–ธ์–ด๋กœ, <table>, <h1>, <ul> ๋“ฑ ๋‹ค์–‘ํ•œ ํƒœ๊ทธ๋ฅผ ํ†ตํ•ด ๋ฌธ์„œ์˜ ๊ตฌ์กฐ๋ฅผ ๋ช…ํ™•ํžˆ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•์‹์ด๋‹ค. LLM์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ ์ค‘ ์ƒ๋‹น์ˆ˜๊ฐ€ ์›น ๋ฐ์ดํ„ฐ์ด๊ธฐ ๋•Œ๋ฌธ์— LLM ์นœํ™”์ ์ด๋ฉฐ, ๋ณต์žกํ•œ ํ‘œ๋‚˜ ๋‹ค๋‹จ ๋ฌธ์„œ, ํ•˜์ดํผ๋งํฌ๊ฐ€ ํฌํ•จ๋œ ๋ฌธ์„œ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•˜๋‹ค.

Markdown์€ ๋ฌธ๋ฒ•์ด ๊ฐ„๊ฒฐํ•˜๊ณ  ํ…์ŠคํŠธ ์ค‘์‹ฌ์ ์ด๋ผ ํ† ํฐ ์†Œ๋ชจ๋Ÿ‰์ด ์ ์€ ํ˜•์‹์ด๋‹ค. LLM์ด ์ƒ์„ฑํ•˜๊ณ  ์ดํ•ดํ•˜๊ธฐ์— ํšจ์œจ์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ์ผ๋ฐ˜์ ์ธ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์„œ๋‚˜ ๊ธฐ์ˆ  ๋ฌธ์„œ, ๋ฉ”๋ชจ ๋“ฑ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋ฐ ์ž์ฃผ ํ™œ์šฉ๋œ๋‹ค.

JSON์€ ๋ฐ์ดํ„ฐ์˜ ํ‚ค-๊ฐ’(Key-Value) ๊ตฌ์กฐ๋ฅผ ๋ช…ํ™•ํžˆ ํ‘œํ˜„ํ•˜๋Š” ํ˜•์‹์œผ๋กœ, ๋น„๊ต์  ํ† ํฐ ํšจ์œจ์ ์ด๋ฉฐ, API ์—ฐ๋™์ด๋‚˜ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์ €์žฅ์— ์œ ๋ฆฌํ•˜๋‹ค. ์†ก์žฅ, ์˜์ˆ˜์ฆ, ์‹ ์ฒญ์„œ ๋“ฑ ์ •ํ˜•ํ™”๋œ ์„œ์‹ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•œ ํฌ๋งท์ด๋‹ค.

 

 

5. ์‚ฌ๋ก€ ๋ถ„์„ 1: Upstage Document Parse

 

 

๊ตญ๋‚ด AI ๊ธฐ์ˆ  ๊ธฐ์—…์ธ Upstage๋Š” ์ž์‚ฌ์˜ LLM์ธ 'Solar'๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ 'Document Parse' ์„ค๋ฃจ์…˜์„ ํ†ตํ•ด ๊ธ€๋กœ๋ฒŒ ์‹œ์žฅ์—์„œ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๋‹ค. Upstage์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ OCR, ๋ ˆ์ด์•„์›ƒ ๋ถ„์„, ์ •๋ณด ์ถ”์ถœ์„ ๊ฐœ๋ณ„์ ์ธ ๋‹จ๊ณ„๊ฐ€ ์•„๋‹Œ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ํŠนํžˆ ์ตœ์ข… ๊ฒฐ๊ณผ๋ฌผ์„ LLM์ด ๊ฐ€์žฅ ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” HTML ํฌ๋งท์œผ๋กœ ์ถœ๋ ฅํ•˜๋Š” ๋ฐ ์ตœ์ ํ™”๋˜์–ด ์žˆ๋‹ค.

Upstage Document Parse์˜ ํ•ต์‹ฌ์€ 'Solar' ๋ชจ๋ธ์˜ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ๊ณผ ๊ฐ•๋ ฅํ•œ ๋น„์ „ ๊ธฐ์ˆ ์˜ ๊ฒฐํ•ฉ์ด๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ๊ธ€์ž๋ฅผ ์ฝ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜์—ฌ ์˜คํƒˆ์ž๋ฅผ ๊ต์ •ํ•˜๊ณ , ๋ฌธ์„œ์˜ ๋…ผ๋ฆฌ์  ํ๋ฆ„์„ ์ถ”๋ก ํ•˜์—ฌ ํŒŒ์‹ฑ์˜ ์ •ํ™•๋„๋ฅผ ๋†’์ธ๋‹ค.

 

์—…์Šคํ…Œ์ด์ง€ DP (์ถœ์ฒ˜: ์—…์Šคํ…Œ์ด์ง€)

 

 

Upstage๊ฐ€ ๊ฒฝ์Ÿ์‚ฌ ๋Œ€๋น„ ๊ฐ€์žฅ ํฐ ๊ธฐ์ˆ ์  ์šฐ์œ„๋ฅผ ์ ํ•˜๊ณ  ์žˆ๋Š” ๋ถ„์•ผ๋Š” '๊ณ ๋‚œ๋„ ๊ตฌ์กฐ'์˜ ์ฒ˜๋ฆฌ๋‹ค. Upstage๋Š” ๋งŽ์€ RAG ์‹œ์Šคํ…œ, LLM์ด ์‹คํŒจํ•˜๋Š” ์›์ธ์ธ 'ํ‘œ' ์ฒ˜๋ฆฌ์— ์ง‘์ค‘ํ–ˆ๋‹ค. ์ด๋“ค์˜ ๋ชจ๋ธ์€ ์…€ ๋ณ‘ํ•ฉ, ๋‹ค์ค‘ ํ—ค๋”, ํ…Œ๋‘๋ฆฌ๊ฐ€ ์—†๊ฑฐ๋‚˜ ํฌ๋ฏธํ•œ ํ‘œ, ๋ฐฐ๊ฒฝ์ƒ‰์ด ์žˆ๋Š” ํ‘œ ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ์˜ ๋ณต์žกํ•œ ํ‘œ๋ฅผ HTML <table> ํƒœ๊ทธ๋กœ ๋ณต์›ํ•œ๋‹ค. Upstage๊ฐ€ ๊ณต๊ฐœํ•œ ๋‚ด์šฉ์— ๋”ฐ๋ฅด๋ฉด, Document Parse๋Š” ๋ ˆ์ด์•„์›ƒ ๋ฐ ํ…Œ์ด๋ธ” ์ธ์‹ ์ •ํ™•๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ์ธ TEDS(Tree Edit Distance-based Similarity) ์ ์ˆ˜์—์„œ 93.48์ ์„ ๊ธฐ๋กํ•˜์—ฌ, ๊ฒฝ์Ÿ ๋ชจ๋ธ ๋Œ€๋น„ 5% ์ด์ƒ์˜ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ๊ธˆ์œต ๋ณด๊ณ ์„œ๋‚˜ ๋ณดํ—˜ ์•ฝ๊ด€๊ณผ ๊ฐ™์ด ํ‘œ ์•ˆ์— ์ค‘์š”ํ•œ ์กฐ๊ฑด๊ณผ ์ˆ˜์น˜๊ฐ€ ๋‹ด๊ธด ๋ฌธ์„œ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ RAG ์‹œ์Šคํ…œ์˜ ๊ฒ€์ƒ‰ ์ •ํ™•๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

 

๋˜ํ•œ, ์ตœ๊ทผ Upstage๋Š” ์—…๊ณ„ ์ตœ์ดˆ๋กœ ๋ฌธ์„œ ๋‚ด ์ฐจํŠธ์™€ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์›์ฒœ ๋ฐ์ดํ„ฐ(Source Data) ์ˆ˜์ค€์œผ๋กœ ๋ณต์›ํ•˜๋Š” ๊ธฐ๋Šฅ์„ ์„ ๋ณด์˜€๋‹ค. ๊ธฐ์กด ์„ค๋ฃจ์…˜๋“ค์ด ์ฐจํŠธ๋ฅผ ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€ ํŒŒ์ผ๋กœ ์ €์žฅํ•˜๊ฑฐ๋‚˜ "์ฐจํŠธ ์žˆ์Œ" ์ •๋„์˜ ์บก์…˜๋งŒ ๋‚จ๊ฒผ๋‹ค๋ฉด, Upstage๋Š” ์ฐจํŠธ์˜ X์ถ•, Y์ถ•, ๋ฒ”๋ก€, ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๋“ฑ์„ ์ธ์‹ํ•˜์—ฌ ์ด๋ฅผ HTML ํ…Œ์ด๋ธ”์ด๋‚˜ ์ƒ์„ธํ•œ ํ…์ŠคํŠธ ์š”์•ฝ์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๋ง‰๋Œ€๊ทธ๋ž˜ํ”„ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜์—ฌ "2023๋…„ 1๋ถ„๊ธฐ: 50์–ต, 2๋ถ„๊ธฐ: 60์–ต..."๊ณผ ๊ฐ™์€ ๊ตฌ์กฐํ™”๋œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•ด ์ค€๋‹ค. ์ด๋Š” ๋น„์ „ ๊ธฐ๋ฐ˜์˜ ์ •๋ณด๊ฐ€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์˜ RAG ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์œผ๋กœ ํŽธ์ž…๋  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” '๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๋ณ€ํ™˜(Modality Translation)' ๊ธฐ์ˆ ๋กœ, ์ •๋ณด์˜ ๊ฒ€์ƒ‰ ๊ฐ€๋Šฅ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค. Upstage์˜ ์ž์ฒด ์‹คํ—˜ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, ์ด๋Ÿฌํ•œ ์ฐจํŠธ ์ธ์‹ ๊ธฐ๋Šฅ์„ ํ™œ์„ฑํ™”ํ–ˆ์„ ๋•Œ ์ฐจํŠธ ๊ด€๋ จ ๋ฌธ์„œ์— ๋Œ€ํ•œ ์งˆ์˜์‘๋‹ต(QA) ์ •ํ™•๋„๊ฐ€ ๊ฒฝ์Ÿ์‚ฌ ๋Œ€๋น„ ์•ฝ 6.49% ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.

 

Upstage Document Parse๋Š” ์„ฑ๋Šฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฒ˜๋ฆฌ ์†๋„ ๋ฉด์—์„œ๋„ ๊ฐ•์ ์„ ๋ณด์ธ๋‹ค. Upstage์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ๋”ฐ๋ฅด๋ฉด, ์ด ์„ค๋ฃจ์…˜์€ ํŽ˜์ด์ง€๋‹น ํ‰๊ท  0.6์ดˆ์˜ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ 100ํŽ˜์ด์ง€ ๋ถ„๋Ÿ‰์˜ ๋ฌธ์„œ๋ฅผ 1๋ถ„ ์ด๋‚ด์— ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ๋ฌธ์„œ๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋Š” ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ํ™˜๊ฒฝ์— ์ ํ•ฉํ•˜๋‹ค.

 

 

6. ์‚ฌ๋ก€ ๋ถ„์„ 2: Unstructured

 

 

๋ฏธ๊ตญ์˜ Unstructured๋Š” Document AI๋ฅผ ํŠน์ • ๋ชจ๋ธ์˜ ๊ธฐ๋Šฅ์ด ์•„๋‹Œ, ๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง์„ ์œ„ํ•œ ๊ฑฐ๋Œ€ํ•œ 'ETL(Extract, Transform, Load) ํŒŒ์ดํ”„๋ผ์ธ'์˜ ๊ด€์ ์—์„œ ์ ‘๊ทผํ•œ๋‹ค. ์ด๋“ค์˜ ๋ชฉํ‘œ๋Š” ์„ธ์ƒ์˜ ๋ชจ๋“  ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ LLM์ด ์†Œ๋น„ํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ํ‘œ์ค€ ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

Unstructured์˜ ๊ฐ€์žฅ ํฐ ๊ฐ•์ ์€ ๊ฐ•๋ ฅํ•œ ์˜คํ”ˆ์†Œ์Šค ์ปค๋ฎค๋‹ˆํ‹ฐ์™€ ์ƒํƒœ๊ณ„๋‹ค. Unstructured์˜ ๊ณต์‹ ๋ฌธ์„œ์— ๋”ฐ๋ฅด๋ฉด, ์ด๋“ค์ด ์ œ๊ณตํ•˜๋Š” ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” PDF, DOCX, PPTX, HTML, ์ด๋ฉ”์ผ(EML), ์ด๋ฏธ์ง€ ๋“ฑ 65๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ํŒŒ์ผ ํฌ๋งท์„ ์ง€์›ํ•œ๋‹ค. ๊ฐœ๋ฐœ์ž๋Š” ๋ณต์žกํ•œ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•  ํ•„์š” ์—†์ด ๋‹จ ๋ช‡ ์ค„์˜ ๋ช…๋ น์–ด๋กœ ๋‹ค์–‘ํ•œ ํฌ๋งท์˜ ๋ฌธ์„œ๋ฅผ ํ†ต์ผ๋œ JSON ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Unstructured์˜ ETL ํŒŒ์ดํ”„๋ผ์ธ (์ถœ์ฒ˜: Unstructured)

 

Unstructured๋Š” "One Size Does Not Fit All"์ด๋ผ๋Š” ์ฒ ํ•™ ํ•˜์—, ๋ฌธ์„œ์˜ ํŠน์„ฑ๊ณผ ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ์‚ฌํ•ญ(์†๋„ vs ์ •ํ™•๋„)์— ๋งž์ถฐ ์„ ํƒํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ 'ํŒŒํ‹ฐ์…”๋‹ ์ „๋žต'์„ ์ œ๊ณตํ•œ๋‹ค.

 

1) auto (default strategy): "auto" ์ „๋žต์€ ๋ฌธ์„œ์˜ ํŠน์„ฑ๊ณผ ํ•จ์ˆ˜์— ์ „๋‹ฌ๋˜๋Š” kwargs๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์‚ฌ์šฉํ•  ํŒŒํ‹ฐ์…”๋‹ ์ „๋žต์„ ์ž๋™์œผ๋กœ ์„ ํƒํ•œ๋‹ค.

 

2) fast: "fast"๋Š” ๊ทœ์น™ ๊ธฐ๋ฐ˜(rule-based) ์ „๋žต์œผ๋กœ, ์ „ํ†ต์ ์ธ NLP ์ถ”์ถœ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด ๋ชจ๋“  ํ…์ŠคํŠธ ์š”์†Œ๋ฅผ ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ์ถ”์ถœํ•œ๋‹ค. "fast" ์ „๋žต์€ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํŒŒ์ผ ํƒ€์ž…์—๋Š” ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๊ถŒ์žฅ๋˜์ง€ ์•Š๋Š”๋‹ค๊ณ  ํ•œ๋‹ค.

 

3) hi_res: "hi_res"๋Š” ๋ชจ๋ธ ๊ธฐ๋ฐ˜(model-based) ์ „๋žต์œผ๋กœ, ๋ฌธ์„œ์˜ ๋ ˆ์ด์•„์›ƒ์„ ์‹๋ณ„ํ•œ๋‹ค. ์ด ์ „๋žต์˜ ์žฅ์ ์€ ๋ฌธ์„œ ๋ ˆ์ด์•„์›ƒ์„ ํ™œ์šฉํ•ด ๋ฌธ์„œ ์š”์†Œ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์ •๋ณด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ๋ฌธ์„œ ์š”์†Œ์˜ ์˜ฌ๋ฐ”๋ฅธ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•œ ๊ฒฝ์šฐ ์ด ์ „๋žต ์‚ฌ์šฉ์„ ๊ถŒ์žฅํ•œ๋‹ค๊ณ  ํ•œ๋‹ค.

 

4) ocr_only: "ocr_only"๋Š” ๋˜ ๋‹ค๋ฅธ ๋ชจ๋ธ ๊ธฐ๋ฐ˜(model-based) ์ „๋žต์œผ๋กœ, ๊ด‘ํ•™ ๋ฌธ์ž ์ธ์‹(OCR)์„ ํ™œ์šฉํ•ด ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ํŒŒ์ผ์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ถœํ•œ๋‹ค.

 

Unstructured.io์˜ ๋ฌธ์„œ์— ๋”ฐ๋ฅด๋ฉด, 'Fast' ์ „๋žต์€ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ์•ฝ 100๋ฐฐ ๋น ๋ฅธ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๋ฐ˜๋ฉด, 'Hi_Res' ์ „๋žต์€ ์†๋„๋Š” ๋А๋ฆฌ์ง€๋งŒ ๋ ˆ์ด์•„์›ƒ ์ธ์‹์„ ํ†ตํ•ด ๋†’์€ ์ •ํ™•๋„๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

 

๋˜ํ•œ, Unstructured.io๋Š” ๊ณ ํ•ด์ƒ๋„ ๋ฌธ์„œ์˜ ๋ณต์žกํ•œ ๊ตฌ์กฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ์ž์ฒด์ ์œผ๋กœ 'Chipper'๋ผ๋Š” ๋น„์ „ ํŠธ๋žœ์Šคํฌ๋จธ(Vision Transformer, ViT) ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜์—ฌ ๋ฒ ํƒ€๋กœ ์ œ๊ณตํ•˜๊ณ  ์žˆ๋‹ค. Chipper๋Š” ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ์  ๋ ˆ์ด์•„์›ƒ์„ ๋™์‹œ์— ํ•™์Šตํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์ธ Donut(Document Understanding Transformer) ์•„ํ‚คํ…์ฒ˜ ๋“ฑ์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„, ๋ฌธ์„œ์˜ ๊ณ„์ธต ๊ตฌ์กฐ๋ฅผ ๋” ์ •๊ตํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต์‹œ์ผฐ๋‹ค๊ณ  ํ•œ๋‹ค.

๋˜ํ•œ, ์ด๋“ค์€ ๋Œ€๊ทœ๋ชจ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ๊ณ ๊ฐ์„ ์œ„ํ•ด SaaS ํ˜•ํƒœ์˜ API์™€ ์ „์šฉ ํ˜ธ์ŠคํŒ… ํ”Œ๋žซํผ์„ ์ œ๊ณตํ•œ๋‹ค. Unstructured.io์˜ ๋ฐœํ‘œ์— ๋”ฐ๋ฅด๋ฉด, ์ž์‚ฌ์˜ ํ˜ธ์ŠคํŒ… ํ”Œ๋žซํผ์€ ๋‹จ์ผ ์ž‘์—…์—์„œ 53,000๊ฐœ ์ด์ƒ์˜ ๋ ˆ์ฝ”๋“œ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , ์กฐ์ง๋‹น ์ตœ๋Œ€ 300๊ฐœ์˜ ๋™์‹œ ์ž‘์—…์„ ์ง€์›ํ•˜๋Š” ๋“ฑ ๋†’์€ ํ™•์žฅ์„ฑ์„ ์ž…์ฆํ–ˆ๋‹ค.

 

7. Document AI (Parsing) ๊ธฐ๋ฐ˜ RAG vs ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RAG

 

 

์ง€๊ธˆ๊นŒ์ง€ ๋…ผ์˜ํ•œ Upstage์™€ Unstructured.io์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ฌธ์„œ๋ฅผ '๊ตฌ์กฐํ™”๋œ ํ…์ŠคํŠธ(Text)'๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ LLM์— ์ฃผ์ž…ํ•˜๋Š” ์ผ์ข…์˜ "ํŒŒ์‹ฑ ๊ธฐ๋ฐ˜ RAG(Parsing-based RAG)"์ด๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ตœ๊ทผ์—๋Š” ๋ฌธ์„œ๋ฅผ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ค‘๊ฐ„ ๊ณผ์ •์„ ์ƒ๋žตํ•˜๊ณ , ๋ฌธ์„œ ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋Œ€๋กœ AI ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜์—ฌ ๊ฒ€์ƒ‰ํ•˜๊ณ  ๋‹ต๋ณ€ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RAG(Multimodal RAG)๊ฐ€ ์ƒˆ๋กœ์šด ๋Œ€์•ˆ์œผ๋กœ ๋ถ€์ƒํ•˜๊ณ  ์žˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RAG์˜ ๋Œ€ํ‘œ์ ์ธ ๊ธฐ์ˆ ๋กœ๋Š” ColPali (ColBERT + PaliGemma)๊ฐ€ ์žˆ๋‹ค. ColPali๋Š” ๋ฌธ์„œ์˜ ๊ฐ ํŽ˜์ด์ง€๋ฅผ ํ…์ŠคํŠธ๋กœ OCR ํ•˜๋Š” ๋Œ€์‹ , ํŽ˜์ด์ง€ ์ „์ฒด๋ฅผ ์‹œ๊ฐ์  ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ๋ณ€ํ™˜ํ•œ๋‹ค. ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์ด ํ…์ŠคํŠธ๋กœ ๋“ค์–ด์˜ค๋ฉด, ์ด์™€ ์˜๋ฏธ์ ์œผ๋กœ ์œ ์‚ฌํ•œ '๋ฌธ์„œ ์ด๋ฏธ์ง€'๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ , ๊ฒ€์ƒ‰๋œ ์ด๋ฏธ์ง€๋ฅผ VLM(Vision-Language Model)์— ์ž…๋ ฅํ•˜์—ฌ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๋ฐฉ์‹์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ํŒŒ์‹ฑ ๊ณผ์ •์—์„œ์˜ ์ •๋ณด ์†์‹ค(Loss)์ด ๋งค์šฐ ์ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ํž˜๋“  ๋ณต์žกํ•œ ๋‹ค์ด์–ด๊ทธ๋žจ, ํฐํŠธ์˜ ์ƒ‰์ƒ์ด๋‚˜ ํฌ๊ธฐ๊ฐ€ ์ฃผ๋Š” ๋‰˜์•™์Šค, ๋ฏธ์„ธํ•œ ๋ ˆ์ด์•„์›ƒ์˜ ์˜๋ฏธ ๋“ฑ์ด ์ด๋ฏธ์ง€ ์ž์ฒด์— ๋ณด์กด๋˜์–ด ๋ชจ๋ธ์— ์ „๋‹ฌ๋œ๋‹ค. (๋ฌผ๋ก  ๋ฌธ์„œ ํ˜•ํƒœ์— ๋”ฐ๋ผ ๊ฐ•๊ฑดํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฐ€์ • ํ•˜์—..)

 

ColPali (ICLR 2025)

 

ํ•˜์ง€๋งŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ RAG๋Š” ํ˜„์‹œ์ ์—์„œ ๋ช…ํ™•ํ•œ ํ•œ๊ณ„, ๋น„์šฉ๊ณผ ์†๋„์˜ ๋ฌธ์ œ๋ฅผ ์•ˆ๊ณ  ์žˆ๋‹ค. Beyond Patch Aggregation์ด๋ผ๋Š” ์ œ๋ชฉ์˜ ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด, ์ด๋Š” ํ† ํฐ ๋น„์šฉ์˜ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์ด๋ฏธ์ง€๋ฅผ LLM(VLM)์— ์ž…๋ ฅํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ˆ˜๋ฐฑ ๊ฐœ ์ด์ƒ์˜ ์ด๋ฏธ์ง€ ํ† ํฐ์œผ๋กœ ํŒจ์น˜(Patch) ํ™”ํ•ด์•ผ ํ•œ๋‹ค. ๊ด€๋ จ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด ColPali ๋ชจ๋ธ์€ ํŽ˜์ด์ง€๋‹น ์•ฝ 1,024๊ฐœ์˜ ํŒจ์น˜ ์ž„๋ฒ ๋”ฉ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋Š” ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ–ˆ์„ ๋•Œ๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์€ ์ €์žฅ ๊ณต๊ฐ„๊ณผ ์—ฐ์‚ฐ ์ž์›์„ ์†Œ๋ชจํ•œ๋‹ค.

๋˜ํ•œ, ๊ฒ€์ƒ‰ ๋ฐ ์ถ”๋ก  ๋ ˆ์ดํ„ด์‹œ ๋ฌธ์ œ๋„ ์žˆ๋‹ค. ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ๋ณด๋‹ค ํ›จ์”ฌ ๊ณ ์ฐจ์›์ ์ด๊ณ  ์šฉ๋Ÿ‰์ด ํฐ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ์„ ๊ฒ€์ƒ‰ํ•˜๊ณ , ๊ฑฐ๋Œ€ํ•œ VLM์ด ์ด๋ฏธ์ง€๋ฅผ ์ธ์ฝ”๋”ฉํ•˜์—ฌ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ RAG๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์€ ์—ฐ์‚ฐ ์ž์›์„ ์š”๊ตฌํ•˜๋ฉฐ ์†๋„๊ฐ€ ๋А๋ฆฌ๋‹ค. ์ตœ๊ทผ ACL Industry 2025์—์„œ ๋ฐœํ‘œ๋œ "EcoDoc"์ด๋ผ๋Š” ์—ฐ๊ตฌ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅด๋ฉด, VLM ๊ธฐ๋ฐ˜ ์ถ”๋ก ์€ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋Œ€๋น„ ์•ฝ 2๋ฐฐ ์ด์ƒ์˜ ๋ ˆ์ดํ„ด์‹œ๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉฐ, ๋น„์šฉ ๋˜ํ•œ ์•ฝ 40% ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ๋‹ค.

 

๋”ฐ๋ผ์„œ ํ˜„์žฌ์˜ ์—”ํ„ฐํ”„๋ผ์ด์ฆˆ ํ™˜๊ฒฝ์—์„œ๋Š” Document AI์— ์ง‘์ค‘ํ•˜๋Š” 'ํŒŒ์‹ฑ ๊ธฐ๋ฐ˜ RAG'๊ฐ€ ์—ฌ์ „ํžˆ ๊ฐ€์žฅ ์‹ค์šฉ์ ์ด๊ณ  ๊ฒฝ์ œ์ ์ธ ์„ค๋ฃจ์…˜์ด๋‹ค.

 

8. ๊ฒฐ๋ก 

 

 

AI ๋ถ„์•ผ์˜ ์„ธ๊ณ„์  ์„ํ•™ ์•ค๋“œ๋ฅ˜ ์‘(Andrew Ng) ๊ต์ˆ˜๋Š” "๋ชจ๋ธ์„ ๊ณ ์น˜๋ ค ํ•˜์ง€ ๋ง๊ณ , ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ณ๋ผ"๋ผ๊ณ  ํ–ˆ๋‹ค. Document AI๋Š” ์ผ์ข…์˜ "๋ฌธ์„œ ์ „์ฒ˜๋ฆฌ์˜ ์—”์ง€๋‹ˆ์–ด๋งํ™”"๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๋‹จ์ˆœํžˆ ๋ฌธ์„œ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋‹จ๊ณ„๋ฅผ ๋„˜์–ด, AI๊ฐ€ ํ•™์Šตํ•˜๊ณ  ์ถ”๋ก ํ•˜๊ธฐ ๊ฐ€์žฅ ์ข‹์€ ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜๊ณ  ์ •์ œํ•˜๋Š” ๊ฒƒ์ด AI ์—”์ง€๋‹ˆ์–ด์˜ ํ•ต์‹ฌ ์—ญ๋Ÿ‰์ด ๋˜์–ด์•ผ ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ '์ข‹์€ ๋ฐ์ดํ„ฐ'๋ž€ ๋…ธ์ด์ฆˆ๊ฐ€ ์ œ๊ฑฐ๋˜๊ณ (Clean), ๋…ผ๋ฆฌ์  ๊ตฌ์กฐ๊ฐ€ ๋ช…ํ™•ํ•˜๋ฉฐ(Structured), ๋ฌธ๋งฅ ์ •๋ณด๊ฐ€ ๋ณด์กด๋œ(Context-aware) ๊ธฐ๊ณ„ ๊ฐ€๋…์„ฑ ๋†’์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋œปํ•œ๋‹ค.

 

๋ฌผ๋ก  ์ข‹์€ ๊ฒƒ์ด ์žˆ์œผ๋ฉด ๋‚˜์œ ๊ฒƒ๋„ ์žˆ๋‹ค. ์ข‹์€ ๋ชจ๋“  ๊ฒƒ์˜ ๋ฐ˜๋Œ€์ธ ๋‚˜์œ ๋ฐ์ดํ„ฐ๋Š” ๋‹จ์ˆœํžˆ RAG ๋‹ต๋ณ€์˜ ์˜ค๋ฅ˜์— ๊ทธ์น˜์ง€ ์•Š๊ณ , ๋น„์ฆˆ๋‹ˆ์Šค ์ „๋ฐ˜์— ๋ง‰๋Œ€ํ•œ ์ˆจ๊ฒจ์ง„ ๋น„์šฉ์„ ์ดˆ๋ž˜ํ•œ๋‹ค. ์‹ค์ œ๋กœ ์ด๋Š” ๋” ํฐ ์žฌ์ฒ˜๋ฆฌ ๋น„์šฉ์„ ๋‚ณ๋Š”๋‹ค. ํŒŒ์‹ฑ ์˜ค๋ฅ˜๋กœ ์ธํ•ด ์ž˜๋ชป๋œ ์ •๋ณด๊ฐ€ DB์— ์ถ•์ ๋˜๋ฉด, ์ด๋ฅผ ๋‹ค์‹œ ์ •ํ™”ํ•˜๊ณ  ๋‹ค์‹œ ์ธ๋ฑ์‹ฑํ•˜๋Š” ๋ฐ ๋งŽ์€ ๋ฆฌ์†Œ์Šค์™€ ์—”์ง€๋‹ˆ์–ด์˜ ์—ญ๋Ÿ‰์ด ๋‚ญ๋น„๋œ๋‹ค. ๋˜ํ•œ, ๋‹น์—ฐํ•˜๊ฒŒ๋„ AI๊ฐ€ ์—‰๋šฑํ•œ ๋‹ต๋ณ€์„ ๋‚ด๋†“๋Š” ๋นˆ๋„๊ฐ€ ๋Š˜์–ด๋‚˜๋ฉด, ์ž„์ง์›๊ณผ ๊ณ ๊ฐ์€ ์‹œ์Šคํ…œ ์ „์ฒด๋ฅผ ๋ถˆ์‹ ํ•˜๊ฒŒ ๋˜๊ณ , ๊ฒฐ๊ตญ ๊ณ ๊ฐ€์˜ AI ๋„์ž… ํ”„๋กœ์ ํŠธ ์ž์ฒด๊ฐ€ ์‹คํŒจ๋กœ ๋Œ์•„๊ฐ€๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค.

 

Document AI๋Š” ์˜ค๋Š˜๋‚  ์ง„๋ณด๋œ ์ƒ์„ฑํ˜• AI์˜ ์‹ค์งˆ์  ํ™œ์šฉ์„ ๋‹ด๋ณดํ•˜๋Š” ํ•„์ˆ˜ ์š”์†Œ์ด์ž ์‹ค์ œ ์‚ฐ์—… ํ˜„์žฅ์˜ ๋น„์ฆˆ๋‹ˆ์Šค ํšจ๊ณผ ์ฐฝ์ถœ์— ์žˆ์–ด์„œ ๊ฐ€์žฅ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ˆ ์ด๋ผ ํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค. ๋”ฐ๋ผ์„œ ๊ธฐ์—…์€ Document AI๋ฅผ "๋ฐ์ดํ„ฐ ์ž์‚ฐํ™”๋ฅผ ์œ„ํ•œ ์ธํ”„๋ผ ํˆฌ์ž"๋กœ ์ธ์‹ํ•ด์•ผ ํ•œ๋‹ค. Upstage๋‚˜ Unstructured๊ฐ€ ์˜ค๋Š˜๋‚  ์‹œ์žฅ์—์„œ ์ฃผ๋ชฉ์„ ๋ฐ›๋Š” ์ด์œ ๋Š” ๋งŽ์€ ๊ธฐ์—…๋“ค์ด ์ด ์ธํ”„๋ผ ํˆฌ์ž์— ์ ์  ๊ด€์‹ฌ์„ ํฌ๊ฒŒ ๊ฐ–๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค๋Š” ๋œป์ด๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ, "์ž ์ž๋Š” ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๊นจ์šฐ๋Š” ๊ฒƒ"์€ AI ์‹œ๋Œ€์˜ ๊ฐ€์žฅ ํ™•์‹คํ•œ ๊ฒฝ์Ÿ ์šฐ์œ„ ํ™•๋ณด ์ „๋žต์ด ๋  ์ˆ˜ ์žˆ๋‹ค.

 

 

์ฐธ๊ณ  ๋ฌธํ—Œ

 

Andrew Ng & Data-Centric AI

  • LandingAI. Data-Centric AI: A Data-Driven Machine Learning Approach.
  • MIT CSAIL. Data-Centric AI Resources.
  • Towards Data Science. What are the Data-centric AI Concepts behind GPT Models?

Upstage Document Parse & Technologies

  • Upstage. Document Parse Product Page (TEDS ์ ์ˆ˜ ๋ฐ ์ฒ˜๋ฆฌ ์†๋„ ์„ฑ๋Šฅ ์ง€ํ‘œ).
  • Upstage Blog. Introducing Chart Recognition in Upstage Document Parse (์ฐจํŠธ ์ธ์‹ QA ์ •ํ™•๋„ ํ–ฅ์ƒ ์—ฐ๊ตฌ).
  • Upstage Docs. Capabilities: Document Digitization.
  • Upstage Blog. Why table structure extraction fails: A deep dive into real-world challenges.

Unstructured & ETL Pipeline

  • Unstructured.io. Product Page (์ง€์› ํฌ๋งท ๋ฐ ๊ธฐ๋Šฅ ๋ช…์„ธ).
  • Unstructured.io Docs. Partitioning Strategies (Fast, Hi_Res ์ „๋žต ๋น„๊ต).
  • Unstructured.io. Federal Capabilities Statement for IARPA (๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ํ†ต๊ณ„).
  • Unstructured.io Docs. Chipper Model Architecture.

ColPali, Vision RAG & RAG Challenges

  • Faysse et al. (ICLR 2025). ColPali: Efficient Document Retrieval with Vision Language Models.
  • ACL Industry 2025. EcoDoc: Cost and Latency Optimization (VLM ๊ธฐ๋ฐ˜ ์ถ”๋ก  ๋น„์šฉ/์†๋„ ๋น„๊ต ์—ฐ๊ตฌ).
  • ArXiv. VisionRAG: Pyramid Indexing for Efficient Multimodal Retrieval (ColPali ํ† ํฐ ์‚ฌ์šฉ๋Ÿ‰ ๋ถ„์„).
  • Medium. RAG with ColPali: Everything You Need to Know.
  • Elastic Search Labs. Alternative approach for parsing PDFs in RAG (ํ…Œ์ด๋ธ” ํŒŒ์‹ฑ์˜ ์–ด๋ ค์›€).

 

'๐Ÿ‘จโ€๐Ÿ’ป About AI > AI ์นผ๋Ÿผ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

๋„๋ฉ”์ธ ์‘์šฉ: Vertical AI  (0) 2025.12.16
ํ–‰๋™ํ•˜๋Š” AI Agent: ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜ & MCP  (0) 2025.12.12
์ง€์‹์˜ ๊ตฌ์กฐํ™”: Ontology & Knowledge Graph  (0) 2025.11.16
'๐Ÿ‘จ‍๐Ÿ’ป About AI/AI ์นผ๋Ÿผ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • ๋„๋ฉ”์ธ ์‘์šฉ: Vertical AI
  • ํ–‰๋™ํ•˜๋Š” AI Agent: ์˜ค์ผ€์ŠคํŠธ๋ ˆ์ด์…˜ & MCP
  • ์ง€์‹์˜ ๊ตฌ์กฐํ™”: Ontology & Knowledge Graph
reign
reign
Business์™€ AI๋ฅผ ๋ฆฌ๋ทฐํ•ฉ๋‹ˆ๋‹ค
  • reign
    Biz with Data
    reign
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (25)
      • ๐Ÿคต About Business (6)
        • BIZ ์นผ๋Ÿผ (6)
      • ๐Ÿ‘จ‍๐Ÿ’ป About AI (19)
        • AI ์นผ๋Ÿผ (4)
        • Paper Review (8)
        • ๋จธ์‹ ๋Ÿฌ๋‹ (7)
  • ๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

    • ํ™ˆ
    • ํƒœ๊ทธ
    • ๋ฐฉ๋ช…๋ก
  • ๋งํฌ

    • github
  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.5
reign
์ž ์ž๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊นจ์›Œ๋ผ: Document AI
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”