1. Introduction
๋ฐ์ดํฐ๋ ํฌ๊ฒ ๋น์ ํ ๋ฐ์ดํฐ(unstructured data)์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ(structured data)๋ก ๋๋๋ค. ๊ทธ์ค ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ ๋ฐ๋ณต๋๋ ์ ๋ณด๋ฅผ ์์ถํ๊ณ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ธฐ ์ํด ์ฌ์ ์ ์๋ ๊ตฌ์กฐ๋ก ์กฐ์ง๋๋ค. ์ด๋ฌํ ๊ตฌ์กฐํ๋ ๊ธฐ๊ณ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ ํ๊ธฐ์ ์ผ๋ก ์ฉ์ดํ๊ฒ ๋ง๋ ๋ค. ๊ทธ์ค์์๋ ํ ์ด๋ธ(Table)์ ๊ฐ์ฅ ๋ํ์ ์ธ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ ์ ํ์ผ๋ก, ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ๋๋ฆฌ ํ์ฉ๋๊ณ ์๋ค. ํ ์ด๋ธ์ ์ง์ ํ์ฉํ๋ ๊ตฌ์ฒด์ ์ธ ์์ฉ ์ฌ๋ก๋ก๋ ํ ์ด๋ธ ๊ธฐ๋ฐ ์ง๋ฌธ ์๋ต(Table-based Question Answering, TQA), ํ ์ด๋ธ ๊ธฐ๋ฐ ํฉํธ ๊ฒ์ฆ(Table-based Fact Verification, TFV), ํ ์ด๋ธ-ํ ์คํธ ๋ณํ(Table-to-Text), ์ด ์ ํ ๋ฐ ๊ด๊ณ ๋ถ๋ฅ(Column Type & Relation Classification) ๋ฑ์ด ์๋ค.
์ต๊ทผ LLM์ ๋ฑ์ฅ์ ์ด๋ฌํ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ถ์ผ์๋ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ ์ํ๊ณ ์๋ค. ํ๋กฌํํธ ์์ง๋์ด๋ง(Prompt Engineering)์ In-context Learning, ICL์ ์ํ ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์๋ฆฌ ์ก์๋ค. ํนํ "Chain of Thought(CoT)"๋ "Self-consistency", ํน์ ๊ฒ์ ๋ฐฉ๋ฒ์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ ๋ฐฉ์๋ค์ LLM์ด ์ ๋ก์ท(zero-shot) ๋๋ ํจ์ท(few-shot) ์ค์ ์์ ์ํ์ ์ถ๋ก ๊ณผ ๊ฐ์ ๋ณต์กํ ์์ ์ ํด๊ฒฐํ ์ ์์์ ์ ์ฆํ์๋ค. ๋ ๋์๊ฐ ์ต๊ทผ ์ฐ๊ตฌ๋ CoT๋ฅผ ํ์ฉํ์ฌ GPT-3.5๊ฐ ๋จ ํ๋์ ์์(one-shot)๋ง์ผ๋ก๋ ์ฌ๋ฌ ํ ์ด๋ธ ์์ ์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค ์ ์์์ ์์ฌํ๋ฉฐ, LLM์ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์ ์ฌ๋ ฅ์ ํ์ธ์์ผ ์ฃผ์๋ค.
ํ์ง๋ง ์ฌ์ ํ ๊ทผ๋ณธ์ ์ธ ์๋ฌธ์ ํด๊ฒฐ๋์ง ์์๋ค. "LLM์ด ํ ์ด๋ธ ๋ฐ์ดํฐ๋ฅผ ์ง์ ์ผ๋ก ์ดํดํ๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋ํด ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํฌ๊ด์ ์ธ ๋ต๋ณ์ ๋ด๋์ง ๋ชปํ ๊ฒ์ด๋ค. LLM์ด ํ ์คํธ ๋ฐ์ดํฐ์์ ๋ณด์ฌ์ค ๋๋ผ์ด ์ฑ๊ณต์ด ํ ์ด๋ธ์ด๋ผ๋ ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ๋ก ์ฆ๊ฐ ์ ์ด๋๋ ๊ฒ์ ์๋๋ฉฐ, ์ฌ๊ธฐ์๋ ๊ณ ์ ํ ๋์ ๊ณผ์ ๋ค์ด ์กด์ฌํ๋ค.
- ๊ตฌ์กฐ์ ๋ค์์ฑ: ํ ์ด๋ธ์ ์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ตฌ์กฐ์ ํน์ง์ ๊ฐ์ง๋ค.
- ์ง๋ ฌํ์ ๋ํดํจ: ํ ์ด๋ธ์ 2์ฐจ์(ํ๊ณผ ์ด) ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง์ง๋ง, LLM์ 1์ฐจ์ ์ํ์ค(ํ ์คํธ)๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ํ ์ด๋ธ์ ์์ฐจ์ ์ธ ํ ์คํธ๋ก ๋ณํํ๋ 'ํ ์ด๋ธ ์ง๋ ฌํ(table serialization)' ๊ณผ์ ์ ๊ฐ๋จํ์ง ์์ผ๋ฉฐ, ์ด ๊ณผ์ ์์ ๊ตฌ์กฐ์ ์ ๋ณด์ ์์ค์ด๋ ์๊ณก์ด ๋ฐ์ํ ์ ์๋ค.
ํ์ฌ ํ๊ณ์ ์ฐ์ ๊ณ์์๋ ํ ์ด๋ธ ์ง๋ ฌํ ๋ฐฉ์๊ณผ ๋งฅ๋ฝ(context), ์ฟผ๋ฆฌ(query) ๊ตฌ์ฑ์ ๋ํ ํต์ผ๋ ํฉ์๊ฐ ๋ถ์ฌํ๋ค. ์ค๋ฌธ ์กฐ์ฌ์ ๋ฐ๋ฅด๋ฉด, ์ฐ๊ตฌ์๋ค์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์์๋ฐฉํธ์ ์ธ ๋ฐฉ์์ผ๋ก ์ ๋ ฅ ์ค๊ณ๋ฅผ ์ํํด ์๋ค๊ณ ํ๋ค. ์ธ์ด ๋ชจ๋ธ์ ํตํด ํ ์ด๋ธ์ ๋ค๋ฃจ๋ ค๋ ์ฌ๋ฌ ์ฐ๊ตฌ๋ค๋ ๊ทธ ๋งฅ๋ฝ๊ณผ ์ฟผ๋ฆฌ๋ฅผ ์ ์ํ๋ ํํ๊ฐ ๋ชจ๋ ๋ค๋ฅด๋ค.
- TaPEx: <HEAD>, <ROW>์ ๊ฐ์ ํน์ ํ ํฐ์ ์ฌ์ฉํ์ฌ ํ ์ด๋ธ ๊ตฌ์ฑ ์์๋ฅผ ๋ช ์์ ์ผ๋ก ํ์ํ๋ค.
- TABBIE: ํ ์ด๋ธ์ ํ ๋ฐฉํฅ(row-wise)๊ณผ ์ด ๋ฐฉํฅ(column-wise)์ผ๋ก ๋ชจ๋ ์ง๋ ฌํํ์ฌ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ ค ์๋ํ๋ค.
- TableGPT: ํ ํ๋ฆฟ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ ํ ์ด๋ธ ๋ ์ฝ๋์ ์์ฑ-๊ฐ ์์ ์์ฐ์ด ๋ฌธ์ฅ์ผ๋ก ๋ณํํ๋ค (์: "name: Elon Musk" $\rightarrow$ "name is Elon Musk"). ์ด๋ฅผ ๋ชจ๋ ๋ ์ฝ๋ ์์๋๋ก ์ฐ๊ฒฐํ์ฌ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค.
์ด๋ฌํ ๋ค์ํ ์ ๋ ฅ ์ค๊ณ ๋ฐฉ์์ ์ฐ๊ตฌ์๋ค๊ณผ ๊ฐ๋ฐ์๋ค์๊ฒ ํผ๋์ ์ผ๊ธฐํ๋ฉฐ, ์ด๋ค ๋ฐฉ์์ด LLM์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋์ง ํ๋จํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ ๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ํต์ฌ ์ฐ๊ตฌ ์ง๋ฌธ์ ๋์ง๋ฉฐ ์ด๋ฅผ ๊ท๋ช ํ๊ณ ์ ํ๋ค.
"LLM์ด ํ ์ด๋ธ์ ์ดํดํ๋๋ก ํ๋ ๋ฐ ์์ด ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ์ ๋ ฅ ์ค๊ณ์ ์ ํ์ ๋ฌด์์ธ๊ฐ?"
๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฌํ ํผ๋์ ํด์ํ๊ณ , LLM์ด ์ง์ ์ผ๋ก ํ ์ด๋ธ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ ์ ์๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ ์์ค๊น์ง ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋์ง ๊ท๋ช ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ด๋ฅผ ์ํด ์ฐ๊ตฌ์ง์ ๋ค์๊ณผ ๊ฐ์ ์ฒด๊ณ์ ์ธ ์ ๊ทผ ๋ฐฉ์์ ์ทจํ๋ค.
- SUC ๋ฒค์น๋งํฌ ์ ์: ๋ค์ํ ์ ๋ ฅ ์ค๊ณ๋ฅผ ๋น๊ตํ๊ณ LLM์ ๊ฐ ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ์ ์ด์ ์ ๋ง์ถ ๊ตฌ์ฒด์ ์ธ ์์ ์ ์์ฑํ๊ธฐ ์ํด SUC(Structural Understanding Capabilities) ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํ๋ค.
- ํฌ๊ด์ ์ธ ์คํ ์ํ: ์ ๋ ฅ ํ์, ํ์ ์ค๋ช , ์ญํ ํ๋กฌํํ , ํํฐ์ ๋งํฌ, ์ ๋ก์ท/์์ท ์ ๊ทผ ๋ฐฉ์ ๋ฑ ๋ค์ํ ์ ๋ ฅ ์ ํ์ง์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ๊ด๋ฒ์ํ ์คํ์ ์ํํ๋ค.
- ์ค์ฉ์ ์ธ ๊ฐ์ด๋๋ผ์ธ ์ ๊ณต: LLM์ ํ์ฉํ์ฌ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ดํดํ๊ธฐ ์ํ ์ค์ฉ์ ์ธ ์ง์นจ์ ์ ๊ณตํ๋ค.
- ์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ ์ ์: ๋ชจ๋ธ ๋ถ๊ฐ์ง๋ก ์ (model-agnostic) ๋ฐฉ๋ฒ์ธ '์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ '์ ์ ์ํ์ฌ, LLM์ด ๋ด๋ถ ์ง์์ ํ์ฉํด ์ค๊ฐ ๊ตฌ์กฐ์ ์ง์์ ์์ฑํ๊ณ ์ด๋ฅผ ํตํด ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ด๋ ๊ธฐ์กด์ CoT๋ Zero-shot-CoT์๋ ์ฐจ๋ณํ๋ ์ ๊ทผ ๋ฐฉ์์ด๋ค.
2. Preliminaries
์ด ์น์ ์์๋ ํ ์ด๋ธ ๋ฐ์ดํฐ์ ๋ณธ์ง์ ์ธ ๊ตฌ์กฐ์ ํน์ฑ๊ณผ ์ด๋ฅผ LLM์ด ์ฒ๋ฆฌํ ์ ์๋ ํํ๋ก ๋ณํํ๋ ์ง๋ ฌํ ๊ณผ์ ์ ๊ธฐ์ ์ ๋ฐฐ๊ฒฝ, ๊ทธ๋ฆฌ๊ณ LLM์ ์ ๋ ฅ ๊ธธ์ด ์ ์ฝ์ ๋ฐ๋ฅธ ๋ฌธ์ ์ ๋ค์ ์์ธํ ๋ค๋ฃฌ๋ค.
ํ ์ด๋ธ ๋ฐ์ดํฐ๋ ๋งค์ฐ ์ ์ฐํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋๋ฐ, ์ด๋ฌํ ๊ตฌ์กฐ์ ๋ค์์ฑ์ LLM์๊ฒ ํฐ ๋์ ๊ณผ์ ๊ฐ ๋๋ค.
- ์ ํ: ๊ด๊ณํ ํ ์ด๋ธ, ์ํฐํฐ ํ ์ด๋ธ, ๋งคํธ๋ฆญ์ค ํ ์ด๋ธ, ๋ ์ด์์ ํ ์ด๋ธ ๋ฑ ๋ค์ํ ํํ๊ฐ ์กด์ฌํ๋ค.
- ๋ฐฉํฅ์ฑ: ํ ์ด๋ธ์ ์ํ(horizontal) ์ ๋ ฌ ๋๋ ์์ง(vertical) ์ ๋ ฌ ๋ฐฉํฅ์ ๊ฐ์ง ์ ์๋ค.
- ๊ณ์ธต ๊ตฌ์กฐ: ํ๋ฉด ๊ตฌ์กฐ์์๋ถํฐ ๊ณ์ธต์ (hierarchical) ๊ตฌ์กฐ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ณต์ก์ฑ์ ์คํํธ๋ผ์ด ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ฃผ๋ก ํ๋ฉด ๊ด๊ณํ ํ ์ด๋ธ์ ์ด์ ์ ๋ง์ถ์ง๋ง, ๊ณ์ธต์ ํ ์ด๋ธ์ ๋ํด์๋ ๋ ผ์ํ๋ค. ํ๋ฉด ํ ์ด๋ธ์์ ๊ฐ ํ์ ๊ณ ์ ํ ๋ ์ฝ๋์ ํด๋นํ๋ฉฐ, ์ด์ ๊ณ์ธต์ ๋ฐฐ์ด ์์ด ํน์ ํ๋(field)๋ฅผ ๋ํ๋ธ๋ค.
๋ํ, ํ ์ด๋ธ ๋ฐ์ดํฐ๋ ๊ฐ์ ํฌ๋งทํ ํ๋ ๋ค์ํ ์ ๊ทผ ๋ฐฉ์์ ํฌํจํ๋ค.
- ํ ์คํธ(Text): ํค๋, ๋ฉ๋ชจ, ์บก์ ๋ฐ ๋ฐ์ดํฐ ์์ญ ๋ด์ ์ ๊ณผ ๊ฐ์ ๋ฉํ ์ ๋ณด๋ฅผ ์บก์ฒํ๋ ๋ฐ ์ค์ถ์ ์ธ ์ญํ ์ ํ๋ค. ํ ์คํธ๋ ํ ์ด๋ธ์ ๋ฌธ๋งฅ์ ์ ๊ณตํ๋ ํต์ฌ ์์์ด๋ค.
- ์ซ์(Numbers): ํฉ๊ณ ๋ฐ ๋น์จ๊ณผ ๊ฐ์ ์ฐ์ ์ ๊ด๊ณ๋ฟ๋ง ์๋๋ผ ๋ถํฌ ๋ฐ ์ถ์ธ์ ๊ฐ์ ํต๊ณ์ ์์ฑ์ ํฌํจํ๋ค. ํ ์ด๋ธ์ ์ข ์ข ๊ผผ๊ผผํ๊ฒ ์ ๋ฆฌ๋ ์์น ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ฌ ์ฐธ์กฐ์ ๋น๊ต๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ค. ์ด๋ฌํ ๊ตฌ์กฐํ๋ ์์น ๊ฐ์ ์คํ๋ ๋์ํธ ์์ ๋ฑ์ ํตํด ๋ฌธ์ํ๋๊ธฐ๋ ํ๋ค.
ํ ์ด๋ธ ๋ฐ์ดํฐ์ ์ด๋ฌํ ์ ์ฐ์ฑ์ LLM์๊ฒ ๋ ํนํ ๋์ ์ ์ ๊ธฐํ๋ค. ์๋ก ๋ค๋ฅธ ํ ์ด๋ธ์ ๊ตฌ์กฐ์ ํฌ๋งท์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ ์ํ๊ธฐ ๋๋ฌธ์, ํ ์ด๋ธ ๋ฐ์ดํฐ์ ์์ฐ์ด ์ฌ์ด์ ๊ฐ๊ทน์ ์์ฐ์ด ์ถ๋ก ๋ฅ๋ ฅ์ ์ง์ ์ ์ผ๋ก ์ ์ฉํ๋ ๊ฒ์ ๋ฐฉํดํ๋ ์์ธ์ด ๋๋ค.
ํ ์ด๋ธ ์ง๋ ฌํ(serialization)๋ 2์ฐจ์ ํํ์ ํ ์ด๋ธ ๋ฐ์ดํฐ๋ฅผ ์ ํ์ ์ด๊ณ ์์ฐจ์ ์ธ 1์ฐจ์ ํ ์คํธ ํ์์ผ๋ก ๋ณํํ๋ ๊ณผ์ ์ ์๋ฏธํ๋ค. ์ด๋ ์ธ์ด ํจํด์ ์ดํดํ๊ณ ์์ธกํ๋ ๊ฒ์ด ์ค์ํ masked language modeling๊ณผ ๊ฐ์ ์์ ์์ LLM์ ํ๋ จํ๊ณ ํ์ฉํ๋ ๋ฐ ํ์์ ์ธ ์ ์ฒ๋ฆฌ ๋จ๊ณ์ด๋ค.
์ฃผ์ ์ง๋ ฌํ ๋ฐฉ๋ฒ๋ก ์ ์๋์ ๊ฐ๋ค.
- Row-by-Row: ํ ์ด๋ธ์ ํ ๋จ์๋ก ์์ฐจ์ ์ผ๋ก ์ง๋ ฌํํ๋ ๊ฐ์ฅ ๊ฐ๋จํ๊ณ ์ง๊ด์ ์ธ ๋ฐฉ๋ฒ์ด๋ค. TaPas , MATE , TableFormer , TUTA , TURL ๋ฑ ๋ค์์ ์ฐ๊ตฌ์์ ์ฑํ๋์๋ค.
- Special Tokens: TaPEx ์ ๊ฐ์ ๋ชจ๋ธ์ <HEAD>, <ROW>์ ๊ฐ์ ํน์ ํ ํฐ์ ์ฌ์ฉํ์ฌ ํ ์ด๋ธ์ ๊ตฌ์ฑ ์์๋ฅผ ๋ช ์์ ์ผ๋ก ๊ตฌ๋ถํ๋ค. ์ด๋ ๋ชจ๋ธ์ด ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ ๋ฐ ๋์์ ์ค ์ ์๋ค.
- Hybrid Serialization: TABBIE๋ ํ ๋ฐฉํฅ๊ณผ ์ด ๋ฐฉํฅ์ผ๋ก ๋ชจ๋ ์ง๋ ฌํํ์ฌ ๊ตฌ์กฐ์ ๋งฅ๋ฝ์ ํ๋ถํ๊ฒ ํ๋ค.
- Template-based: TableGPT๋ ํ ํ๋ฆฟ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ ํ ์ด๋ธ ๋ ์ฝ๋์ ์์ฑ-๊ฐ ์์ ์์ฐ์ด ๋ฌธ์ฅ์ผ๋ก ๋ณํํ๋ค.
LLM์ ์ ๋ ฅ ๊ธธ์ด ์ ์ฝ๊ณผ ํจ์จ์ฑ ๋ฌธ์ ๋ํ ๊ณ ๋ คํด์ผ ํ๋ค. ๋๋ถ๋ถ์ LLM์ self-attention ๋ฉ์ปค๋์ฆ์ ํฐ ๋ณต์ก๋(quadratic complexity)๋ก ์ธํด ๊ธด ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ๋ ๋ฐ ๋นํจ์จ์ ์ด๋ค. ์๋ฅผ ๋ค์ด, text-Davinci-003 ๋ชจ๋ธ์ ์ต๋ ์ํ์ค ๊ธธ์ด๋ 4,096 ํ ํฐ์ผ๋ก ์ ํ๋๋ค. ๊ทธ๋ฌ๋ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ ์ผ๋ฐ์ ์ผ๋ก ์์ญ, ์๋ฐฑ ๊ฐ์ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํ๋ฏ๋ก ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ์๋นํ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค.
์ผ๋ถ ์ฐ๊ตฌ๋ ์ต๋ ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ ๋ ฅ์ ๋จ์ํ ์๋ผ๋ด๋ naiveํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ผ๋, ์ด๋ ์ค์ํ ์ ๋ณด์ ์์ค์ ์ด๋ํ๊ณ ์ ์ฒด ํ ์ด๋ธ์ ๊ตฌ์กฐ์ ๋ฌด๊ฒฐ์ฑ์ ํ๊ดดํ ์ํ์ด ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ ์ ์ฝ ์กฐ๊ฑด์ ์ฌ์ ์ ์ํ์ฌ ์คํ์ ์ํํ์๋ค.
- ๋ฌด์์ ํ ์ํ๋ง (Random Row Sampling): ์ ๋จ์ผ๋ก ์ธํ ์ ์ฌ์ ํผ๋์ ๋ฐฉ์งํ๊ธฐ ์ํด, ํ ์ด๋ธ์ ํ ํฐ ์๊ฐ ํน์ ์๊ณ๊ฐ์ ์ด๊ณผํ ๊ฒฝ์ฐ ๋ฌด์์ ํ ์ํ๋ง ์ ๋ต์ ์ฌ์ฉํ์ฌ ์ ์ฒด๋ฅผ ํฌ๊ธฐํ๊ณ ์ผ๋ถ ํ์ ์ฝ๋ ๊ฒ์๋ง ์ง์คํ๋ค.
- 1-shot ์์ ์ถ๊ฐ: ์์๋๋ ๋จ์ ํ ํฐ ์ฉ๋์ ๊ธฐ๋ฐํ์ฌ 1-shot ์์ ๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ICL์ ์ง์ํ๋ค.
3. SUC Benchmark
์ด ์น์ ์์๋ ๋ค์ํ ์ ๋ ฅ ์ค๊ณ๋ฅผ ๋น๊ตํ๊ณ LLM์ ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ์ ์ฌ์ธต์ ์ผ๋ก ์กฐ์ฌํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ SUC(Structural Understanding Capabilities) ๋ฒค์น๋งํฌ๋ฅผ ์์ค๋ช ํ๋ค. ์ฐ๊ตฌ์ง์ ์ด ๋ฒค์น๋งํฌ๋ฅผ ํตํด ๋ค์ ๋ ๊ฐ์ง ํต์ฌ ์ง๋ฌธ์ ๋ํ ๋ต์ ์ฐพ๊ณ ์ ํ๋ค.
- ์ด๋ค ์ ๋ ฅ ์ค๊ณ์ ์ ํ์ด LLM์ด ํ ์ด๋ธ์ ์ดํดํ๋ ๋ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ๊ฐ?
- LLM์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์ ๋ํด ์ด๋ ์ ๋์ ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ์ ์ด๋ฏธ ๋ณด์ ํ๊ณ ์๋๊ฐ?
- ๋ํ, ๋ค์ํ ์ ๋ ฅ ์ค๊ณ ์กฐํฉ ๊ฐ์ ๋ณต์กํ ํธ๋ ์ด๋์คํ(trade-off)๋ฅผ ๋ถ์ํ๋ค.

์ฐ๊ตฌ์ง์ ์ธ๊ฐ์ ๊ด์ ์์ ํ ์ด๋ธ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ ๋ฐ ํ์์ ์ธ ๋ฅ๋ ฅ์ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฒ์ฃผ๋ก ๋ถ๋ฅํ์๋ค.(Figure 1 ์ฐธ์กฐ).
ํ๋๋ partition & parsing์ด๋ฉฐ, ๋๋จธ์ง ํ๋๋ search & retrieval์ด๋ค.
3-1. Partition & Parsing
ํ ์ด๋ธ ๋ฐ์ดํฐ์ ์ ํน์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ข ์ข ๋ค๋ฅธ ์์ค์ ์ง์๊ณผ ๊ฒฐํฉ๋๋ค.
- HybridQA : ํจ์์ง(passage) ์ ๋ณด ํ์ฉ
- TabFact ๋ฐ FEVEROUS : ์ธ๊ฐ ์ฃผ์ ํ์ฉ
- MultiModalQA : ์ด๋ฏธ์ง ์ ๋ณด ํ์ฉ
์ด๋ฌํ ์์ ์ ์ํํ๊ธฐ ์ํ ์ ์ ์กฐ๊ฑด์ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๊ฒ ๋ถํ (partitioning)ํ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํด์๋ ํ ์ด๋ธ์ ๋ค๋ฅธ ๋ณด์ถฉ ์ ๋ณด์ ๊ตฌ๋ณํ๊ณ , ํ ์ด๋ธ์ ๊ตฌ์กฐ์ ๋ ์ด์์์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ดํดํ๋ ๋ฅ๋ ฅ์ด ํ์ํ๋ค.
๋ํ, ๋ฐ์ดํฐ ์ ์ฅ ํ์์ ๋ค์์ฑ๋ ์ค์ํ ์์์ด๋ค. CSV, JSON, XML, Markdown, HTML , XLSX ๋ฑ ๋ค์ํ ํ ์ด๋ธ ์ ์ฅ ํ์์ ๊ฐ๊ธฐ ๋ค๋ฅธ ์์ค์ ์ ๋ณด ์์ถ์ ๊ฐ์ง๋ฉฐ, LLM์ด ํ ์ด๋ธ ๋ด์ฉ์ ์ดํดํ๋ ๋ฐ ์์ด ์๋ก ๋ค๋ฅธ ๋์ด๋์ ๊ณผ์ ๋ฅผ ์ ์ํ๋ค.
LLM์ ๋จผ์ ํ ์ด๋ธ์ ํ์์ด๋ ๋ ์ด์์์ ์ดํดํ ๋ค์, ๊ทธ ๋ด์ฉ์ ํ์ ํด์ผ ํ๋ค. ๋ณธ ์ฐ๊ตฌ๋ LLM์ด ๋ค์ํ ํฌ๋งท ์์ค๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ํ์ฑํ ์ ์๋์ง ํ์ธํ๊ณ , ์ด๋ค ์ ํ์ ์ ๋ ฅ ์ค๊ณ๊ฐ ๊ฐ์ฅ ์ ํฉํ์ง ์๋ณํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
3-2. Search & Retrieval
ํํฐ์ ๋ฐ ํ์ฑ ๋ฅ๋ ฅ ์ธ์๋, ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ ๋ด์ ํน์ ์์น์์ ์ ๋ณด๋ฅผ ์ ํํ๊ฒ ๊ฒ์ํ๊ณ ์กฐํํ๋ ๋ฅ๋ ฅ์ LLM์๊ฒ ํ์์ ์ด๋ค. ์ด ๋ฅ๋ ฅ์ Table-QA ๋ฐ ์ด ์ ํ ๋ฐ ๊ด๊ณ ๋ถ๋ฅ๋ฅผ ํฌํจํ ๊ด๋ฒ์ํ ๋ค์ด์คํธ๋ฆผ ์์ ๊ณผ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋์ด ์๋ค. ์ด๋ฅผ ํตํด LLM์ ์ฌ์ฉ์ ์ฟผ๋ฆฌ๋ ์์ฒญ์ ๋ฐ๋ผ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์๋ณํ๊ณ ์ถ์ถํ ์ ์๋ค.
- ์์: ์ฌ์ฉ์๊ฐ "2014๋
์ดํ์ ๊ฐ์ต๋ ์ฌ๋ฆผํฝ ํ์ฌ ์ค, ๋ ๋์ด ๋ ๊ธฐ์๊ฐ ์์๋ ํ์ฌ๋ ๋ฌด์์ธ๊ฐ?"๋ผ๊ณ ๋ฌป๋๋ค๋ฉด, LLM์ ๋ค์๊ณผ ๊ฐ์ ๋ณตํฉ์ ์ธ ๊ณผ์ ์ ๊ฑฐ์ณ์ผ ํ๋ค.
- ์๊ฐ ๊ธฐ์ค(2014๋ ์ดํ)์ ๋ง์กฑํ๋ ๋ชจ๋ ์ฌ๋ฆผํฝ ํ์ฌ๋ฅผ ์ฐพ๋๋ค (Locate)
- ๊ฐ ํ์ฌ์ ๊ด๋ จ๋ ๊ธฐ์์ ๋์ด๋ฅผ ๋น๊ตํ๋ค (Compare)
- ์ต์ข ์ ์ผ๋ก ๊ฐ์ฅ ๋์ด ๋ ๊ธฐ์๊ฐ ์๋ ํ์ฌ๋ฅผ ๊ฒฐ์ ํ๊ณ ๋ฐํํ๋ค (Return)
์ด ๊ณผ์ ์์ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ ๋ด์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ์ฃผ์ ๊น๊ฒ ๋ถ์ํ๊ณ ๋ชฉํ ์ (target cell)์ ์๋ณํจ์ผ๋ก์จ ๋ฌ์ฑ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๊ฒ์ ๋ฐ ์กฐํ ๋ฅ๋ ฅ์ ๋ค์ด์คํธ๋ฆผ ์์ ์์ ๋ถ๋ฆฌํจ์ผ๋ก์จ, ํ ์ด๋ธ ๋ฐ์ดํฐ์ ๊ด๋ จ๋ LLM์ ๋ด๋ถ ํ์ต ๊ณผ์ ์ ๋ํ ๊ท์คํ ํต์ฐฐ๋ ฅ์ ์ป๊ณ ์ ํ๋ค.
3-3. ์์ ๋ฐ ๋ฒค์น๋งํฌ ์ธํธ ์ค๊ณ
LLM์ ํ ์ด๋ธ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ๋์ด๋๊ฐ ์ ์ง์ ์ผ๋ก ์ฆ๊ฐํ๋ 7๊ฐ์ง ๊ตฌ์ฒด์ ์ธ ์์ ์ ์ค๊ณํ๋ค. ๊ฐ ์์ ์ ์ ๋ ฅ ์ค๊ณ ์์๋ ์๋๊ณผ ๊ฐ๋ค.
| ์์ (Task) | ์ ๋ ฅ ์ง๋ฌธ |
| Table Partition | ์ฃผ์ด์ง ํ
์ด๋ธ์ ์ฒซ ๋ฒ์งธ ํ ํฐ(๊ตฌ๋ถ์๊ฐ ์๋ ์
๊ฐ)์ ๋ฌด์์
๋๊น? ์ฃผ์ด์ง ํ ์ด๋ธ์ ๋ง์ง๋ง ํ ํฐ์ ๋ฌด์์ ๋๊น? |
| Cell Lookup | cell_value์ ์์น๋ ์ด๋์ ๋๊น? |
| Reverse Lookup | row_index, column_index์ ์ ๊ฐ์ ๋ฌด์์ ๋๊น? |
| Column Retrieval | ๋ค์ ํ ์ด๋ธ์์ ์ธ๋ฑ์ค column_idx๋ฅผ ๊ฐ์ง ์ด์ ์ด๋ฆ์ ๋ฌด์์ ๋๊น? |
| Row Retrieval | ๋ค์ ํ ์ด๋ธ์์ row_idx ํ์ ์ ๊ฐ๋ค์ ๋ฌด์์ ๋๊น? |
| Size Detection | ํ ์ด๋ธ์๋ ๋ช ๊ฐ์ ํ์ด ์์ต๋๊น? ํ ์ด๋ธ์๋ ๋ช ๊ฐ์ ์ด์ด ์์ต๋๊น? |
| Merged Cell Detection | ์คํฌ(span)์ด 1์ ์ด๊ณผํ๋ ์ ์ ์ด ์ธ๋ฑ์ค๋ ๋ฌด์์ ๋๊น? ` |
- + Table Partition: LLM์ด ๋ค์ํ ๋ณด์ถฉ ์ ๋ณด(์ค๋ช , ๋งฅ๋ฝ ๋ฑ) ์์์ ํ ์ด๋ธ์ ์์๊ณผ ๋์ ์ ํํ ์ธ์งํ๋์ง ํ ์คํธํ๋ค.
- + Table Size Detection: ํ ์ด๋ธ์ ํฌ๊ธฐ๋ ํ๊ณผ ์ด์ ์์ ๋ํ ์ง์ ์ ์ธ ์ ์ฝ ์กฐ๊ฑด์ ๋ํ๋ด๋ฏ๋ก, ์ด๋ฅผ ํ์ ํ๋ ๊ฒ์ ๊ตฌ์กฐ์ ์ดํด์ ๊ธฐ๋ณธ์ด๋ค. ๋ง์ฝ ํ ์ด๋ธ์ด 3๊ฐ์ ์ด๋ง ๊ฐ์ง๊ณ ์๋ค๋ฉด, ์ถ๋ ฅ์ ์ด ๋ฒ์๋ฅผ ๋ฒ์ด๋์๋ ์ ๋๋ค.
- + Merged Cell Detection: ๋ณํฉ๋ ์ ์ ์ธ์ ํ ๋ ๊ฐ ์ด์์ ์ ์ด ๊ฒฐํฉ๋ ํน์ ๊ตฌ์กฐ๋ก, ์ฃผ๋ก ๊ณ์ธต์ ์คํ๋ ๋์ํธ ํ ์ด๋ธ์์ ๋ฐ๊ฒฌ๋๋ค. ์ด๋ฅผ ๊ฐ์งํ๋ ๊ฒ์ LLM์ ๊ฐ๊ฑด์ฑ(robustness)์ ํ ์คํธํ๋ค.
- + Column & Row Retrieval: ์ด/ํ ์ธ๋ฑ์ค๋ฅผ ์ฌ์ฉํ์ฌ ํน์ ๊ฐ ๋ชฉ๋ก์ ์ฐพ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ธ ์๋๋ฆฌ์ค์ด๋ฏ๋ก, ์ด ์์ ์ ์ฑ๋ฅ์ Cell Lookup๋ณด๋ค ๋์ ๊ฒ์ผ๋ก ์์๋๋ค.
๋ณธ ๋ฒค์น๋งํฌ๋ TabFact, FEVEROUS, SQA, HybridQA, ToTTo ๋ฑ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์์ ์์ง๋ Wikipedia ๊ธฐ๋ฐ ํ ์ด๋ธ๋ก ๊ตฌ์ฑ๋์๋ค. ์๋ณธ ๋ฐ์ดํฐ ์ค table, rows, headers์ ๊ฐ์ ๊ตฌ์กฐ์ ์์๋ง์ ์ฌ์ฉํ๊ณ , ID, Question, Answer, FileName ๋ฑ ๋ฉํ ์ ๋ณด๋ ์ ์ธํ์ฌ ๋ชจ๋ธ์ ์์ํ ํ ์ด๋ธ ๊ตฌ์กฐ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ์๋ค. ๊ฐ ํ ์ด๋ธ์๋ ๊ตฌ์กฐ์ ๊ฐ์ ์๋ณํ๋ ๋จ๋ฌธ ์ง๋ฌธ(์ค๊ฐ ๊ธธ์ด 15๋จ์ด)์ด ๋ถ์ฌ๋์์ผ๋ฉฐ, ๋ชจ๋ ์ง๋ฌธ์ ์๋ณธ ๋ฐ์ดํฐ์ ์์ ์์ฑ๋ ์ ๋ต๊ณผ ํจ๊ป ์ ๊ณต๋๋ค.
ํ๊ฐ ์ ๋ขฐ๋๋ฅผ ํ๋ณดํ๊ธฐ ์ํด GPT-3.5(Text-Davinci-003)๋ฅผ ํ์ฉํด ์ง๋ฌธ ๋์ด๋๋ฅผ ๊ฒ์ฆํ๊ณ , ์ฌ๋ฌ ์ํ๋ง์์๋ ์ผ๊ด๋๊ฒ ์ ๋ต์ ๋งํ๋ ๊ณผ๋ํ๊ฒ ์ฌ์ด ์ง๋ฌธ์ ์ ๊ฑฐํ์๋ค. ๋ณํฉ ์ ๊ฐ์ง ์์ ์ ๋ณํฉ ์ ์ ๋ณด๊ฐ ํฌํจ๋ ToTTo ๋ฐ์ดํฐ์ ๋ง์ ์ฌ์ฉํ์์ผ๋ฉฐ, ๊ฐ ์์ ์ค์ ๋ง๋ค 1,500๊ฐ์ ํ ์ด๋ธ์ ๋ฌด์์๋ก ์ํ๋งํด ํ ์คํธ ์ ์ ๊ตฌ์ฑํ์๋ค.
SUC๋ ํ ์ด๋ธ ์์ ์ ์ํ 1-shot ์ธ์ปจํ ์คํธ ๋ฌ๋ ๋ฒค์น๋งํฌ๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ๋ฏธ์ธ ์กฐ์ ์์ด ํจ์ท ํ๋กฌํํธ๋ฅผ ํตํด ์๋ก์ด ์์ ์ ์ํํ๋ LLM์ ์ฐฝ๋ฐ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ค. ๋น๊ต๋ฅผ ์ํด ์ ๋ก์ท ์ค์ ์คํ๋ ํจ๊ป ์ํํ์๋ค.
ํ๊ฐ๋ ์ ํ๋(Accuracy)๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์์ผ๋ฉฐ, CSV, JSON, XML, Markdown, HTML, XLSX ๋ฑ ๋ค์ํ ์ ๋ ฅ ํฌ๋งท๊ณผ ๊ตฌ๋ถ์ ๊ธฐ๋ฐ ์ ํํ ๋ฐฉ์(NL+Sep, '|'์ ๊ฐ์ด)์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ๋น๊ตํ์๋ค. ๋ํ ๋ฌธ๋ฒ ์ค๋ช , ํํฐ์ ๋งํฌ, ์ญํ ํ๋กฌํํ , ํฌ๋งท ์ค๋ช ๋ฑ ์ ๋ ฅ ์ค๊ณ ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ ์ฉํด ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ถ์ํ์๋ค. ์ถ๋ ฅ ํ์ ์ ์ฝ์ ํตํด ์๋ต์ 90% ์ด์์ด ์๋ ํ๊ฐ๋์์ผ๋ฉฐ, ๋๋จธ์ง๋ ์ ๊ท ํํ์ ๊ธฐ๋ฐ ์๋ฏธ๋ก ์ ํ์ฑ์ผ๋ก ์ฒ๋ฆฌํ์๋ค.
4. ๊ตฌ์กฐ์ ํ๋กฌํํ (Structural Prompting)
SUC ๋ฒค์น๋งํฌ ์คํ ๊ฒฐ๊ณผ(์น์ 5 ์ฐธ์กฐ)๋ฅผ ํตํด ์ฐ๊ตฌ์ง์ ๋ ๊ฐ์ง ์ค์ํ ์ฌ์ค์ ๋ฐ๊ฒฌํ๋ค.
- LLM์ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ง๋ง, ํ ์ด๋ธ ํฌ๊ธฐ ๊ฐ์ง์ ๊ฐ์ ์ฌ์ํ ์์ ์์๋ ์๋ฒฝํ์ง ์๋ค.
- ์ ๋ ฅ ์ค๊ณ์ ์กฐํฉ์ ์ฌ๋ฐ๋ฅด๊ฒ ์ ํํ๋ ๊ฒ์ด ํ ์ด๋ธ ๋ฐ์ดํฐ์ ๋ํ LLM์ ์ดํด๋ฅผ ๋์ด๋ ์ ์ฌ์ ์์ธ์ด๋ค.
์ด๋ฌํ ๋ฐ๊ฒฌ์ ๋ฐํ์ผ๋ก, ๋ณธ ์น์ ์์๋ LLM์ ์์ฒด ์ง์ ๊ธฐ๋ฐ ๋ด๋ถ ๊ฒ์์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ฐ ๊ตฌ์กฐ์ ์ง์์ ์์ฑํ๋ ๊ฐ๋จํ๊ณ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ธ ์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ (Self-augmented Prompting)์ ์ ์ํ๋ค.
CoT(Chain of Thought) ๋ LLM์ด ํ ์คํธ์ ๋ํด ๋ณต์กํ ์ถ๋ก ์ ์ํํ ์ ์๋๋ก ํจ์ผ๋ก์จ ํฐ ๋ฐํฅ์ ์ผ์ผ์ผฐ๋ค. ์ถ๋ก ์ฌ์ฌ์ ๋ช ๊ฐ์ง ์์๋ฅผ ๋ชจ๋ธ์ ์ ๊ณตํจ์ผ๋ก์จ, LLM์ ์ด๋ ค์ด ๋ฏธ์ง์ ์์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ํ ํ๋ฆฟ์ ๋ฐ๋ฅด๋ ๋ฒ์ ๋ฐฐ์ธ ์ ์๋ค. ์ด๋ฌํ ์ฐ๊ตฌ์์ ์๊ฐ์ ๋ฐ์, ๋ณธ ์ฐ๊ตฌ๋ LLM์ ์์ฒด ์ง์์ "์ง๋ด์ด(squeeze)" ์ค๊ฐ ๊ตฌ์กฐ์ ์ง์์ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ๊ณ ์ํ๋ค.

์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ ์ LLM์ ๋ ๋ฒ ํธ์ถํ์ฌ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ ํฅ์์ํค๋ ์ง๊ด์ ์ธ ์์ด๋์ด์ด๋ค. ์ด ๊ณผ์ ์ ์์ ์ ๋ ๋จ๊ณ๋ก ๋๋๋ค.
- 1๋จ๊ณ (์ง์ ์์ฑ): ๋ชจ๋ธ์๊ฒ ํ
์ด๋ธ์ ์ค์ํ ๊ฐ๊ณผ ํจํด์ ์๋ณํ๋๋ก ํ๋กฌํํธํ๋ค. LLM์๊ฒ ๊ธฐ๋ณธ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ง์ ํด๊ฒฐํ๋๋ก ์์ฒญํ๋ ๋์ , ์ด๊ธฐ์๋ ๋ค์ด์คํธ๋ฆผ ํ๋ก์ธ์ค์ ๊ด๋ จ๋ ์ค์ํ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ๋ฒ์๋ฅผ ์ถ์ถํ๋๋ก ๊ณผ์ ๋ฅผ ๋ถ์ฌํ๋ค.
- ์ง์ ์์: "Identify critical values and ranges of the table related within five sentences." (ํ ์ด๋ธ์ ์ค์ํ ๊ฐ๊ณผ ๋ฒ์๋ฅผ 5๋ฌธ์ฅ ์ด๋ด๋ก ์๋ณํ์์ค.)
- ์ค๊ฐ ์ถ๋ ฅ(Intermediate Output) ์์: "์ด ํ ์ด๋ธ์ 1983๋ ๋ถํฐ 1989๋ ๊น์ง Antoine Salamin์ ๊ฒฐ๊ณผ๋ฅผ ํฌํจํฉ๋๋ค. ๊ฐ์ฅ ์ค์ํ ๊ฐ์ ๋ ์ด์ค ํ์์ ๋๋ค. ๋ ์ด์ค์ ๋ฒ์๋ 1์์ 4๊น์ง์ ๋๋ค(...) ํฌ๋์์ ๋ฒ์๋ 0์์ 3๊น์ง์ ๋๋ค(...)"
- 2๋จ๊ณ (์ต์ข ๋ต๋ณ ๋์ถ): LLM์ ์ํด ์๋ณ๋๊ณ ๊ฐ๋ต์ ์ผ๋ก ์ค๋ช ๋ ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์๋ก์ด ํ๋กฌํํธ์ ์ผ๋ถ๋ก ์ฌ์ฉํ์ฌ ์ด์ ์๋ ์์ ์ ์ง์คํ๋ค. ์ฒซ ๋ฒ์งธ ํ๋กฌํํธ์ ๊ฒฐ๊ณผ๋ฅผ ๋ ๋ฒ์งธ ํ๋กฌํํธ์ ํตํฉํจ์ผ๋ก์จ, ํ๋ก์ธ์ค๋ LLM์ด ์ต์ข ๋ต๋ณ์ ์์ฑํ๋ ๋์ ์ด๋ฌํ ์ค์ํ ์ธ๋ถ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ๋๋ก ํจ๊ณผ์ ์ผ๋ก ์๋ดํ๋ค. ์ด๋ ์๋ต์ ๊ด๋ จ์ฑ๊ณผ ์ ํ์ฑ์ ๋ชจ๋ ํฅ์์ํจ๋ค.
์๊ฐ ์ฆ๊ฐ, ์ด ๋ฐฉ๋ฒ์ CoT๋ Zero-shot-CoT ์๋ ๋ค๋ฆ ๋๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ด ์ถ๋ก ์ ๊ณผ์ (step-by-step reasoning)์ ์ง์คํ๋ค๋ฉด, ์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ ์ ๊ตฌ์กฐํ๋ ์ ๋ณด๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ดํดํ๊ธฐ ์ํด ๊ตฌ์กฐ๋ฅผ ํ์ด์ฃผ๋? ์ญํ ์ ํ๋๋ฏ ํ๋ค์.
์๊ฐ ์ฆ๊ฐ ์ธ์๋, ๊ฒฝํ์ ๊ด์ฐฐ์ ๋ฐ๋ฅด๋ฉด ๊ตฌ์กฐ์ ์ ๋ณด๊ฐ ํ ์ด๋ธ ์ดํด์ ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํ๋ค๋ ๊ฒ์ด ๋ถ๋ช ํ๋ค. ์ผ๋ถ ์ฐ๊ตฌ๋ค์ ๋ค์ํ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๊ธฐ ์ํด ํน์ ํ ํฐ์ด ํฌํจ๋ ํ๋กฌํํธ๋ฅผ ํตํฉํ์ฌ ์ง์ ์ ์ด๋ฃจ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก SUC ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์ํ์ฌ, ์์ ์ ๋ ฅ(raw input)์์ ๊ตฌ์กฐ์ ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ ์ ๋ ฅ ์์ฒด์ ํตํฉํ๋ ๋ฐฉ๋ฒ์ ์ถ๊ฐ๋ก ํ๊ตฌํ๋ค.
์ด๋ฅผ ์ํด ๊ตฌ์กฐ์ ํน์ง์ ๋ช ์ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ๋ค. ์๋ฅผ ๋ค์ด, ์ ์ฃผ์(2x2 ๋ฑ)๋ฅผ ์ฌ์ฉํ๊ณ , ํ ์ด๋ธ์ ํ๊ณผ ์ด ์๋ฅผ ๋ช ํํ๊ฒ ํ์ํ๋ ๊ฒ์ด๋ค.
5. Experiments
- ๋ชจ๋ธ: ๋ณธ ์ฐ๊ตฌ์์๋ ์ฃผ๋ก **GPT-3.5 (text-davinci-003)**๋ฅผ ์ฌ์ฉํ๊ณ , ๋น๊ต๋ฅผ ์ํด GPT-4 ์์๋ ํ๊ฐ๋ฅผ ์ํํ๋ค. ์คํ ์ํ ์ ํ์ดํผํ๋ผ๋ฏธํฐ temperature๋ 0, top_p๋ 1๋ก ์ค์ ํ๋ค.
- ๋ค์ด์คํธ๋ฆผ ์์
๋ฐ ๋ฐ์ดํฐ์
: LLM์ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด 5๊ฐ์ง ๋ํ์ ์ธ ํ
์ด๋ธ ๋ค์ด์คํธ๋ฆผ ์์
์ ์ฌ์ฉํ๋ค.
- SQA: 6,066๊ฐ์ ์ง๋ฌธ ์ํ์ค๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ณ ๋๋ก ๊ตฌ์ฑ์ ์ธ WTQ ์ง๋ฌธ์ ๋ถํดํ์ฌ ์์ฑ๋์๋ค. ํ๊ท ์ํ์ค ๊ธธ์ด๋ 2.9๊ฐ ์ง๋ฌธ์ด๋ค.
- HybridQA: ๋์ข ์ ๋ณด(ํ ์ด๋ธ)๋ฟ๋ง ์๋๋ผ ์ด์ข ์ ๋ณด(ํ ์คํธ)์ ๋ํ ์ถ๋ก ์ด ํ์ํ 62,682๊ฐ์ ์ง๋ฌธ์ ํฌํจํ๋ค. ๊ฐ ์ง๋ฌธ์ ์ํคํผ๋์ ํ ์ด๋ธ ๋ฐ ์ํฐํฐ์ ์ฐ๊ฒฐ๋ ์์ ํ์ ์ฝํผ์ค์ ์ ๋ ฌ๋๋ค.
- ToTTo: ์ํคํผ๋์ ํ ์ด๋ธ์ ๊ฐ์กฐ๋ ์ ์ ์ค๋ช ํ๋ ์์ฐ์ด ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ณ ํ์ง ์์ด ํ ์ด๋ธ-ํ ์คํธ ๋ฐ์ดํฐ์ ์ด๋ค.
- FEVEROUS: 87,026๊ฐ์ ๊ฒ์ฆ๋ ์ฃผ์ฅ(claims)์ผ๋ก ๊ตฌ์ฑ๋ ํฉํธ ๊ฒ์ฆ ๋ฐ์ดํฐ์ . ๊ฐ ์ฃผ์ฅ์ ์ํคํผ๋์์ ๋ฌธ์ฅ์ด๋ ํ ์ด๋ธ ์ ํํ์ ์ฆ๊ฑฐ์ ํจ๊ป ์ฃผ์ ์ฒ๋ฆฌ๋์ด ์๋ค.
- TabFact: ์ํคํผ๋์์์ ์ถ์ถํ ํ ์ด๋ธ๊ณผ ํฌ๋ผ์ฐ๋ ์์ปค๊ฐ ์์ฑํ ๋ฌธ์ฅ์ผ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ํฉํธ ๊ฒ์ฆ ๋ฐ์ดํฐ์ ์ด๋ค.

Table 2๋ 5๊ฐ์ง ์ฃผ์ ์ ๋ ฅ ํฌ๋งท(NL+Sep, Markdown, JSON, XML, HTML)์ ๋ํด 7๊ฐ์ง SUC ํ์คํฌ๋ฅผ ์ํํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. ์คํ์ ์ฃผ๋ก GPT-3.5๋ฅผ ๋์์ผ๋ก ํ์ผ๋, ์์ ์ง์ฝ์ ์ธ GPT-4์ ๋ํด์๋ ๊ฐ ํ์คํฌ ์ธํธ์์ ๋ฌด์์ 300๊ฐ ์ํ์ ์ถ์ถํ์ฌ ์ถ๋ก ํ ์คํธ๋ฅผ ์ํํ๋ค.
- HTML์ ์ฐ์์ฑ:
- Table Partition: HTML ํฌ๋งท์ 96.67%์ ๋์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ๋ฉฐ ํ ์ด๋ธ์ ๊ฒฝ๊ณ๋ฅผ ์๋ณํ๋ ๋ฐ ๊ฐ์ฅ ํจ๊ณผ์ ์ด์๋ค.
- Size Detection: ํ ์ด๋ธ์ ํ๊ณผ ์ด ๊ฐ์๋ฅผ ํ์ ํ๋ ์ด ํ์คํฌ์์ HTML(67.00%)์ ๊ธฐ์กด์ NL+Sep(42.00%)๋ Markdown(40.67%)์ ์๋ํ๋ค.
- Column Retrieval: ์ด ์ด๋ฆ์ ๊ฒ์ํ๋ ํ์คํฌ์์๋ HTML(63.33%)์ด ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์๋ค.
- LLM์ ํ์ต ๋ฐ์ดํฐ์ ์น ๋ฐ์ดํฐ๊ฐ ๋ค์ ํฌํจ๋์ด ์์ด, ๋ชจ๋ธ์ด <tr>, <td>์ ๊ฐ์ HTML ํ๊ทธ๋ฅผ ํตํด ๊ตฌ์กฐ๋ฅผ ํ์ฑํ๋ ๋ฐ ์ด๋ฏธ ์ต์ํด์ ธ ์์์ ์์ฌํ๋ค.
- GPT-4์ ์๋์ ์ฑ๋ฅ:
- GPT-4(ํ๋์ ์ด)๋ ๋ชจ๋ ํฌ๋งท๊ณผ ํ์คํฌ์์ GPT-3.5๋ฅผ ํฌ๊ฒ ์ํํ๋ค. ์ด๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ์ถ๋ก ๋ฅ๋ ฅ์ด ๊ตฌ์กฐ์ ํ์ฑ ๋ฅ๋ ฅ๊ณผ ์ง๊ฒฐ๋จ์ ๋ณด์ฌ์ค๋ค.
- ํฌ๋งท๋ณ ํนํ ์์ญ:
- Markdown: Merged Cell Detection(๋ณํฉ๋ ์ ๊ฐ์ง) ํ์คํฌ์์๋ Markdown(78.00%)์ด HTML(76.67%)๋ณด๋ค ์ํญ ์์๋ฉฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ์ด๋ Markdown์ ๋จ์ํ ํ๊ธฐ๋ฒ์ด ๋ณํฉ๋ ์ ๊ณผ ๊ฐ์ ํน์ ์๊ฐ์ /๊ตฌ์กฐ์ ํน์ง์ ํํํ๋ ๋ฐ ํจ์จ์ ์ผ ์ ์์์ ์์ํ๋ค.
- NL+Sep (Natural Language + Separator): ๊ธฐ์กด ์ฐ๊ตฌ์์ ํํ ์ฐ์ด๋ ๋ฐฉ์์ด์ง๋ง, Size Detection(42.00%) ๋ฑ ๊ตฌ์กฐ์ ํ์ฑ์ด ํ์ํ ์์ ์์ ๋งํฌ์ ์ธ์ด(Markup Language) ๋๋น ํ์ ํ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์๋ค.

Table 3์ ์ต์ ์ ์กฐํฉ(HTML + ํฌ๋งท ์ค๋ช + ์ญํ ํ๋กฌํํธ + ์์ ๋ณ๊ฒฝ ์์)์ ๊ธฐ์ค์ผ๋ก, ํน์ ์์๋ฅผ ์ ๊ฑฐํ์ ๋ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ์ด๋ค.
- 1-shot์ ๊ฒฐ์ ์ ์ญํ (w/o 1-shot):
- 1-shot ์์ ๋ฅผ ์ ๊ฑฐํ๊ณ ์ ๋ก์ท(Zero-shot)์ผ๋ก ์ํํ์ ๋, Table Partition ์ ํ๋๊ฐ 33.67% ๊ธ๋ฝํ๊ณ , Merged Cell Detection์ 38.67%๋ ๋จ์ด์ก์ผ๋ฉฐ Size Detection์ ๋ฌด๋ ค ์ฝ 50%๊ฐ ๋จ์ด์ก๋ค.
- ๊ตฌ์กฐ์ ์ดํด ๋ฅ๋ ฅ์ ์ฌ์ ํ์ต๋ง์ผ๋ก ์ด๋ ค์ฐ๋ฉฐ, ์์๋ฅผ ์ ๊ณต๋ฐ์ ๋ ๊ทธ ๋ฅ๋ ฅ์ด ๋ฐํ๋๋ค.
- ์ธ๋ถ ํ
์คํธ์ ์์ (w/o change order):
- ๋ ผ๋ฌธ์์ "Change order"๋ ์ง๋ฌธ์ด๋ ์ค๋ช ๊ฐ์ ์ธ๋ถ ํ ์คํธ๋ฅผ ํ ์ด๋ธ ์์ ๋ฐฐ์นํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์ด๋ฅผ ์ ๊ฑฐํ๊ณ (์ฆ, ํ ์คํธ๋ฅผ ํ ์ด๋ธ ๋ค์ ๋ฐฐ์นํ์ ๋) ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ณด๋ฉด, Size Detection์์ 14.33%์ ์ฑ๋ฅ ํ๋ฝ์ด ๋ฐ์ํ๋ค.
- ํ ์คํธ๋ฅผ ๋จผ์ ์ ์ํ๋ ๊ฒ์ด LLM์ผ๋ก ํ์ฌ๊ธ ํ ์ด๋ธ์ ์ฝ๊ธฐ ์ ์ ๋งฅ๋ฝ์ ํ์ ํ๊ณ "๋ฌด์์ ์ฐพ์์ผ ํ ์ง" ์ค๋น์ํค๋ ํจ๊ณผ๋ฅผ ์ค๋ค.
- ํฌ๋งท ์ค๋ช
๋ฐ ํํฐ์
๋งํฌ:
- "ํฌ๋งท ์ค๋ช (format explanation)"์ ์ ๊ฑฐํ์ ๋ Table Partition ์ฑ๋ฅ์ 4.67% ํ๋ฝํ์ง๋ง, Cell Lookup ์ฑ๋ฅ์ ์คํ๋ ค 8.00% ์์นํ๋ค.
- ๊ตฌ์กฐ์ ๋ํ ๊ณผ๋ํ ์ค๋ช ์ด๋ ๋งํฌ๋ ์ ์ฒด์ ์ธ ํ์ฑ์๋ ๋์์ ์ฃผ์ง๋ง, ํน์ ๊ฐ์ ์ฐพ์์ผ ํ๋ ๊ฒ์(Retrieval) ๊ณผ์ ์์๋ ์คํ๋ ค ๋ ธ์ด์ฆ๋ก ์์ฉํ์ฌ ๋ชจ๋ธ์ ์ฃผ์๋ฅผ ๋ถ์ฐ์ํฌ ์ ์๋ค.

Table 4๋ ์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ (SA Prompting)์ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฃฌ๋ค.
- ์๊ฐ ์ฆ๊ฐ(SA) vs 1-shot:
- ๋จ์ํ 1-shot ์์ ๋ฅผ ์ฃผ๋ ๊ฒ๋ณด๋ค, ๋ชจ๋ธ์๊ฒ "์ค์ํ ๊ฐ๊ณผ ๋ฒ์๋ฅผ ์๋ณํ๋ผ"๊ณ ๋จผ์ ์ํจ ๋ค(SA) ๋ฌธ์ ๋ฅผ ํ๊ฒ ํ์ ๋ ์ฑ๋ฅ์ด ํฅ์๋์๋ค.
- LLM์ด ์ค์ค๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๊ณ ๊ตฌ์กฐ์ ํํธ๋ฅผ ์์ฑํ๊ฒ ํจ์ผ๋ก์จ, ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ์ถฉ๋ถํ ๋ฐํํ ์ ์๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
- ์๋ ํ๋กฌํํธ ์์ง๋์ด๋ง์ ํ๊ณ:
- ์ฌ๋์ด ์๋์ผ๋ก ํฌ๋งท ์ค๋ช ์ ์ ์ด์ค ๊ฒฝ์ฐ๋ณด๋ค, ๋ชจ๋ธ์ด ์ค์ค๋ก ํฌ๋งท ์ค๋ช ์ ์์ฑํ๊ฒ ํ ๊ฒฝ์ฐ("SA self format explanation")๊ฐ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.

Table 5๋ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์์ ๋ค์ํ ํฌ๋งท์ ๋น๊ต ๋ถ์ํ๋ค.
- HTML์ ์ฐ์์ฑ:
- ToTTo๋ฅผ ์ ์ธํ๊ณ ๋ชจ๋ task์์ ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๊ธฐ๋กํ์๋ค.
- GPT-4 + HTML:
- ๊ฐ๋ ฅํ ๋ชจ๋ธ(GPT-4)๊ณผ ์ต์ ์ ์ ๋ ฅ ์ค๊ณ(HTML)๊ฐ ๊ฒฐํฉ๋์์ ๋, ํ ์ด๋ธ ๋ฐ์ดํฐ ์ดํด ๋ฅ๋ ฅ์ ๊ทน๋ํ๋๋ค.
์คํ ๊ฒฐ๊ณผ ์์ฝ
- ํฌ๋งท: HTML์ด ๊ฐ์ฅ ์ฐ์ํจ.
- ์์: ์ง๋ฌธ์ด๋ ์ค๋ช ์ ํ ์ด๋ธ ์์ ๋ฐฐ์นํ๋ผ.
- ํ๋กฌํํ : ๋จ์ 1-shot์ ๋์ด, ๋ชจ๋ธ์ด ์ค์ค๋ก ์ ๋ณด๋ฅผ ์ ์ ํ๊ฒ ํ๋ ์๊ฐ ์ฆ๊ฐ(SA) ๊ธฐ๋ฒ์ด ์ ๋ฆฌํ ์ ์๋ค.
- ์ ๋ณด๋ ์กฐ์ : ๊ฒ์(Retrieval)์ด ์ฃผ๋ ๋ชฉ์ ์ด๋ผ๋ฉด ๊ณผ๋ํ ๊ตฌ์กฐ ์ค๋ช ์ ๋นผ๊ณ , ํ์ฑ(Parsing)์ด ๋ชฉ์ ์ด๋ผ๋ฉด ๊ตฌ์กฐ ์ค๋ช ์ ์ถ๊ฐํ๋ผ.
6. ๊ฒฐ๋ก (Conclusion)
๋ณธ ๋ ผ๋ฌธ์ LLM๊ณผ ํ ์ด๋ธ ๋ฐ์ดํฐ์ ์ตํฉ์ ์ฌ๋ ์๊ฒ ํ๊ตฌํ๋ฉฐ, ์คํ์ ํตํด ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๋ฐ์ดํฐ ํํ ๋ฐฉ์์ด ๋ฌด์์ธ์ง ๋ช ํํ ๊ท๋ช ํ๋ค๋ ์ ์์ ์์๋ฅผ ๊ฐ์ง๋ค. ์ฐ๊ตฌ์ง์ ๋จ์ํ ํ ์ด๋ธ์ ํ ์คํธ๋ก ๋์ดํ๋ ๊ฒ์ ๋์ด, ๋ค์ํ ์ง๋ ฌํ(Serialization) ๋ฐฉ์๊ณผ ์ ๋ ฅ ์ค๊ณ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋น๊ต ๋ถ์ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, HTML๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ ๋งํฌ์ ์ธ์ด์ ํ์ฉ๊ณผ '์๊ฐ ์ฆ๊ฐ ํ๋กฌํํ (Self-augmented Prompting)'์ ๊ฒฐํฉ์ด LLM์ ํ ์ด๋ธ ์ดํด๋๋ฅผ ๊ทน๋ํํ๋ค๋ ์ ํจํ ๊ฒฐ๊ณผ๋ฅผ ์ค์ฆ์ ์ผ๋ก ์ ์ฆํ์๋ค. ์ด๋ LLM์ด ์ ํ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ์ ๋งฅ๋ฝ์ ํ์ ํ๋ ๋ฐ ์์ด, ์ต์ ํ๋ ์ ๋ ฅ ์ค๊ณ๊ฐ ํ์์ ์์ ์์ฌํ๋ค. ์์ผ๋ก ์ด ์ฐ๊ตฌ๋ ๊ตฌ์กฐํ๋ ์ง์๊ณผ LLM์ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ๊ธฐ์ ์ผ๋ก ๊ฒฐํฉํ์ฌ, ํ ์ด๋ธ ์ฒ๋ฆฌ์ ์ ํ๋์ ํจ์จ์ฑ์ ๋์ด๋ ํต์ฌ์ ์ธ ๊ธฐ๋ฐ์ด ๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ค.
์ด ๋ ผ๋ฌธ์ ๋ง์ฐํ๋ 'LLM์ ํ ์ด๋ธ ์ดํด'๋ผ๋ ์ฃผ์ ๋ฅผ ์ฒด๊ณ์ ์ธ ๋ฒค์น๋งํฌ(SUC)๋ก ํ์ด๋ด๋ฉฐ, ์๋ง์ ์ ๋ ฅ ์ ํ์ง ์ค ํจ๊ณผ์ ์ธ ์ ํ์ง์ ๋ํ ํํธ๋ฅผ ์ฃผ๊ณ ์์ต๋๋ค. ์์งํ ๋ ผ๋ฌธ์์ ์ ๋ฌํ๋ ๋ด์ฉ์ด ์๋ ๋ง์ ๊ฐ๋ ์ฑ์ด ์ข์ ๋ ผ๋ฌธ์ธ ๊ฒ ๊ฐ์ง ์์ง๋ง, ํฅ๋ฏธ๋ก์ด ์คํ ๊ฒฐ๊ณผ๊ฐ ์ ์๋์ด ์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฒค์น๋งํฌ๋ฅผ ์ง์ ์คํํ์ค ๊ฒ์ด ์๋๋ผ๋ฉด, ๊ตณ์ด ๊ผผ๊ผผํ ๋ถ์ํด๊ฐ๋ฉฐ ์ ๋ ํ ํ์๋ ์๊ฒ ์ง๋ง, ์คํ ๊ฒฐ๊ณผ๋ ๋ถ๋ช ์์ฌ์ ์ด ์์ต๋๋ค. ์ ์๋ค์ด ์คํ์ ํตํด ์ฆ๋ช ํ 'HTML ํฌ๋งท์ ์ฐ์์ฑ'๊ณผ '๊ตฌ์กฐ์ ์ค๋ช ๋ฐฐ์น' ๋ฑ์ ํ์ธํด ๋ณด์๊ธฐ ๋ฐ๋๋๋ค. ์ ๊ฐ์ธ์ ์ผ๋ก๋ ์ฐ๊ตฌ ์ด๊ธฐ์๋ ํ ์ด๋ธ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ LLM์ ๋์ ธ์ค์ผ ํ ์ง ๊ณ ๋ฏผํ๋ฉฐ ์ฌ๋ฌ ์ํ์ฐฉ์ค๋ฅผ ๊ฒช์์ต๋๋ค. ๋น์์ ๋ง์ฐํ ๋ฃฐ ๊ธฐ๋ฐ์ ์ง๋ ฌํ ๊ธฐ๋ฒ์ ์ผ๋๋ฐ, ์ด ๋ ผ๋ฌธ์ ํตํด ์ต์ ์ ํํ ๋ฐฉ์์ ๋ํด ๋ ๊ณ ๋ฏผํด๋ณผ ์ ์์์ต๋๋ค.
์๋ฌดํผ ๋ชจ๋ ํ์, ์ฐ๊ตฌ์, ์ค๋ฌด์ ๋ถ๋ค ์์ํฉ๋๋ค!
https://arxiv.org/abs/2305.13062
Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study
Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, the understanding of their capability to process structured data like tables remains an under-explored area. While tables can
arxiv.org