[NLP] Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study

2025. 12. 13. 18:09ยท๐Ÿ‘จ‍๐Ÿ’ป About AI/Paper Review

1. Introduction

 

๋ฐ์ดํ„ฐ๋Š” ํฌ๊ฒŒ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ(unstructured data)์™€ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ(structured data)๋กœ ๋‚˜๋‰œ๋‹ค. ๊ทธ์ค‘ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ฐ˜๋ณต๋˜๋Š” ์ •๋ณด๋ฅผ ์••์ถ•ํ•˜๊ณ  ํšจ์œจ์ ์œผ๋กœ ๊ด€๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์ „ ์ •์˜๋œ ๊ตฌ์กฐ๋กœ ์กฐ์ง๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ตฌ์กฐํ™”๋Š” ๊ธฐ๊ณ„๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •์„ ํš๊ธฐ์ ์œผ๋กœ ์šฉ์ดํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค. ๊ทธ์ค‘์—์„œ๋„ ํ…Œ์ด๋ธ”(Table)์€ ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ ์œ ํ˜•์œผ๋กœ, ๋‹ค์–‘ํ•œ ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋„๋ฆฌ ํ™œ์šฉ๋˜๊ณ  ์žˆ๋‹ค. ํ…Œ์ด๋ธ”์„ ์ง์ ‘ ํ™œ์šฉํ•˜๋Š” ๊ตฌ์ฒด์ ์ธ ์‘์šฉ ์‚ฌ๋ก€๋กœ๋Š” ํ…Œ์ด๋ธ” ๊ธฐ๋ฐ˜ ์งˆ๋ฌธ ์‘๋‹ต(Table-based Question Answering, TQA), ํ…Œ์ด๋ธ” ๊ธฐ๋ฐ˜ ํŒฉํŠธ ๊ฒ€์ฆ(Table-based Fact Verification, TFV), ํ…Œ์ด๋ธ”-ํ…์ŠคํŠธ ๋ณ€ํ™˜(Table-to-Text), ์—ด ์œ ํ˜• ๋ฐ ๊ด€๊ณ„ ๋ถ„๋ฅ˜(Column Type & Relation Classification) ๋“ฑ์ด ์žˆ๋‹ค.

 

์ตœ๊ทผ LLM์˜ ๋“ฑ์žฅ์€ ์ด๋Ÿฌํ•œ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ถ„์•ผ์—๋„ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•˜๊ณ  ์žˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง(Prompt Engineering)์€ In-context Learning, ICL์„ ์œ„ํ•œ ๋งค์šฐ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์ž๋ฆฌ ์žก์•˜๋‹ค. ํŠนํžˆ "Chain of Thought(CoT)"๋‚˜ "Self-consistency", ํ˜น์€ ๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ•์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ ๋ฐฉ์‹๋“ค์€ LLM์ด ์ œ๋กœ์ƒท(zero-shot) ๋˜๋Š” ํ“จ์ƒท(few-shot) ์„ค์ •์—์„œ ์ˆ˜ํ•™์  ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ž‘์—…์„ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•˜์˜€๋‹ค. ๋” ๋‚˜์•„๊ฐ€ ์ตœ๊ทผ ์—ฐ๊ตฌ๋Š” CoT๋ฅผ ํ™œ์šฉํ•˜์—ฌ GPT-3.5๊ฐ€ ๋‹จ ํ•˜๋‚˜์˜ ์˜ˆ์‹œ(one-shot)๋งŒ์œผ๋กœ๋„ ์—ฌ๋Ÿฌ ํ…Œ์ด๋ธ” ์ž‘์—…์—์„œ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, LLM์˜ ๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ์ž ์žฌ๋ ฅ์„ ํ™•์ธ์‹œ์ผœ ์ฃผ์—ˆ๋‹ค.

 

ํ•˜์ง€๋งŒ ์—ฌ์ „ํžˆ ๊ทผ๋ณธ์ ์ธ ์˜๋ฌธ์€ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์•˜๋‹ค. "LLM์ด ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ ์ง„์ •์œผ๋กœ ์ดํ•ดํ•˜๋Š”๊ฐ€?"๋ผ๋Š” ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๊ธฐ์กด ์—ฐ๊ตฌ๋“ค์€ ํฌ๊ด„์ ์ธ ๋‹ต๋ณ€์„ ๋‚ด๋†“์ง€ ๋ชปํ•œ ๊ฒƒ์ด๋‹ค. LLM์ด ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ๋ณด์—ฌ์ค€ ๋†€๋ผ์šด ์„ฑ๊ณต์ด ํ…Œ์ด๋ธ”์ด๋ผ๋Š” ๋‹ค๋ฅธ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ๋กœ ์ฆ‰๊ฐ ์ „์ด๋˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ์—ฌ๊ธฐ์—๋Š” ๊ณ ์œ ํ•œ ๋„์ „ ๊ณผ์ œ๋“ค์ด ์กด์žฌํ•œ๋‹ค.

  1. ๊ตฌ์กฐ์  ๋‹ค์–‘์„ฑ: ํ…Œ์ด๋ธ”์€ ์ œ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๊ตฌ์กฐ์™€ ํŠน์ง•์„ ๊ฐ€์ง„๋‹ค.
  2. ์ง๋ ฌํ™”์˜ ๋‚œํ•ดํ•จ: ํ…Œ์ด๋ธ”์€ 2์ฐจ์›(ํ–‰๊ณผ ์—ด) ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€์ง€๋งŒ, LLM์€ 1์ฐจ์› ์‹œํ€€์Šค(ํ…์ŠคํŠธ)๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š”๋‹ค. ํ…Œ์ด๋ธ”์„ ์ˆœ์ฐจ์ ์ธ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” 'ํ…Œ์ด๋ธ” ์ง๋ ฌํ™”(table serialization)' ๊ณผ์ •์€ ๊ฐ„๋‹จํ•˜์ง€ ์•Š์œผ๋ฉฐ, ์ด ๊ณผ์ •์—์„œ ๊ตฌ์กฐ์  ์ •๋ณด์˜ ์†์‹ค์ด๋‚˜ ์™œ๊ณก์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ˜„์žฌ ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„์—์„œ๋Š” ํ…Œ์ด๋ธ” ์ง๋ ฌํ™” ๋ฐฉ์‹๊ณผ ๋งฅ๋ฝ(context), ์ฟผ๋ฆฌ(query) ๊ตฌ์„ฑ์— ๋Œ€ํ•œ ํ†ต์ผ๋œ ํ•ฉ์˜๊ฐ€ ๋ถ€์žฌํ•˜๋‹ค. ์„ค๋ฌธ ์กฐ์‚ฌ์— ๋”ฐ๋ฅด๋ฉด, ์—ฐ๊ตฌ์ž๋“ค์€ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์ž„์‹œ๋ฐฉํŽธ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์ž…๋ ฅ ์„ค๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•ด ์™”๋‹ค๊ณ  ํ•œ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์„ ํ†ตํ•ด ํ…Œ์ด๋ธ”์„ ๋‹ค๋ฃจ๋ ค๋Š” ์—ฌ๋Ÿฌ ์—ฐ๊ตฌ๋“ค๋„ ๊ทธ ๋งฅ๋ฝ๊ณผ ์ฟผ๋ฆฌ๋ฅผ ์ •์˜ํ•˜๋Š” ํ˜•ํƒœ๊ฐ€ ๋ชจ๋‘ ๋‹ค๋ฅด๋‹ค.

  • TaPEx: <HEAD>, <ROW>์™€ ๊ฐ™์€ ํŠน์ˆ˜ ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…Œ์ด๋ธ” ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ํ‘œ์‹œํ•œ๋‹ค.
  • TABBIE: ํ…Œ์ด๋ธ”์„ ํ–‰ ๋ฐฉํ–ฅ(row-wise)๊ณผ ์—ด ๋ฐฉํ–ฅ(column-wise)์œผ๋กœ ๋ชจ๋‘ ์ง๋ ฌํ™”ํ•˜์—ฌ ๊ตฌ์กฐ์  ์ •๋ณด๋ฅผ ๋ณด์กดํ•˜๋ ค ์‹œ๋„ํ•œ๋‹ค.
  • TableGPT: ํ…œํ”Œ๋ฆฟ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํ…Œ์ด๋ธ” ๋ ˆ์ฝ”๋“œ์˜ ์†์„ฑ-๊ฐ’ ์Œ์„ ์ž์—ฐ์–ด ๋ฌธ์žฅ์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค (์˜ˆ: "name: Elon Musk" $\rightarrow$ "name is Elon Musk"). ์ด๋ฅผ ๋ชจ๋“  ๋ ˆ์ฝ”๋“œ ์ˆœ์„œ๋Œ€๋กœ ์—ฐ๊ฒฐํ•˜์—ฌ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์„ค๊ณ„ ๋ฐฉ์‹์€ ์—ฐ๊ตฌ์ž๋“ค๊ณผ ๊ฐœ๋ฐœ์ž๋“ค์—๊ฒŒ ํ˜ผ๋ž€์„ ์•ผ๊ธฐํ•˜๋ฉฐ, ์–ด๋–ค ๋ฐฉ์‹์ด LLM์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š”์ง€ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต๊ฒŒ ๋งŒ๋“ ๋‹ค. ๋”ฐ๋ผ์„œ ๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ์—ฐ๊ตฌ ์งˆ๋ฌธ์„ ๋˜์ง€๋ฉฐ ์ด๋ฅผ ๊ทœ๋ช…ํ•˜๊ณ ์ž ํ•œ๋‹ค.

 

"LLM์ด ํ…Œ์ด๋ธ”์„ ์ดํ•ดํ•˜๋„๋ก ํ•˜๋Š” ๋ฐ ์žˆ์–ด ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ์ž…๋ ฅ ์„ค๊ณ„์™€ ์„ ํƒ์€ ๋ฌด์—‡์ธ๊ฐ€?"

 

๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ ํ˜ผ๋ž€์„ ํ•ด์†Œํ•˜๊ณ , LLM์ด ์ง„์ •์œผ๋กœ ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์–ด๋А ์ˆ˜์ค€๊นŒ์ง€ ๊ตฌ์กฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ๋‹ฌ์„ฑํ–ˆ๋Š”์ง€ ๊ทœ๋ช…ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์—ฐ๊ตฌ์ง„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฒด๊ณ„์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ทจํ•œ๋‹ค.

  1. SUC ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ: ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์„ค๊ณ„๋ฅผ ๋น„๊ตํ•˜๊ณ  LLM์˜ ๊ฐ ๊ตฌ์กฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์— ์ดˆ์ ์„ ๋งž์ถ˜ ๊ตฌ์ฒด์ ์ธ ์ž‘์—…์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด SUC(Structural Understanding Capabilities) ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
  2. ํฌ๊ด„์ ์ธ ์‹คํ—˜ ์ˆ˜ํ–‰: ์ž…๋ ฅ ํ˜•์‹, ํ˜•์‹ ์„ค๋ช…, ์—ญํ•  ํ”„๋กฌํ”„ํŒ…, ํŒŒํ‹ฐ์…˜ ๋งˆํฌ, ์ œ๋กœ์ƒท/์›์ƒท ์ ‘๊ทผ ๋ฐฉ์‹ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์„ ํƒ์ง€์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  3. ์‹ค์šฉ์ ์ธ ๊ฐ€์ด๋“œ๋ผ์ธ ์ œ๊ณต: LLM์„ ํ™œ์šฉํ•˜์—ฌ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‹ค์šฉ์ ์ธ ์ง€์นจ์„ ์ œ๊ณตํ•œ๋‹ค.
  4. ์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ… ์ œ์•ˆ: ๋ชจ๋ธ ๋ถˆ๊ฐ€์ง€๋ก ์ (model-agnostic) ๋ฐฉ๋ฒ•์ธ '์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ…'์„ ์ œ์•ˆํ•˜์—ฌ, LLM์ด ๋‚ด๋ถ€ ์ง€์‹์„ ํ™œ์šฉํ•ด ์ค‘๊ฐ„ ๊ตฌ์กฐ์  ์ง€์‹์„ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•œ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ CoT๋‚˜ Zero-shot-CoT์™€๋Š” ์ฐจ๋ณ„ํ™”๋œ ์ ‘๊ทผ ๋ฐฉ์‹์ด๋‹ค.

 

2. Preliminaries

 

 

 

์ด ์„น์…˜์—์„œ๋Š” ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์˜ ๋ณธ์งˆ์ ์ธ ๊ตฌ์กฐ์  ํŠน์„ฑ๊ณผ ์ด๋ฅผ LLM์ด ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ง๋ ฌํ™” ๊ณผ์ •์˜ ๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ, ๊ทธ๋ฆฌ๊ณ  LLM์˜ ์ž…๋ ฅ ๊ธธ์ด ์ œ์•ฝ์— ๋”ฐ๋ฅธ ๋ฌธ์ œ์ ๋“ค์„ ์ƒ์„ธํžˆ ๋‹ค๋ฃฌ๋‹ค.

 

ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋Š” ๋งค์šฐ ์œ ์—ฐํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๋Š”๋ฐ, ์ด๋Ÿฌํ•œ ๊ตฌ์กฐ์  ๋‹ค์–‘์„ฑ์€ LLM์—๊ฒŒ ํฐ ๋„์ „ ๊ณผ์ œ๊ฐ€ ๋œ๋‹ค.

  • ์œ ํ˜•: ๊ด€๊ณ„ํ˜• ํ…Œ์ด๋ธ”, ์—”ํ‹ฐํ‹ฐ ํ…Œ์ด๋ธ”, ๋งคํŠธ๋ฆญ์Šค ํ…Œ์ด๋ธ”, ๋ ˆ์ด์•„์›ƒ ํ…Œ์ด๋ธ” ๋“ฑ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๊ฐ€ ์กด์žฌํ•œ๋‹ค.
  • ๋ฐฉํ–ฅ์„ฑ: ํ…Œ์ด๋ธ”์€ ์ˆ˜ํ‰(horizontal) ์ •๋ ฌ ๋˜๋Š” ์ˆ˜์ง(vertical) ์ •๋ ฌ ๋ฐฉํ–ฅ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค.
  • ๊ณ„์ธต ๊ตฌ์กฐ: ํ‰๋ฉด ๊ตฌ์กฐ์—์„œ๋ถ€ํ„ฐ ๊ณ„์ธต์ (hierarchical) ๊ตฌ์กฐ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๋ณต์žก์„ฑ์˜ ์ŠคํŽ™ํŠธ๋Ÿผ์ด ๋„“๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ฃผ๋กœ ํ‰๋ฉด ๊ด€๊ณ„ํ˜• ํ…Œ์ด๋ธ”์— ์ดˆ์ ์„ ๋งž์ถ”์ง€๋งŒ, ๊ณ„์ธต์  ํ…Œ์ด๋ธ”์— ๋Œ€ํ•ด์„œ๋„ ๋…ผ์˜ํ•œ๋‹ค. ํ‰๋ฉด ํ…Œ์ด๋ธ”์—์„œ ๊ฐ ํ–‰์€ ๊ณ ์œ ํ•œ ๋ ˆ์ฝ”๋“œ์— ํ•ด๋‹นํ•˜๋ฉฐ, ์—ด์€ ๊ณ„์ธต์  ๋ฐฐ์—ด ์—†์ด ํŠน์ • ํ•„๋“œ(field)๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค.

๋˜ํ•œ, ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋Š” ๊ฐ’์„ ํฌ๋งทํŒ…ํ•˜๋Š” ๋‹ค์–‘ํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํฌํ•จํ•œ๋‹ค.

  • ํ…์ŠคํŠธ(Text): ํ—ค๋”, ๋ฉ”๋ชจ, ์บก์…˜ ๋ฐ ๋ฐ์ดํ„ฐ ์˜์—ญ ๋‚ด์˜ ์…€๊ณผ ๊ฐ™์€ ๋ฉ”ํƒ€ ์ •๋ณด๋ฅผ ์บก์ฒ˜ํ•˜๋Š” ๋ฐ ์ค‘์ถ”์ ์ธ ์—ญํ• ์„ ํ•œ๋‹ค. ํ…์ŠคํŠธ๋Š” ํ…Œ์ด๋ธ”์˜ ๋ฌธ๋งฅ์„ ์ œ๊ณตํ•˜๋Š” ํ•ต์‹ฌ ์š”์†Œ์ด๋‹ค.
  • ์ˆซ์ž(Numbers): ํ•ฉ๊ณ„ ๋ฐ ๋น„์œจ๊ณผ ๊ฐ™์€ ์‚ฐ์ˆ ์  ๊ด€๊ณ„๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ถ„ํฌ ๋ฐ ์ถ”์„ธ์™€ ๊ฐ™์€ ํ†ต๊ณ„์  ์†์„ฑ์„ ํฌํ•จํ•œ๋‹ค. ํ…Œ์ด๋ธ”์€ ์ข…์ข… ๊ผผ๊ผผํ•˜๊ฒŒ ์ •๋ฆฌ๋œ ์ˆ˜์น˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜์—ฌ ์ฐธ์กฐ์™€ ๋น„๊ต๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ตฌ์กฐํ™”๋œ ์ˆ˜์น˜ ๊ฐ’์€ ์Šคํ”„๋ ˆ๋“œ์‹œํŠธ ์ˆ˜์‹ ๋“ฑ์„ ํ†ตํ•ด ๋ฌธ์„œํ™”๋˜๊ธฐ๋„ ํ•œ๋‹ค.

ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์˜ ์ด๋Ÿฌํ•œ ์œ ์—ฐ์„ฑ์€ LLM์—๊ฒŒ ๋…ํŠนํ•œ ๋„์ „์„ ์ œ๊ธฐํ•œ๋‹ค. ์„œ๋กœ ๋‹ค๋ฅธ ํ…Œ์ด๋ธ”์€ ๊ตฌ์กฐ์™€ ํฌ๋งท์„ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ •์˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์™€ ์ž์—ฐ์–ด ์‚ฌ์ด์˜ ๊ฐ„๊ทน์€ ์ž์—ฐ์–ด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ง์ ‘์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉํ•ดํ•˜๋Š” ์š”์ธ์ด ๋œ๋‹ค.

 

ํ…Œ์ด๋ธ” ์ง๋ ฌํ™”(serialization)๋Š” 2์ฐจ์› ํ˜•ํƒœ์˜ ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํ˜•์ ์ด๊ณ  ์ˆœ์ฐจ์ ์ธ 1์ฐจ์› ํ…์ŠคํŠธ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋Š” ์–ธ์–ด ํŒจํ„ด์„ ์ดํ•ดํ•˜๊ณ  ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•œ masked language modeling๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ LLM์„ ํ›ˆ๋ จํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„์ด๋‹ค.

 

์ฃผ์š” ์ง๋ ฌํ™” ๋ฐฉ๋ฒ•๋ก ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

  1. Row-by-Row: ํ…Œ์ด๋ธ”์„ ํ–‰ ๋‹จ์œ„๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ์ง๋ ฌํ™”ํ•˜๋Š” ๊ฐ€์žฅ ๊ฐ„๋‹จํ•˜๊ณ  ์ง๊ด€์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค. TaPas , MATE , TableFormer , TUTA , TURL ๋“ฑ ๋‹ค์ˆ˜์˜ ์—ฐ๊ตฌ์—์„œ ์ฑ„ํƒ๋˜์—ˆ๋‹ค.
  2. Special Tokens: TaPEx ์™€ ๊ฐ™์€ ๋ชจ๋ธ์€ <HEAD>, <ROW>์™€ ๊ฐ™์€ ํŠน์ˆ˜ ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…Œ์ด๋ธ”์˜ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๊ตฌ๋ถ„ํ•œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๊ตฌ์กฐ๋ฅผ ํŒŒ์‹ฑํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค.
  3. Hybrid Serialization: TABBIE๋Š” ํ–‰ ๋ฐฉํ–ฅ๊ณผ ์—ด ๋ฐฉํ–ฅ์œผ๋กœ ๋ชจ๋‘ ์ง๋ ฌํ™”ํ•˜์—ฌ ๊ตฌ์กฐ์  ๋งฅ๋ฝ์„ ํ’๋ถ€ํ•˜๊ฒŒ ํ•œ๋‹ค.
  4. Template-based: TableGPT๋Š” ํ…œํ”Œ๋ฆฟ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํ…Œ์ด๋ธ” ๋ ˆ์ฝ”๋“œ์˜ ์†์„ฑ-๊ฐ’ ์Œ์„ ์ž์—ฐ์–ด ๋ฌธ์žฅ์œผ๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค.

 

LLM์˜ ์ž…๋ ฅ ๊ธธ์ด ์ œ์•ฝ๊ณผ ํšจ์œจ์„ฑ ๋ฌธ์ œ ๋˜ํ•œ ๊ณ ๋ คํ•ด์•ผ ํ•œ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ LLM์€ self-attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ํฐ ๋ณต์žก๋„(quadratic complexity)๋กœ ์ธํ•ด ๊ธด ๋ฌธ์žฅ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋น„ํšจ์œจ์ ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, text-Davinci-003 ๋ชจ๋ธ์˜ ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด๋Š” 4,096 ํ† ํฐ์œผ๋กœ ์ œํ•œ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ˆ˜์‹ญ, ์ˆ˜๋ฐฑ ๊ฐœ์˜ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํฌํ•จํ•˜๋ฏ€๋กœ ๋ฉ”๋ชจ๋ฆฌ ๋ฐ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ์ƒ๋‹นํ•œ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•œ๋‹ค.

 

์ผ๋ถ€ ์—ฐ๊ตฌ๋Š” ์ตœ๋Œ€ ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์ž…๋ ฅ์„ ๋‹จ์ˆœํžˆ ์ž˜๋ผ๋‚ด๋Š” naiveํ•œ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ–ˆ์œผ๋‚˜, ์ด๋Š” ์ค‘์š”ํ•œ ์ •๋ณด์˜ ์†์‹ค์„ ์ดˆ๋ž˜ํ•˜๊ณ  ์ „์ฒด ํ…Œ์ด๋ธ”์˜ ๊ตฌ์กฐ์  ๋ฌด๊ฒฐ์„ฑ์„ ํŒŒ๊ดดํ•  ์œ„ํ—˜์ด ์žˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  ๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ œ์•ฝ ์กฐ๊ฑด์„ ์‚ฌ์ „ ์ •์˜ํ•˜์—ฌ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.

  1. ๋ฌด์ž‘์œ„ ํ–‰ ์ƒ˜ํ”Œ๋ง (Random Row Sampling): ์ ˆ๋‹จ์œผ๋กœ ์ธํ•œ ์ž ์žฌ์  ํ˜ผ๋ž€์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด, ํ…Œ์ด๋ธ”์˜ ํ† ํฐ ์ˆ˜๊ฐ€ ํŠน์ • ์ž„๊ณ„๊ฐ’์„ ์ดˆ๊ณผํ•  ๊ฒฝ์šฐ ๋ฌด์ž‘์œ„ ํ–‰ ์ƒ˜ํ”Œ๋ง ์ „๋žต์„ ์‚ฌ์šฉํ•˜์—ฌ ์ „์ฒด๋ฅผ ํฌ๊ธฐํ•˜๊ณ  ์ผ๋ถ€ ํ–‰์„ ์ฝ๋Š” ๊ฒƒ์—๋งŒ ์ง‘์ค‘ํ•œ๋‹ค.
  2. 1-shot ์˜ˆ์ œ ์ถ”๊ฐ€: ์˜ˆ์ƒ๋˜๋Š” ๋‚จ์€ ํ† ํฐ ์šฉ๋Ÿ‰์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ 1-shot ์˜ˆ์ œ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์˜ ICL์„ ์ง€์›ํ•œ๋‹ค.

 

3. SUC Benchmark

 

 

์ด ์„น์…˜์—์„œ๋Š” ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์„ค๊ณ„๋ฅผ ๋น„๊ตํ•˜๊ณ  LLM์˜ ๊ตฌ์กฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ์‹ฌ์ธต์ ์œผ๋กœ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ SUC(Structural Understanding Capabilities) ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ƒ์„ค๋ช…ํ•œ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ์ด ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์„ ์ฐพ๊ณ ์ž ํ•œ๋‹ค.

  1. ์–ด๋–ค ์ž…๋ ฅ ์„ค๊ณ„์™€ ์„ ํƒ์ด LLM์ด ํ…Œ์ด๋ธ”์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ๊ฐ€?
  2. LLM์€ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์–ด๋А ์ •๋„์˜ ๊ตฌ์กฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ด๋ฏธ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋Š”๊ฐ€?
  3. ๋˜ํ•œ, ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์„ค๊ณ„ ์กฐํ•ฉ ๊ฐ„์˜ ๋ณต์žกํ•œ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„(trade-off)๋ฅผ ๋ถ„์„ํ•œ๋‹ค.

 

 

์—ฐ๊ตฌ์ง„์€ ์ธ๊ฐ„์˜ ๊ด€์ ์—์„œ ํ…Œ์ด๋ธ” ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ธ ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๋ฒ”์ฃผ๋กœ ๋ถ„๋ฅ˜ํ•˜์˜€๋‹ค.(Figure 1 ์ฐธ์กฐ).

ํ•˜๋‚˜๋Š” partition & parsing์ด๋ฉฐ, ๋‚˜๋จธ์ง€ ํ•˜๋‚˜๋Š” search & retrieval์ด๋‹ค.

 

3-1. Partition & Parsing

 

ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์…‹์€ ํŠน์ • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ข…์ข… ๋‹ค๋ฅธ ์†Œ์Šค์˜ ์ง€์‹๊ณผ ๊ฒฐํ•ฉ๋œ๋‹ค.

  • HybridQA : ํŒจ์‹œ์ง€(passage) ์ •๋ณด ํ™œ์šฉ
  • TabFact ๋ฐ FEVEROUS : ์ธ๊ฐ„ ์ฃผ์„ ํ™œ์šฉ
  • MultiModalQA : ์ด๋ฏธ์ง€ ์ •๋ณด ํ™œ์šฉ

์ด๋Ÿฌํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•œ ์ „์ œ ์กฐ๊ฑด์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๋ถ„ํ• (partitioning)ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ํ…Œ์ด๋ธ”์„ ๋‹ค๋ฅธ ๋ณด์ถฉ ์ •๋ณด์™€ ๊ตฌ๋ณ„ํ•˜๊ณ , ํ…Œ์ด๋ธ”์˜ ๊ตฌ์กฐ์  ๋ ˆ์ด์•„์›ƒ์„ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•˜๋‹ค.

 

๋˜ํ•œ, ๋ฐ์ดํ„ฐ ์ €์žฅ ํ˜•์‹์˜ ๋‹ค์–‘์„ฑ๋„ ์ค‘์š”ํ•œ ์š”์†Œ์ด๋‹ค. CSV, JSON, XML, Markdown, HTML , XLSX ๋“ฑ ๋‹ค์–‘ํ•œ ํ…Œ์ด๋ธ” ์ €์žฅ ํ˜•์‹์€ ๊ฐ๊ธฐ ๋‹ค๋ฅธ ์ˆ˜์ค€์˜ ์ •๋ณด ์••์ถ•์„ ๊ฐ€์ง€๋ฉฐ, LLM์ด ํ…Œ์ด๋ธ” ๋‚ด์šฉ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์žˆ์–ด ์„œ๋กœ ๋‹ค๋ฅธ ๋‚œ์ด๋„์˜ ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•œ๋‹ค.

 

LLM์€ ๋จผ์ € ํ…Œ์ด๋ธ”์˜ ํ˜•์‹์ด๋‚˜ ๋ ˆ์ด์•„์›ƒ์„ ์ดํ•ดํ•œ ๋‹ค์Œ, ๊ทธ ๋‚ด์šฉ์„ ํŒŒ์•…ํ•ด์•ผ ํ•œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” LLM์ด ๋‹ค์–‘ํ•œ ํฌ๋งท ์†Œ์Šค๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํŒŒ์‹ฑํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ณ , ์–ด๋–ค ์œ ํ˜•์˜ ์ž…๋ ฅ ์„ค๊ณ„๊ฐ€ ๊ฐ€์žฅ ์ ํ•ฉํ•œ์ง€ ์‹๋ณ„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

 

3-2. Search & Retrieval

ํŒŒํ‹ฐ์…˜ ๋ฐ ํŒŒ์‹ฑ ๋Šฅ๋ ฅ ์™ธ์—๋„, ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ ๋‚ด์˜ ํŠน์ • ์œ„์น˜์—์„œ ์ •๋ณด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์กฐํšŒํ•˜๋Š” ๋Šฅ๋ ฅ์€ LLM์—๊ฒŒ ํ•„์ˆ˜์ ์ด๋‹ค. ์ด ๋Šฅ๋ ฅ์€ Table-QA ๋ฐ ์—ด ์œ ํ˜• ๋ฐ ๊ด€๊ณ„ ๋ถ„๋ฅ˜๋ฅผ ํฌํ•จํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…๊ณผ ๋ฐ€์ ‘ํ•˜๊ฒŒ ๊ด€๋ จ๋˜์–ด ์žˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด LLM์€ ์‚ฌ์šฉ์ž ์ฟผ๋ฆฌ๋‚˜ ์š”์ฒญ์— ๋”ฐ๋ผ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ์—์„œ ๊ด€๋ จ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์‹๋ณ„ํ•˜๊ณ  ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ์˜ˆ์‹œ: ์‚ฌ์šฉ์ž๊ฐ€ "2014๋…„ ์ดํ›„์— ๊ฐœ์ตœ๋œ ์˜ฌ๋ฆผํ”ฝ ํ–‰์‚ฌ ์ค‘, ๋” ๋‚˜์ด ๋“  ๊ธฐ์ˆ˜๊ฐ€ ์žˆ์—ˆ๋˜ ํ–‰์‚ฌ๋Š” ๋ฌด์—‡์ธ๊ฐ€?"๋ผ๊ณ  ๋ฌป๋Š”๋‹ค๋ฉด, LLM์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ณตํ•ฉ์ ์ธ ๊ณผ์ •์„ ๊ฑฐ์ณ์•ผ ํ•œ๋‹ค.
    1. ์‹œ๊ฐ„ ๊ธฐ์ค€(2014๋…„ ์ดํ›„)์„ ๋งŒ์กฑํ•˜๋Š” ๋ชจ๋“  ์˜ฌ๋ฆผํ”ฝ ํ–‰์‚ฌ๋ฅผ ์ฐพ๋Š”๋‹ค (Locate)
    2. ๊ฐ ํ–‰์‚ฌ์™€ ๊ด€๋ จ๋œ ๊ธฐ์ˆ˜์˜ ๋‚˜์ด๋ฅผ ๋น„๊ตํ•œ๋‹ค (Compare)
    3. ์ตœ์ข…์ ์œผ๋กœ ๊ฐ€์žฅ ๋‚˜์ด ๋“  ๊ธฐ์ˆ˜๊ฐ€ ์žˆ๋Š” ํ–‰์‚ฌ๋ฅผ ๊ฒฐ์ •ํ•˜๊ณ  ๋ฐ˜ํ™˜ํ•œ๋‹ค (Return)

์ด ๊ณผ์ •์—์„œ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ ๋‚ด์—์„œ ๊ด€๋ จ ์ •๋ณด๋ฅผ ์ฐพ๋Š” ๊ฒƒ์€ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์ฃผ์˜ ๊นŠ๊ฒŒ ๋ถ„์„ํ•˜๊ณ  ๋ชฉํ‘œ ์…€(target cell)์„ ์‹๋ณ„ํ•จ์œผ๋กœ์จ ๋‹ฌ์„ฑ๋œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ๊ฒ€์ƒ‰ ๋ฐ ์กฐํšŒ ๋Šฅ๋ ฅ์„ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์—์„œ ๋ถ„๋ฆฌํ•จ์œผ๋กœ์จ, ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์™€ ๊ด€๋ จ๋œ LLM์˜ ๋‚ด๋ถ€ ํ•™์Šต ๊ณผ์ •์— ๋Œ€ํ•œ ๊ท€์ค‘ํ•œ ํ†ต์ฐฐ๋ ฅ์„ ์–ป๊ณ ์ž ํ•œ๋‹ค.

 

3-3. ์ž‘์—… ๋ฐ ๋ฒค์น˜๋งˆํฌ ์„ธํŠธ ์„ค๊ณ„

 

LLM์˜ ํ…Œ์ด๋ธ” ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋‚œ์ด๋„๊ฐ€ ์ ์ง„์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” 7๊ฐ€์ง€ ๊ตฌ์ฒด์ ์ธ ์ž‘์—…์„ ์„ค๊ณ„ํ–ˆ๋‹ค. ๊ฐ ์ž‘์—…์˜ ์ž…๋ ฅ ์„ค๊ณ„ ์˜ˆ์‹œ๋Š” ์•„๋ž˜๊ณผ ๊ฐ™๋‹ค.

์ž‘์—… (Task) ์ž…๋ ฅ ์งˆ๋ฌธ
Table Partition ์ฃผ์–ด์ง„ ํ…Œ์ด๋ธ”์˜ ์ฒซ ๋ฒˆ์งธ ํ† ํฐ(๊ตฌ๋ถ„์ž๊ฐ€ ์•„๋‹Œ ์…€ ๊ฐ’)์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?
์ฃผ์–ด์ง„ ํ…Œ์ด๋ธ”์˜ ๋งˆ์ง€๋ง‰ ํ† ํฐ์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?
Cell Lookup cell_value์˜ ์œ„์น˜๋Š” ์–ด๋””์ž…๋‹ˆ๊นŒ?
Reverse Lookup row_index, column_index์˜ ์…€ ๊ฐ’์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?
Column Retrieval ๋‹ค์Œ ํ…Œ์ด๋ธ”์—์„œ ์ธ๋ฑ์Šค column_idx๋ฅผ ๊ฐ€์ง„ ์—ด์˜ ์ด๋ฆ„์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?
Row Retrieval ๋‹ค์Œ ํ…Œ์ด๋ธ”์—์„œ row_idx ํ–‰์˜ ์…€ ๊ฐ’๋“ค์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?
Size Detection ํ…Œ์ด๋ธ”์—๋Š” ๋ช‡ ๊ฐœ์˜ ํ–‰์ด ์žˆ์Šต๋‹ˆ๊นŒ? ํ…Œ์ด๋ธ”์—๋Š” ๋ช‡ ๊ฐœ์˜ ์—ด์ด ์žˆ์Šต๋‹ˆ๊นŒ?
Merged Cell Detection ์ŠคํŒฌ(span)์ด 1์„ ์ดˆ๊ณผํ•˜๋Š” ์…€์˜ ์—ด ์ธ๋ฑ์Šค๋Š” ๋ฌด์—‡์ž…๋‹ˆ๊นŒ? `

 

 

  • + Table Partition: LLM์ด ๋‹ค์–‘ํ•œ ๋ณด์ถฉ ์ •๋ณด(์„ค๋ช…, ๋งฅ๋ฝ ๋“ฑ) ์†์—์„œ ํ…Œ์ด๋ธ”์˜ ์‹œ์ž‘๊ณผ ๋์„ ์ •ํ™•ํžˆ ์ธ์ง€ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•œ๋‹ค.
  • + Table Size Detection: ํ…Œ์ด๋ธ”์˜ ํฌ๊ธฐ๋Š” ํ–‰๊ณผ ์—ด์˜ ์ˆ˜์— ๋Œ€ํ•œ ์ง์ ‘์ ์ธ ์ œ์•ฝ ์กฐ๊ฑด์„ ๋‚˜ํƒ€๋‚ด๋ฏ€๋กœ, ์ด๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์€ ๊ตฌ์กฐ์  ์ดํ•ด์˜ ๊ธฐ๋ณธ์ด๋‹ค. ๋งŒ์•ฝ ํ…Œ์ด๋ธ”์ด 3๊ฐœ์˜ ์—ด๋งŒ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด, ์ถœ๋ ฅ์€ ์ด ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜์„œ๋Š” ์•ˆ ๋œ๋‹ค.
  • + Merged Cell Detection: ๋ณ‘ํ•ฉ๋œ ์…€์€ ์ธ์ ‘ํ•œ ๋‘ ๊ฐœ ์ด์ƒ์˜ ์…€์ด ๊ฒฐํ•ฉ๋œ ํŠน์ˆ˜ ๊ตฌ์กฐ๋กœ, ์ฃผ๋กœ ๊ณ„์ธต์  ์Šคํ”„๋ ˆ๋“œ์‹œํŠธ ํ…Œ์ด๋ธ”์—์„œ ๋ฐœ๊ฒฌ๋œ๋‹ค. ์ด๋ฅผ ๊ฐ์ง€ํ•˜๋Š” ๊ฒƒ์€ LLM์˜ ๊ฐ•๊ฑด์„ฑ(robustness)์„ ํ…Œ์ŠคํŠธํ•œ๋‹ค.
  • + Column & Row Retrieval: ์—ด/ํ–‰ ์ธ๋ฑ์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ๊ฐ’ ๋ชฉ๋ก์„ ์ฐพ๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค์ด๋ฏ€๋กœ, ์ด ์ž‘์—…์˜ ์„ฑ๋Šฅ์€ Cell Lookup๋ณด๋‹ค ๋†’์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋œ๋‹ค.

๋ณธ ๋ฒค์น˜๋งˆํฌ๋Š” TabFact, FEVEROUS, SQA, HybridQA, ToTTo ๋“ฑ ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ˆ˜์ง‘๋œ Wikipedia ๊ธฐ๋ฐ˜ ํ…Œ์ด๋ธ”๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค. ์›๋ณธ ๋ฐ์ดํ„ฐ ์ค‘ table, rows, headers์™€ ๊ฐ™์€ ๊ตฌ์กฐ์  ์š”์†Œ๋งŒ์„ ์‚ฌ์šฉํ•˜๊ณ , ID, Question, Answer, FileName ๋“ฑ ๋ฉ”ํƒ€ ์ •๋ณด๋Š” ์ œ์™ธํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ˆœ์ˆ˜ํ•œ ํ…Œ์ด๋ธ” ๊ตฌ์กฐ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์˜€๋‹ค. ๊ฐ ํ…Œ์ด๋ธ”์—๋Š” ๊ตฌ์กฐ์  ๊ฐ’์„ ์‹๋ณ„ํ•˜๋Š” ๋‹จ๋ฌธ ์งˆ๋ฌธ(์ค‘๊ฐ„ ๊ธธ์ด 15๋‹จ์–ด)์ด ๋ถ€์—ฌ๋˜์—ˆ์œผ๋ฉฐ, ๋ชจ๋“  ์งˆ๋ฌธ์€ ์›๋ณธ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์†Œ์‹ฑ๋œ ์ •๋‹ต๊ณผ ํ•จ๊ป˜ ์ œ๊ณต๋œ๋‹ค.

 

ํ‰๊ฐ€ ์‹ ๋ขฐ๋„๋ฅผ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด GPT-3.5(Text-Davinci-003)๋ฅผ ํ™œ์šฉํ•ด ์งˆ๋ฌธ ๋‚œ์ด๋„๋ฅผ ๊ฒ€์ฆํ•˜๊ณ , ์—ฌ๋Ÿฌ ์ƒ˜ํ”Œ๋ง์—์„œ๋„ ์ผ๊ด€๋˜๊ฒŒ ์ •๋‹ต์„ ๋งžํžˆ๋Š” ๊ณผ๋„ํ•˜๊ฒŒ ์‰ฌ์šด ์งˆ๋ฌธ์€ ์ œ๊ฑฐํ•˜์˜€๋‹ค. ๋ณ‘ํ•ฉ ์…€ ๊ฐ์ง€ ์ž‘์—…์€ ๋ณ‘ํ•ฉ ์…€ ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ToTTo ๋ฐ์ดํ„ฐ์…‹๋งŒ์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฉฐ, ๊ฐ ์ž‘์—… ์„ค์ •๋งˆ๋‹ค 1,500๊ฐœ์˜ ํ…Œ์ด๋ธ”์„ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•ด ํ…Œ์ŠคํŠธ ์…‹์„ ๊ตฌ์„ฑํ•˜์˜€๋‹ค.

 

SUC๋Š” ํ…Œ์ด๋ธ” ์ž‘์—…์„ ์œ„ํ•œ 1-shot ์ธ์ปจํ…์ŠคํŠธ ๋Ÿฌ๋‹ ๋ฒค์น˜๋งˆํฌ๋กœ ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๋ฏธ์„ธ ์กฐ์ • ์—†์ด ํ“จ์ƒท ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” LLM์˜ ์ฐฝ๋ฐœ์  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•œ๋‹ค. ๋น„๊ต๋ฅผ ์œ„ํ•ด ์ œ๋กœ์ƒท ์„ค์ • ์‹คํ—˜๋„ ํ•จ๊ป˜ ์ˆ˜ํ–‰ํ•˜์˜€๋‹ค.

 

ํ‰๊ฐ€๋Š” ์ •ํ™•๋„(Accuracy)๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ•˜์˜€์œผ๋ฉฐ, CSV, JSON, XML, Markdown, HTML, XLSX ๋“ฑ ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ํฌ๋งท๊ณผ ๊ตฌ๋ถ„์ž ๊ธฐ๋ฐ˜ ์„ ํ˜•ํ™” ๋ฐฉ์‹(NL+Sep, '|'์™€ ๊ฐ™์ด)์„ ๋ฒ ์ด์Šค๋ผ์ธ์œผ๋กœ ๋น„๊ตํ•˜์˜€๋‹ค. ๋˜ํ•œ ๋ฌธ๋ฒ• ์„ค๋ช…, ํŒŒํ‹ฐ์…˜ ๋งˆํฌ, ์—ญํ•  ํ”„๋กฌํ”„ํŒ…, ํฌ๋งท ์„ค๋ช… ๋“ฑ ์ž…๋ ฅ ์„ค๊ณ„ ์ฆ๊ฐ• ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ด ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ถ„์„ํ•˜์˜€๋‹ค. ์ถœ๋ ฅ ํ˜•์‹ ์ œ์•ฝ์„ ํ†ตํ•ด ์‘๋‹ต์˜ 90% ์ด์ƒ์ด ์ž๋™ ํ‰๊ฐ€๋˜์—ˆ์œผ๋ฉฐ, ๋‚˜๋จธ์ง€๋Š” ์ •๊ทœ ํ‘œํ˜„์‹ ๊ธฐ๋ฐ˜ ์˜๋ฏธ๋ก ์  ํŒŒ์‹ฑ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜์˜€๋‹ค.

 

4. ๊ตฌ์กฐ์  ํ”„๋กฌํ”„ํŒ… (Structural Prompting)

 

SUC ๋ฒค์น˜๋งˆํฌ ์‹คํ—˜ ๊ฒฐ๊ณผ(์„น์…˜ 5 ์ฐธ์กฐ)๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌ์ง„์€ ๋‘ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

  1. LLM์€ ๊ธฐ๋ณธ์ ์ธ ๊ตฌ์กฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ, ํ…Œ์ด๋ธ” ํฌ๊ธฐ ๊ฐ์ง€์™€ ๊ฐ™์€ ์‚ฌ์†Œํ•œ ์ž‘์—…์—์„œ๋„ ์™„๋ฒฝํ•˜์ง€ ์•Š๋‹ค.
  2. ์ž…๋ ฅ ์„ค๊ณ„์˜ ์กฐํ•ฉ์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ LLM์˜ ์ดํ•ด๋ฅผ ๋†’์ด๋Š” ์ž ์žฌ์  ์š”์ธ์ด๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐœ๊ฒฌ์„ ๋ฐ”ํƒ•์œผ๋กœ, ๋ณธ ์„น์…˜์—์„œ๋Š” LLM์˜ ์ž์ฒด ์ง€์‹ ๊ธฐ๋ฐ˜ ๋‚ด๋ถ€ ๊ฒ€์ƒ‰์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ค‘๊ฐ„ ๊ตฌ์กฐ์  ์ง€์‹์„ ์ƒ์„ฑํ•˜๋Š” ๊ฐ„๋‹จํ•˜๊ณ  ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์ธ ์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ…(Self-augmented Prompting)์„ ์ œ์•ˆํ•œ๋‹ค.

 

CoT(Chain of Thought) ๋Š” LLM์ด ํ…์ŠคํŠธ์— ๋Œ€ํ•ด ๋ณต์žกํ•œ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•จ์œผ๋กœ์จ ํฐ ๋ฐ˜ํ–ฅ์„ ์ผ์œผ์ผฐ๋‹ค. ์ถ”๋ก  ์‚ฌ์Šฌ์˜ ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ๋ฅผ ๋ชจ๋ธ์— ์ œ๊ณตํ•จ์œผ๋กœ์จ, LLM์€ ์–ด๋ ค์šด ๋ฏธ์ง€์˜ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํ…œํ”Œ๋ฆฟ์„ ๋”ฐ๋ฅด๋Š” ๋ฒ•์„ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Ÿฌํ•œ ์—ฐ๊ตฌ์—์„œ ์˜๊ฐ์„ ๋ฐ›์•„, ๋ณธ ์—ฐ๊ตฌ๋Š” LLM์˜ ์ž์ฒด ์ง€์‹์„ "์งœ๋‚ด์–ด(squeeze)" ์ค‘๊ฐ„ ๊ตฌ์กฐ์  ์ง€์‹์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๊ณ ์•ˆํ–ˆ๋‹ค.

 

 

์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ…์€ LLM์„ ๋‘ ๋ฒˆ ํ˜ธ์ถœํ•˜์—ฌ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ง๊ด€์ ์ธ ์•„์ด๋””์–ด์ด๋‹ค. ์ด ๊ณผ์ •์€ ์ž‘์—…์„ ๋‘ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆˆ๋‹ค.

  1. 1๋‹จ๊ณ„ (์ง€์‹ ์ƒ์„ฑ): ๋ชจ๋ธ์—๊ฒŒ ํ…Œ์ด๋ธ”์˜ ์ค‘์š”ํ•œ ๊ฐ’๊ณผ ํŒจํ„ด์„ ์‹๋ณ„ํ•˜๋„๋ก ํ”„๋กฌํ”„ํŠธํ•œ๋‹ค. LLM์—๊ฒŒ ๊ธฐ๋ณธ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์„ ์ง์ ‘ ํ•ด๊ฒฐํ•˜๋„๋ก ์š”์ฒญํ•˜๋Š” ๋Œ€์‹ , ์ดˆ๊ธฐ์—๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ํ”„๋กœ์„ธ์Šค์™€ ๊ด€๋ จ๋œ ์ค‘์š”ํ•œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋‚˜ ๋ฒ”์œ„๋ฅผ ์ถ”์ถœํ•˜๋„๋ก ๊ณผ์ œ๋ฅผ ๋ถ€์—ฌํ•œ๋‹ค.
    • ์ง€์‹œ ์˜ˆ์‹œ: "Identify critical values and ranges of the table related within five sentences." (ํ…Œ์ด๋ธ”์˜ ์ค‘์š”ํ•œ ๊ฐ’๊ณผ ๋ฒ”์œ„๋ฅผ 5๋ฌธ์žฅ ์ด๋‚ด๋กœ ์‹๋ณ„ํ•˜์‹œ์˜ค.)
    • ์ค‘๊ฐ„ ์ถœ๋ ฅ(Intermediate Output) ์˜ˆ์‹œ: "์ด ํ…Œ์ด๋ธ”์€ 1983๋…„๋ถ€ํ„ฐ 1989๋…„๊นŒ์ง€ Antoine Salamin์˜ ๊ฒฐ๊ณผ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฐ’์€ ๋ ˆ์ด์Šค ํšŸ์ˆ˜์ž…๋‹ˆ๋‹ค. ๋ ˆ์ด์Šค์˜ ๋ฒ”์œ„๋Š” 1์—์„œ 4๊นŒ์ง€์ž…๋‹ˆ๋‹ค(...) ํฌ๋””์›€์˜ ๋ฒ”์œ„๋Š” 0์—์„œ 3๊นŒ์ง€์ž…๋‹ˆ๋‹ค(...)"
  2. 2๋‹จ๊ณ„ (์ตœ์ข… ๋‹ต๋ณ€ ๋„์ถœ): LLM์— ์˜ํ•ด ์‹๋ณ„๋˜๊ณ  ๊ฐœ๋žต์ ์œผ๋กœ ์„ค๋ช…๋œ ๊ด€๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒˆ๋กœ์šด ํ”„๋กฌํ”„ํŠธ์˜ ์ผ๋ถ€๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ด์ œ ์›๋ž˜ ์ž‘์—…์— ์ง‘์ค‘ํ•œ๋‹ค. ์ฒซ ๋ฒˆ์งธ ํ”„๋กฌํ”„ํŠธ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‘ ๋ฒˆ์งธ ํ”„๋กฌํ”„ํŠธ์— ํ†ตํ•ฉํ•จ์œผ๋กœ์จ, ํ”„๋กœ์„ธ์Šค๋Š” LLM์ด ์ตœ์ข… ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š” ๋™์•ˆ ์ด๋Ÿฌํ•œ ์ค‘์š”ํ•œ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•˜๋„๋ก ํšจ๊ณผ์ ์œผ๋กœ ์•ˆ๋‚ดํ•œ๋‹ค. ์ด๋Š” ์‘๋‹ต์˜ ๊ด€๋ จ์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.
์ž๊ฐ€ ์ฆ๊ฐ•, ์ด ๋ฐฉ๋ฒ•์€ CoT๋‚˜ Zero-shot-CoT ์™€๋Š” ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์ด ์ถ”๋ก ์˜ ๊ณผ์ •(step-by-step reasoning)์— ์ง‘์ค‘ํ–ˆ๋‹ค๋ฉด, ์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ…์€ ๊ตฌ์กฐํ™”๋œ ์ •๋ณด๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๊ตฌ์กฐ๋ฅผ ํ’€์–ด์ฃผ๋Š”? ์—ญํ• ์„ ํ•˜๋Š”๋“ฏ ํ•˜๋„ค์š”. 

 

์ž๊ฐ€ ์ฆ๊ฐ• ์™ธ์—๋„, ๊ฒฝํ—˜์  ๊ด€์ฐฐ์— ๋”ฐ๋ฅด๋ฉด ๊ตฌ์กฐ์  ์ •๋ณด๊ฐ€ ํ…Œ์ด๋ธ” ์ดํ•ด์— ๊ฒฐ์ •์ ์ธ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ๋ถ„๋ช…ํ•˜๋‹ค. ์ผ๋ถ€ ์—ฐ๊ตฌ๋“ค์€ ๋‹ค์–‘ํ•œ ๊ตฌ์กฐ์  ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๊ธฐ ์œ„ํ•ด ํŠน์ˆ˜ ํ† ํฐ์ด ํฌํ•จ๋œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์ง„์ „์„ ์ด๋ฃจ์—ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ SUC ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ, ์›์‹œ ์ž…๋ ฅ(raw input)์—์„œ ๊ตฌ์กฐ์  ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜์—ฌ ์ž…๋ ฅ ์ž์ฒด์— ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ถ”๊ฐ€๋กœ ํƒ๊ตฌํ•œ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด ๊ตฌ์กฐ์  ํŠน์ง•์„ ๋ช…์‹œํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์„ ์ ์šฉํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์…€ ์ฃผ์†Œ(2x2 ๋“ฑ)๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ํ…Œ์ด๋ธ”์˜ ํ–‰๊ณผ ์—ด ์ˆ˜๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ํ‘œ์‹œํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

5. Experiments

 

  • ๋ชจ๋ธ: ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ฃผ๋กœ **GPT-3.5 (text-davinci-003)**๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ๋น„๊ต๋ฅผ ์œ„ํ•ด GPT-4 ์—์„œ๋„ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. ์‹คํ—˜ ์ˆ˜ํ–‰ ์‹œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ temperature๋Š” 0, top_p๋Š” 1๋กœ ์„ค์ •ํ•œ๋‹ค.
  • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—… ๋ฐ ๋ฐ์ดํ„ฐ์…‹: LLM์˜ ๊ตฌ์กฐ์  ๋ฐ์ดํ„ฐ ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด 5๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ํ…Œ์ด๋ธ” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์„ ์‚ฌ์šฉํ–ˆ๋‹ค.
    1. SQA: 6,066๊ฐœ์˜ ์งˆ๋ฌธ ์‹œํ€€์Šค๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ณ ๋„๋กœ ๊ตฌ์„ฑ์ ์ธ WTQ ์งˆ๋ฌธ์„ ๋ถ„ํ•ดํ•˜์—ฌ ์ƒ์„ฑ๋˜์—ˆ๋‹ค. ํ‰๊ท  ์‹œํ€€์Šค ๊ธธ์ด๋Š” 2.9๊ฐœ ์งˆ๋ฌธ์ด๋‹ค.
    2. HybridQA: ๋™์ข… ์ •๋ณด(ํ…Œ์ด๋ธ”)๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด์ข… ์ •๋ณด(ํ…์ŠคํŠธ)์— ๋Œ€ํ•œ ์ถ”๋ก ์ด ํ•„์š”ํ•œ 62,682๊ฐœ์˜ ์งˆ๋ฌธ์„ ํฌํ•จํ•œ๋‹ค. ๊ฐ ์งˆ๋ฌธ์€ ์œ„ํ‚คํ”ผ๋””์•„ ํ…Œ์ด๋ธ” ๋ฐ ์—”ํ‹ฐํ‹ฐ์™€ ์—ฐ๊ฒฐ๋œ ์ž์œ  ํ˜•์‹ ์ฝ”ํผ์Šค์™€ ์ •๋ ฌ๋œ๋‹ค.
    3. ToTTo: ์œ„ํ‚คํ”ผ๋””์•„ ํ…Œ์ด๋ธ”์˜ ๊ฐ•์กฐ๋œ ์…€์„ ์„ค๋ช…ํ•˜๋Š” ์ž์—ฐ์–ด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ณ ํ’ˆ์งˆ ์˜์–ด ํ…Œ์ด๋ธ”-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.
    4. FEVEROUS: 87,026๊ฐœ์˜ ๊ฒ€์ฆ๋œ ์ฃผ์žฅ(claims)์œผ๋กœ ๊ตฌ์„ฑ๋œ ํŒฉํŠธ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹. ๊ฐ ์ฃผ์žฅ์€ ์œ„ํ‚คํ”ผ๋””์•„์˜ ๋ฌธ์žฅ์ด๋‚˜ ํ…Œ์ด๋ธ” ์…€ ํ˜•ํƒœ์˜ ์ฆ๊ฑฐ์™€ ํ•จ๊ป˜ ์ฃผ์„ ์ฒ˜๋ฆฌ๋˜์–ด ์žˆ๋‹ค.
    5. TabFact: ์œ„ํ‚คํ”ผ๋””์•„์—์„œ ์ถ”์ถœํ•œ ํ…Œ์ด๋ธ”๊ณผ ํฌ๋ผ์šฐ๋“œ ์›Œ์ปค๊ฐ€ ์ž‘์„ฑํ•œ ๋ฌธ์žฅ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ํŒฉํŠธ ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค.

 

 

Table 2๋Š” 5๊ฐ€์ง€ ์ฃผ์š” ์ž…๋ ฅ ํฌ๋งท(NL+Sep, Markdown, JSON, XML, HTML)์— ๋Œ€ํ•ด 7๊ฐ€์ง€ SUC ํƒœ์Šคํฌ๋ฅผ ์ˆ˜ํ–‰ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ์‹คํ—˜์€ ์ฃผ๋กœ GPT-3.5๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ–ˆ์œผ๋‚˜, ์ž์› ์ง‘์•ฝ์ ์ธ GPT-4์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ ํƒœ์Šคํฌ ์„ธํŠธ์—์„œ ๋ฌด์ž‘์œ„ 300๊ฐœ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•˜์—ฌ ์ถ”๋ก  ํ…Œ์ŠคํŠธ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.   

  1. HTML์˜ ์šฐ์ˆ˜์„ฑ:
    • Table Partition: HTML ํฌ๋งท์€ 96.67%์˜ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ํ…Œ์ด๋ธ”์˜ ๊ฒฝ๊ณ„๋ฅผ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ๊ฐ€์žฅ ํšจ๊ณผ์ ์ด์—ˆ๋‹ค.
    • Size Detection: ํ…Œ์ด๋ธ”์˜ ํ–‰๊ณผ ์—ด ๊ฐœ์ˆ˜๋ฅผ ํŒŒ์•…ํ•˜๋Š” ์ด ํƒœ์Šคํฌ์—์„œ HTML(67.00%)์€ ๊ธฐ์กด์˜ NL+Sep(42.00%)๋‚˜ Markdown(40.67%)์„ ์••๋„ํ–ˆ๋‹ค.
    • Column Retrieval: ์—ด ์ด๋ฆ„์„ ๊ฒ€์ƒ‰ํ•˜๋Š” ํƒœ์Šคํฌ์—์„œ๋„ HTML(63.33%)์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.
    • LLM์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์›น ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค์ˆ˜ ํฌํ•จ๋˜์–ด ์žˆ์–ด, ๋ชจ๋ธ์ด <tr>, <td>์™€ ๊ฐ™์€ HTML ํƒœ๊ทธ๋ฅผ ํ†ตํ•ด ๊ตฌ์กฐ๋ฅผ ํŒŒ์‹ฑํ•˜๋Š” ๋ฐ ์ด๋ฏธ ์ต์ˆ™ํ•ด์ ธ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.
  2. GPT-4์˜ ์••๋„์  ์„ฑ๋Šฅ:
    • GPT-4(ํŒŒ๋ž€์ƒ‰ ์—ด)๋Š” ๋ชจ๋“  ํฌ๋งท๊ณผ ํƒœ์Šคํฌ์—์„œ GPT-3.5๋ฅผ ํฌ๊ฒŒ ์ƒํšŒํ–ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์™€ ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๊ตฌ์กฐ์  ํŒŒ์‹ฑ ๋Šฅ๋ ฅ๊ณผ ์ง๊ฒฐ๋จ์„ ๋ณด์—ฌ์ค€๋‹ค.
  3. ํฌ๋งท๋ณ„ ํŠนํ™” ์˜์—ญ:
    • Markdown: Merged Cell Detection(๋ณ‘ํ•ฉ๋œ ์…€ ๊ฐ์ง€) ํƒœ์Šคํฌ์—์„œ๋Š” Markdown(78.00%)์ด HTML(76.67%)๋ณด๋‹ค ์†Œํญ ์•ž์„œ๋ฉฐ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” Markdown์˜ ๋‹จ์ˆœํ•œ ํ‘œ๊ธฐ๋ฒ•์ด ๋ณ‘ํ•ฉ๋œ ์…€๊ณผ ๊ฐ™์€ ํŠน์ • ์‹œ๊ฐ์ /๊ตฌ์กฐ์  ํŠน์ง•์„ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ์Œ์„ ์•”์‹œํ•œ๋‹ค.
    • NL+Sep (Natural Language + Separator): ๊ธฐ์กด ์—ฐ๊ตฌ์—์„œ ํ”ํžˆ ์“ฐ์ด๋˜ ๋ฐฉ์‹์ด์ง€๋งŒ, Size Detection(42.00%) ๋“ฑ ๊ตฌ์กฐ์  ํŒŒ์‹ฑ์ด ํ•„์š”ํ•œ ์ž‘์—…์—์„œ ๋งˆํฌ์—… ์–ธ์–ด(Markup Language) ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋‹ค.

 

 

Table 3์€ ์ตœ์ ์˜ ์กฐํ•ฉ(HTML + ํฌ๋งท ์„ค๋ช… + ์—ญํ•  ํ”„๋กฌํ”„ํŠธ + ์ˆœ์„œ ๋ณ€๊ฒฝ ์—†์Œ)์„ ๊ธฐ์ค€์œผ๋กœ, ํŠน์ • ์š”์†Œ๋ฅผ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.

  1. 1-shot์˜ ๊ฒฐ์ •์  ์—ญํ•  (w/o 1-shot):
    • 1-shot ์˜ˆ์ œ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ์ œ๋กœ์ƒท(Zero-shot)์œผ๋กœ ์ˆ˜ํ–‰ํ–ˆ์„ ๋•Œ, Table Partition ์ •ํ™•๋„๊ฐ€ 33.67% ๊ธ‰๋ฝํ–ˆ๊ณ , Merged Cell Detection์€ 38.67%๋‚˜ ๋–จ์–ด์กŒ์œผ๋ฉฐ Size Detection์€ ๋ฌด๋ ค ์•ฝ 50%๊ฐ€ ๋–จ์–ด์กŒ๋‹ค.
    • ๊ตฌ์กฐ์  ์ดํ•ด ๋Šฅ๋ ฅ์€ ์‚ฌ์ „ ํ•™์Šต๋งŒ์œผ๋กœ ์–ด๋ ค์šฐ๋ฉฐ, ์˜ˆ์‹œ๋ฅผ ์ œ๊ณต๋ฐ›์„ ๋•Œ ๊ทธ ๋Šฅ๋ ฅ์ด ๋ฐœํ˜„๋œ๋‹ค.
  2. ์™ธ๋ถ€ ํ…์ŠคํŠธ์˜ ์ˆœ์„œ (w/o change order):
    • ๋…ผ๋ฌธ์—์„œ "Change order"๋Š” ์งˆ๋ฌธ์ด๋‚˜ ์„ค๋ช… ๊ฐ™์€ ์™ธ๋ถ€ ํ…์ŠคํŠธ๋ฅผ ํ…Œ์ด๋ธ” ์•ž์— ๋ฐฐ์น˜ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด๋ฅผ ์ œ๊ฑฐํ•˜๊ณ (์ฆ‰, ํ…์ŠคํŠธ๋ฅผ ํ…Œ์ด๋ธ” ๋’ค์— ๋ฐฐ์น˜ํ–ˆ์„ ๋•Œ) ์„ฑ๋Šฅ ๋ณ€ํ™”๋ฅผ ๋ณด๋ฉด, Size Detection์—์„œ 14.33%์˜ ์„ฑ๋Šฅ ํ•˜๋ฝ์ด ๋ฐœ์ƒํ–ˆ๋‹ค.
    • ํ…์ŠคํŠธ๋ฅผ ๋จผ์ € ์ œ์‹œํ•˜๋Š” ๊ฒƒ์ด LLM์œผ๋กœ ํ•˜์—ฌ๊ธˆ ํ…Œ์ด๋ธ”์„ ์ฝ๊ธฐ ์ „์— ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•˜๊ณ  "๋ฌด์—‡์„ ์ฐพ์•„์•ผ ํ• ์ง€" ์ค€๋น„์‹œํ‚ค๋Š” ํšจ๊ณผ๋ฅผ ์ค€๋‹ค.
  3. ํฌ๋งท ์„ค๋ช… ๋ฐ ํŒŒํ‹ฐ์…˜ ๋งˆํฌ:
    • "ํฌ๋งท ์„ค๋ช…(format explanation)"์„ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ Table Partition ์„ฑ๋Šฅ์€ 4.67% ํ•˜๋ฝํ–ˆ์ง€๋งŒ, Cell Lookup ์„ฑ๋Šฅ์€ ์˜คํžˆ๋ ค 8.00% ์ƒ์Šนํ–ˆ๋‹ค.
    • ๊ตฌ์กฐ์— ๋Œ€ํ•œ ๊ณผ๋„ํ•œ ์„ค๋ช…์ด๋‚˜ ๋งˆํฌ๋Š” ์ „์ฒด์ ์ธ ํŒŒ์‹ฑ์—๋Š” ๋„์›€์„ ์ฃผ์ง€๋งŒ, ํŠน์ • ๊ฐ’์„ ์ฐพ์•„์•ผ ํ•˜๋Š” ๊ฒ€์ƒ‰(Retrieval) ๊ณผ์ •์—์„œ๋Š” ์˜คํžˆ๋ ค ๋…ธ์ด์ฆˆ๋กœ ์ž‘์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ฃผ์˜๋ฅผ ๋ถ„์‚ฐ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

 

 

Table 4๋Š” ์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ… (SA Prompting)์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.

  1. ์ž๊ฐ€ ์ฆ๊ฐ•(SA) vs 1-shot:
    • ๋‹จ์ˆœํžˆ 1-shot ์˜ˆ์ œ๋ฅผ ์ฃผ๋Š” ๊ฒƒ๋ณด๋‹ค, ๋ชจ๋ธ์—๊ฒŒ "์ค‘์š”ํ•œ ๊ฐ’๊ณผ ๋ฒ”์œ„๋ฅผ ์‹๋ณ„ํ•˜๋ผ"๊ณ  ๋จผ์ € ์‹œํ‚จ ๋’ค(SA) ๋ฌธ์ œ๋ฅผ ํ’€๊ฒŒ ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.
    • LLM์ด ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•˜๊ณ  ๊ตฌ์กฐ์  ํžŒํŠธ๋ฅผ ์ƒ์„ฑํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ, ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ์ถฉ๋ถ„ํžˆ ๋ฐœํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค.
  2. ์ˆ˜๋™ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ํ•œ๊ณ„:
    • ์‚ฌ๋žŒ์ด ์ˆ˜๋™์œผ๋กœ ํฌ๋งท ์„ค๋ช…์„ ์ ์–ด์ค€ ๊ฒฝ์šฐ๋ณด๋‹ค, ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ํฌ๋งท ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๊ฒŒ ํ•œ ๊ฒฝ์šฐ("SA self format explanation")๊ฐ€ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์˜€๋‹ค.

 

Table 5๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ํƒœ์Šคํฌ์—์„œ์˜ ๋‹ค์–‘ํ•œ ํฌ๋งท์„ ๋น„๊ต ๋ถ„์„ํ•œ๋‹ค.

  1. HTML์˜ ์šฐ์ˆ˜์„ฑ:
    • ToTTo๋ฅผ ์ œ์™ธํ•˜๊ณ  ๋ชจ๋“  task์—์„œ ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜์˜€๋‹ค.
  2. GPT-4 + HTML:
    • ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ(GPT-4)๊ณผ ์ตœ์ ์˜ ์ž…๋ ฅ ์„ค๊ณ„(HTML)๊ฐ€ ๊ฒฐํ•ฉ๋˜์—ˆ์„ ๋•Œ, ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ ์ดํ•ด ๋Šฅ๋ ฅ์€ ๊ทน๋Œ€ํ™”๋œ๋‹ค.

 

์‹คํ—˜ ๊ฒฐ๊ณผ ์š”์•ฝ

 

  • ํฌ๋งท: HTML์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•จ.
  • ์ˆœ์„œ: ์งˆ๋ฌธ์ด๋‚˜ ์„ค๋ช…์„ ํ…Œ์ด๋ธ” ์•ž์— ๋ฐฐ์น˜ํ•˜๋ผ.
  • ํ”„๋กฌํ”„ํŒ…: ๋‹จ์ˆœ 1-shot์„ ๋„˜์–ด, ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์ •๋ณด๋ฅผ ์ •์ œํ•˜๊ฒŒ ํ•˜๋Š” ์ž๊ฐ€ ์ฆ๊ฐ•(SA) ๊ธฐ๋ฒ•์ด ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ์ •๋ณด๋Ÿ‰ ์กฐ์ ˆ: ๊ฒ€์ƒ‰(Retrieval)์ด ์ฃผ๋œ ๋ชฉ์ ์ด๋ผ๋ฉด ๊ณผ๋„ํ•œ ๊ตฌ์กฐ ์„ค๋ช…์€ ๋นผ๊ณ , ํŒŒ์‹ฑ(Parsing)์ด ๋ชฉ์ ์ด๋ผ๋ฉด ๊ตฌ์กฐ ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•˜๋ผ. 

 

6. ๊ฒฐ๋ก  (Conclusion)

 

๋ณธ ๋…ผ๋ฌธ์€ LLM๊ณผ ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ์˜ ์œตํ•ฉ์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ํƒ๊ตฌํ•˜๋ฉฐ, ์‹คํ—˜์„ ํ†ตํ•ด ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ๋ฐ์ดํ„ฐ ํ‘œํ˜„ ๋ฐฉ์‹์ด ๋ฌด์—‡์ธ์ง€ ๋ช…ํ™•ํžˆ ๊ทœ๋ช…ํ–ˆ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๋ฅผ ๊ฐ€์ง„๋‹ค. ์—ฐ๊ตฌ์ง„์€ ๋‹จ์ˆœํžˆ ํ…Œ์ด๋ธ”์„ ํ…์ŠคํŠธ๋กœ ๋‚˜์—ดํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๋‹ค์–‘ํ•œ ์ง๋ ฌํ™”(Serialization) ๋ฐฉ์‹๊ณผ ์ž…๋ ฅ ์„ค๊ณ„๊ฐ€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋น„๊ต ๋ถ„์„ํ•˜์˜€๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, HTML๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ์  ๋งˆํฌ์—… ์–ธ์–ด์˜ ํ™œ์šฉ๊ณผ '์ž๊ฐ€ ์ฆ๊ฐ• ํ”„๋กฌํ”„ํŒ…(Self-augmented Prompting)'์˜ ๊ฒฐํ•ฉ์ด LLM์˜ ํ…Œ์ด๋ธ” ์ดํ•ด๋„๋ฅผ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค๋Š” ์œ ํšจํ•œ ๊ฒฐ๊ณผ๋ฅผ ์‹ค์ฆ์ ์œผ๋กœ ์ž…์ฆํ•˜์˜€๋‹ค. ์ด๋Š” LLM์ด ์ •ํ˜• ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์  ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ์žˆ์–ด, ์ตœ์ ํ™”๋œ ์ž…๋ ฅ ์„ค๊ณ„๊ฐ€ ํ•„์ˆ˜์ ์ž„์„ ์‹œ์‚ฌํ•œ๋‹ค. ์•ž์œผ๋กœ ์ด ์—ฐ๊ตฌ๋Š” ๊ตฌ์กฐํ™”๋œ ์ง€์‹๊ณผ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์œ ๊ธฐ์ ์œผ๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ, ํ…Œ์ด๋ธ” ์ฒ˜๋ฆฌ์˜ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ํ•ต์‹ฌ์ ์ธ ๊ธฐ๋ฐ˜์ด ๋  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•œ๋‹ค.

 

์ด ๋…ผ๋ฌธ์€ ๋ง‰์—ฐํ–ˆ๋˜ 'LLM์˜ ํ…Œ์ด๋ธ” ์ดํ•ด'๋ผ๋Š” ์ฃผ์ œ๋ฅผ ์ฒด๊ณ„์ ์ธ ๋ฒค์น˜๋งˆํฌ(SUC)๋กœ ํ’€์–ด๋‚ด๋ฉฐ, ์ˆ˜๋งŽ์€ ์ž…๋ ฅ ์„ ํƒ์ง€ ์ค‘ ํšจ๊ณผ์ ์ธ ์„ ํƒ์ง€์— ๋Œ€ํ•œ ํžŒํŠธ๋ฅผ ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์†”์งํžˆ ๋…ผ๋ฌธ์—์„œ ์ „๋‹ฌํ•˜๋Š” ๋‚ด์šฉ์ด ์›Œ๋‚™ ๋งŽ์•„ ๊ฐ€๋…์„ฑ์ด ์ข‹์€ ๋…ผ๋ฌธ์ธ ๊ฒƒ ๊ฐ™์ง„ ์•Š์ง€๋งŒ, ํฅ๋ฏธ๋กœ์šด ์‹คํ—˜ ๊ฒฐ๊ณผ๊ฐ€ ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ง์ ‘ ์‹คํ—˜ํ•˜์‹ค ๊ฒƒ์ด ์•„๋‹ˆ๋ผ๋ฉด, ๊ตณ์ด ๊ผผ๊ผผํžˆ ๋ถ„์„ํ•ด๊ฐ€๋ฉฐ ์ •๋…ํ•  ํ•„์š”๋Š” ์—†๊ฒ ์ง€๋งŒ, ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ๋ถ„๋ช… ์‹œ์‚ฌ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ €์ž๋“ค์ด ์‹คํ—˜์„ ํ†ตํ•ด ์ฆ๋ช…ํ•œ 'HTML ํฌ๋งท์˜ ์šฐ์ˆ˜์„ฑ'๊ณผ '๊ตฌ์กฐ์  ์„ค๋ช… ๋ฐฐ์น˜' ๋“ฑ์„ ํ™•์ธํ•ด ๋ณด์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค. ์ € ๊ฐœ์ธ์ ์œผ๋กœ๋„ ์—ฐ๊ตฌ ์ดˆ๊ธฐ์—๋Š” ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ LLM์— ๋˜์ ธ์ค˜์•ผ ํ• ์ง€ ๊ณ ๋ฏผํ•˜๋ฉฐ ์—ฌ๋Ÿฌ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹น์‹œ์—” ๋ง‰์—ฐํžˆ ๋ฃฐ ๊ธฐ๋ฐ˜์˜ ์ง๋ ฌํ™” ๊ธฐ๋ฒ•์„ ์ผ๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ์„ ํ†ตํ•ด ์ตœ์ ์˜ ํ‘œํ˜„ ๋ฐฉ์‹์— ๋Œ€ํ•ด ๋” ๊ณ ๋ฏผํ•ด๋ณผ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์•„๋ฌดํŠผ ๋ชจ๋“  ํ•™์ƒ, ์—ฐ๊ตฌ์ž, ์‹ค๋ฌด์ž ๋ถ„๋“ค ์‘์›ํ•ฉ๋‹ˆ๋‹ค!

 

 

https://arxiv.org/abs/2305.13062

 

Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study

Large language models (LLMs) are becoming attractive as few-shot reasoners to solve Natural Language (NL)-related tasks. However, the understanding of their capability to process structured data like tables remains an under-explored area. While tables can

arxiv.org

 

'๐Ÿ‘จโ€๐Ÿ’ป About AI > Paper Review' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[NLP] Retrieval-Augmented Generation for Large Language Models: A Survey  (0) 2025.12.11
[LTSF] Less Is More - Fast Multivariate Time Series Forecasting with Light Sampling-oriented MLP Structures (2022)  (0) 2023.04.28
[LTSF] RNN, LSTM(Long Short-Term Memory)  (0) 2023.04.06
[LTSF] Are Transformers Effective for Time Series Forecasting?(2022)  (0) 2023.04.02
[LTSF] Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting (2021)  (3) 2023.03.27
'๐Ÿ‘จ‍๐Ÿ’ป About AI/Paper Review' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
  • [NLP] Retrieval-Augmented Generation for Large Language Models: A Survey
  • [LTSF] Less Is More - Fast Multivariate Time Series Forecasting with Light Sampling-oriented MLP Structures (2022)
  • [LTSF] RNN, LSTM(Long Short-Term Memory)
  • [LTSF] Are Transformers Effective for Time Series Forecasting?(2022)
reign
reign
Business์™€ AI๋ฅผ ๋ฆฌ๋ทฐํ•ฉ๋‹ˆ๋‹ค
  • reign
    Biz with Data
    reign
    • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (25)
      • ๐Ÿคต About Business (6)
        • BIZ ์นผ๋Ÿผ (6)
      • ๐Ÿ‘จ‍๐Ÿ’ป About AI (19)
        • AI ์นผ๋Ÿผ (4)
        • Paper Review (8)
        • ๋จธ์‹ ๋Ÿฌ๋‹ (7)
  • ๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

    • ํ™ˆ
    • ํƒœ๊ทธ
    • ๋ฐฉ๋ช…๋ก
  • ๋งํฌ

    • github
  • ์ตœ๊ทผ ๋Œ“๊ธ€

  • ์ตœ๊ทผ ๊ธ€

  • hELLOยท Designed By์ •์ƒ์šฐ.v4.10.5
reign
[NLP] Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study
์ƒ๋‹จ์œผ๋กœ

ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”