본문으로 이동

언어 자원

위키백과, 우리 모두의 백과사전.

언어 자원(language resource)은 언어학언어 기술에서 "언어 처리 응용 프로그램의 구성, 개선 및 평가, (...) 언어 및 언어 매개 연구 및 응용에 사용되는 언어 자료의 [구성]"이다.[1]

버드와 시몬스(2003)에 따르면[2] 여기에는 다음이 포함된다.

  1. 데이터, 즉 "출판된 논문, 컴퓨터 데이터 파일, 심지어 손으로 쓴 색인 카드로 가득 찬 신발 상자와 같이 언어를 문서화하거나 설명하는 모든 정보이다. 정보의 내용은 분석되지 않은 녹음물부터 완전히 기록되고 주석이 달린 것까지 다양할 수 있다. 완전한 설명 문법에 대한 텍스트",
  2. 도구, 즉 "언어 데이터의 생성, 보기, 쿼리 또는 기타 사용을 용이하게 하는 계산 리소스"
  3. 조언, 즉 "어떤 데이터 소스가 신뢰할 수 있는지, 어떤 도구가 주어진 상황에 적합한지, 새로운 데이터를 생성할 때 따라야 할 관행에 대한 정보"이다. 후자의 측면은 일반적으로 "모범 사례" 또는 "(커뮤니티) 표준"이라고 한다.

더 좁은 의미에서, 언어 자원은 특히 디지털 형식으로 이용 가능한 자원에 적용되며, "(a) 데이터 세트(텍스트, 다중 모드/멀티미디어 및 어휘 데이터, 문법, 언어 모델 등)를 기계가 읽을 수 있는 형태로 포괄한다." (b) 해당 양식의 처리 및 관리에 사용되는 도구/기술/서비스를 가리킨다".

각주[편집]

  1. LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group, W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020
  2. Bird, Steven; Simons, Gary (2003년 11월 1일). “Extending Dublin Core Metadata to Support the Description and Discovery of Language Resources”. 《Computers and the Humanities》 (영어) 37 (4): 375–388. arXiv:cs/0308022. Bibcode:2003cs........8022B. doi:10.1023/A:1025720518994. ISSN 1572-8412. S2CID 5969663.