언어 자원

언어 자원(language resource)은 언어학 및 언어 기술에서 "언어 처리 응용 프로그램의 구성, 개선 및 평가, (...) 언어 및 언어 매개 연구 및 응용에 사용되는 언어 자료의 [구성]"이다.^[1]

버드와 시몬스(2003)에 따르면^[2] 여기에는 다음이 포함된다.

데이터, 즉 "출판된 논문, 컴퓨터 데이터 파일, 심지어 손으로 쓴 색인 카드로 가득 찬 신발 상자와 같이 언어를 문서화하거나 설명하는 모든 정보이다. 정보의 내용은 분석되지 않은 녹음물부터 완전히 기록되고 주석이 달린 것까지 다양할 수 있다. 완전한 설명 문법에 대한 텍스트",
도구, 즉 "언어 데이터의 생성, 보기, 쿼리 또는 기타 사용을 용이하게 하는 계산 리소스"
조언, 즉 "어떤 데이터 소스가 신뢰할 수 있는지, 어떤 도구가 주어진 상황에 적합한지, 새로운 데이터를 생성할 때 따라야 할 관행에 대한 정보"이다. 후자의 측면은 일반적으로 "모범 사례" 또는 "(커뮤니티) 표준"이라고 한다.

더 좁은 의미에서, 언어 자원은 특히 디지털 형식으로 이용 가능한 자원에 적용되며, "(a) 데이터 세트(텍스트, 다중 모드/멀티미디어 및 어휘 데이터, 문법, 언어 모델 등)를 기계가 읽을 수 있는 형태로 포괄한다." (b) 해당 양식의 처리 및 관리에 사용되는 도구/기술/서비스를 가리킨다".

각주[편집]

↑ LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group, W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020
↑ Bird, Steven; Simons, Gary (2003년 11월 1일). “Extending Dublin Core Metadata to Support the Description and Discovery of Language Resources”. 《Computers and the Humanities》 (영어) 37 (4): 375–388. arXiv:cs/0308022. Bibcode:2003cs........8022B. doi:10.1023/A:1025720518994. ISSN 1572-8412. S2CID 5969663.

[:0-1] LD4LT (2020), The Metashare Ontology as Created by the LD4LT Community Group, W3C Community Group Linked Data for Language Technology (LD4LT), Development branch, version of Mar 10, 2020

[:1-2] Bird, Steven; Simons, Gary (2003년 11월 1일). “Extending Dublin Core Metadata to Support the Description and Discovery of Language Resources”. 《Computers and the Humanities》 (영어) 37 (4): 375–388. arXiv:cs/0308022. Bibcode:2003cs........8022B. doi:10.1023/A:1025720518994. ISSN 1572-8412. S2CID 5969663.

[1]

[2]