济宁市建设工程招投标网站,百度推广怎么收费标准案例,怎样做网络推广方案服务,在线设计的网站文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库
语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究#xff0d;语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语#xff1a;…
文章目录1. 语料库2.建设中的问题3.典型语料库介绍1. 语料库
语料库(corpus) 语料库(corpus) 就是存放语言材料的仓库 (语言数据库)。基于语料库进行语言学研究语料库语言学(corpus linguistics) 根据篇章材料对语言的研究称为语料库语言学不是新术语利用语料库对语言的某个方面进行研究或者发现某些规律性知识。是新术语对现行语言学理论进行批评提出新的理论。研究内容 语料库的建设与编纂语料库的加工和管理技术语料库的使用 类型 异质的不同类的同质的某一类的系统的 充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题 专用的按语言种类划分 单语的双语的或多语 按是否标注 有词性标注句法结构信息标注树库语义信息标注 生语料/熟语料平衡语料库 考虑代表性和平衡性原则 语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等 平行语料库 多语种平行同一种语言的多种语料不同国家的英语不一样地方语 共时语料库与 是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系即研究一个共时平面中的元素与元素的关系 历时语料库 是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变即研究一个历时切面中元素与元素关系的演化判断原则 是否动态(必须是开放的动态的文本是否具有量化的流通度属性 所有的语料都应来源于大众传媒具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。 深加工是否基于动态的加工方法随语料的动态变化采集并进行动态地加工。是否取得动态的加工结果语料的加工结果也应是动态的和历时的。
2.建设中的问题
静态与动态 一种主张认为应建立动态的或监督语料库(monitor corpus)文本集的收集通常是随遇的而不是平衡的。而另一种主张认为应该建立相对静态的、平衡的。其实每种主张均与研究或应用目的密 切相关 代表性与平衡性 一个语料库具有代表性是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。 规模 第一代少第二代更大 语料库的管理和维护 错误修正或改善版本升级语料库的检索系统、分析和处理工具的维护 汉语语料库开发中存在的问题 语料库建设的规范问题——无统一规范只有建议性的产权保护和国家语料库建设问题——所以没人做
3.典型语料库介绍
布朗语料库 (Brown Corpus) 第一个根据系统性原则采集样本的标准语料库 LLC口语语料库(London-Lund Corpus of Spoken English ) 口语 朗文语料库 (Longman Corpus)–多领域宾夕法尼亚大学(UPenn)树库(Tree Bank) 2000年第一版汉语树库扩展 PropBankNomBank (Nominalization Bank)UPenn语篇树库 北京大学开发的CLKB台湾中研院平衡语料库Sinica Corpus布拉格依存树库 (Prague Dependency Treebank, PDT)CASIA-CASSIL 语料库词汇知识库 WordNet (http://wordnet.princeton.edu/ )–按语义关系组织知网(HowNet)概念层次网络 (HNC)符号复杂