编队, 高等学校

什么是语料库语言学？

就在几十年前，以自动化的语言学研究，科学家们只能梦想。这项工作是由手工完成的，它吸引了大量的学生，有实质性的可能性“不小心”的错误，以及最重要的 - 这一切都花了很长很长的时间。

随着计算机技术的发展，已成为可能量级上进行研究速度更快，而今天在语言研究中最有前途的方向之一是语料库语言学。它的主要特点是使用大量的文本信息，信息到一个单一的数据库，以特殊的方式，并呼吁标记的身体。

到目前为止，有来自数百万跨越到上百亿词汇单元的各种语言材料的基础上，不同的目的创造了许多建筑物。这个方向被认为是有前途的，并表明对应用和研究目的显著进展。专家介绍，这种或那种方式处理自然语言，建议得到至少在一个基本水平与文本的身体熟悉。

语料库语言学史

这一趋势的形成是由于在布朗的身体在上世纪60年代初，独立实体的创造美的。该系列包括的单词形式全部为1万元的文本，而今天这种规模的机构将完全失去竞争力。这主要是由于计算机技术的发展步伐，以及对新的研究资源不断增长的需求。

在上世纪90年代语料库语言学出现成完全独立的学科，文字的集合，已制定并标示为几十种语言。在此期间，它的创建，例如，英国国家语料库亿令牌。

有了这方面的语言学的发展，文卷变得越来越（并达到数十亿词典单位），并且布局日趋多样化。迄今为止，互联网空间，可以发现尸体的书面和口头语言，多语种和学习型艺术或学术文献，以及许多其他物种。

什么是住房

在身体语言学体类型可以提供有几个原因。直观地说，在分类的基础可以是文本语言（俄语，德语），访问模式（开源的，封闭的，商业），源材料（小说，纪实，学术，新闻）的流派。

有趣的方式产生口语的材料。由于此类言论的刻意记录为受访者创造一个人工的环境，并将得到的材料不能被称为“自发的”，现代语料库语言学已经其他方式。志愿者配备有麦克风和白天产生的所有的谈话，在其参与的记录。周围的人，当然，可能不知道，在日常交谈的过程中有利于科学的发展。

后来收到存储在数据库中的记录和打印文本转型伴随。这样，就创建一个口服每日讲话住房需要的可能出现的标记。

应用

只要有可能使用的语言，也许是使用的建筑物文本。方法应用语言学船体可能是：

创建程序确定键，被广泛应用于政治和商业分别跟踪的选民和客户的积极和消极的反应。
连接信息系统词典和翻译，以提高其性能。
各种有助于语言单位，在不久的将来改变它的发展和预测的历史认识问题的研究任务。
根据形态，句法，语义等特征的信息检索系统的开发。
不同的语言系统和其他的优化。

建筑物的用途

与典型的搜索引擎类似的资源的界面，并提示用户输入要搜索的信息库单词的词或组合。除了形成准确的查询可以使用增强版，它允许找到几乎任何语言的标准文本信息。

搜索碱可以是：

语音的部分的特定组的成员资格;
语法特征;
语义;
风格和感情色彩。

您也可以将搜索条件的字序列，例如，寻找动词出现的所有的现在时态，第一人称单数，其中谈到“在”介词和宾格的名词之后。这样一个简单的任务的解决方案允许用户只需几秒钟，仅需要在指定的字段几鼠标点击。

创建的过程

搜索本身可以在所有subcorpus进行，一个特别选择，取决于在实现特定目标的需要：

所述第一步骤是定义文本，其形成用于的情况下的基础。出于实用的目的，它是经常使用的新闻，新闻报道，网上评论。该研究项目是采用多种封装类型，但文字应根据一些共同点来选择。
得到的进行预处理文本的收集，有纠正错误，如果有的话，由文本的书目和额外的语言描述准备。
消除所有的非文本信息：清除图形，图片，表格。
是令牌，这是典型的语音，以用于进一步处理的分配。
最后，进行形态学，句法和其他标记得到的多个元件。

由句法结构具有分布在其中的多个元件，其中的每一个被识别的语音，语法的一部分，并且，在某些情况下，语义属性的所有交易的结果。

在创造建筑的困难

理解是不够的，放在一起一组单词或句子的对身体是很重要的。在一方面，文字的集合，应该是平衡的，也就是代表不同类型的一定比例的文本。另一方面 - 外壳的内容应该以一种特殊的方式间隔开。

第一个问题是通过协议解决：例如，集合中包括文学文本的60％，纪录片的20％，按一定比例给予口头语言，法律，科学作品等今天完美的配方平衡体内不存在的书面申述...

第二个问题，涉及该内容的布局，解决具有挑战性的。有特殊的程序和用于自动标记文本的算法，但他们不给一个完美的结果，可能会导致混乱，需要手动返工。机遇与挑战在处理这一问题进行了详细的论文V. P. Zaharova语料库语言学的描述。

文本标记在几个级别上，我们在下面列出来实现。

形态标记

从学校，我们记得在俄罗斯语言，有词性不同，他们每个人都有自己的特点。例如，动词具有倾斜的类别和时间在其中没有名词。毫不犹豫的母语下降名词和动词结合，但以纪念100万元的身体。令牌体力劳动将无法正常工作。所有必要的操作可以执行的计算机，但是，对于这一点，需要被教导。

形态标记，该计算机必须“理解”每个字为具有某些语法特征的语音的特定部分。由于俄罗斯（以及任何其他语言）经营多项规则的规则，就可以建立一个自动程序的形态分析，在汽车投资于一些算法。不过，也有例外的规则，以及各种复杂因素。其结果是，今天的净计算机分析是很不理想，甚至4％的误差产生的4万的值。上亿。单位的主体词，需要手动返工。

详细书中描述的问题Zaharova V. P.“语料库语言学”。

语法标注

解析或解析 - 确定单词在句子中的关系的过程。使用一套算法能够确定主语，谓语，添加，讲话多圈的文本。找出哪些词是主要的序列，以及 - 依赖，我们可以有效地从文本中提取信息，并教机响应搜索请求只发出的信息有趣我们。

顺便说一句，现代搜索引擎使用这给出具体的数字，而不是冗长的文字对相关的查询，如“多少卡路里苹果”或“从莫斯科到圣彼得堡的距离。” 然而，要了解所需要咨询“介绍语料库语言学”或其他基础教程中介绍的过程中，即使基础。

语义标记

这个词的语义 - 是，简单来说，意义。广泛适用的方法来一个字属性标签的语义分析，体现出他属于一组语义类别和子类别。这种信息对于优化算法分析文字音，自动摘要和语料库语言学的其他任务的方法是有价值的。

有许多树的“根”，代表具有非常宽的语义抽象的单词。作为形成在树节点的一个分支，含有更多和更具体的词汇元素。例如，单词“生物”可以与这样的概念“人”和“动物”相关联。第一个字将继续拓展到不同的职业，亲属称谓，国籍，第二个 - 对类和类型的动物。

利用信息检索系统

用语料库语言学的领域涵盖活动的不同领域。壳被用于字典的制备和校正，创建自动翻译系统，标注，检索事实，确定音色及其他的文本处理。

此外，这种资源在世界语言和一般语言的运作机制的研究都在积极使用。访问大量的预先准备好的信息有助于开发语言的趋势迅速和全面的研究，并形成稳定的新词语速变化值词汇单元等。

由于有如此大量的数据的工作需要自动化，今天有计算机和语料库语言学之间的密切互动。

俄罗斯国家语料库

这种情况下（简称NKRYA）包括许多subcorpus的，允许各种各样的任务的使用资源。

在数据库中的材料被分成NKRYA：

在媒体上世纪90年代和21世纪初，国内和国外的出版物;
录音讲话;
aktsentologicheski标记文本（即，应力的标记）;
方言讲话;
诗歌;
材料与句法和其他标记。

该信息系统还包括Subcorpus与俄罗斯作品的并行翻译成英语，德语，法语等多国语言（反之亦然）。

另外，在数据库中有历史文献的一部分，代表在其发展的不同时期在俄罗斯的书面讲话。还有一个培训机构，这对于外国公民有用掌握俄语。

俄罗斯国家语料库包括4个亿词汇单元，并在未来欧洲机构的语言的显著部分的许多方面。

前途

事实上有利于认识到这一趋势的是看好在俄罗斯大学实验室语料库语言学，以及国外的可用性。随着使用和研究的信息和搜索资源的框架需要在高新技术，答疑系统领域某些地区的发展，但如上所述。

语料库语言学的进一步发展的各级预测，从技术和执行，以优化搜索和处理信息，赋予计算机的过程中新的算法，更多的RAM的条款，对消费者，因为用户在日常使用这种类型的资源越来越多的方式生活和工作。

总之

在2017年的最后一个世纪中叶似乎遥远的未来，在飞船穿越宇宙和机器人做的所有的人的工作。事实上，科学是充满了“白点”，使拼命试图回答人类几个世纪干扰问题。问题语言的功能在这里占据一席之地的荣誉，内阁和计算语言学可以帮助我们回答这些问题。

大型数据集处理可检测模式，以前无法进入的，预测的特定语言功能的开发跟踪几乎实时的话的形成。

在实践层面上，全球的机箱可以看到，例如，以评估公众情绪的潜在工具 - 互联网是真正的用户创建了一个不断更新每天各种文本：这和您的评论和文章，以及许多其他形式的言论。

此外，与机构合作有助于在相同的硬件，这涉及信息检索的发展，我们所熟悉的服务“谷歌”或“Yandex的”，机器翻译，电子词典。

我们可以自信地断言，语料库语言学使得只有第一步骤，在不久的将来将蓬勃发展。