
《计算语言学鱼下(修订版)》是2014年清华大学出版社出版的图书,作者是刘颖。
- 中文名 计算语言学
- 定价 59元
- 出版社 清华大学出版社
- 作者 刘颖
- 出版时间 2014-9-19
内容简介
本书侧重最经典的工作,来自阐述计算语言学的基本理论和方法,主要介绍现代句法理论和语义理论,词法、句法和语义阶段重要的分析算法、统计语言学和机器翻译。
计算语言学是一门涉及语言学、计算机科学和数学等多门学科的交叉学科,覆盖面广。本书侧重最经典的工作,阐述计算语言学的妒明基本理论和方法,主要介绍现代句跳法理论和语义理论,词法、句法和语义阶段重要的分析算法、统计语言学和机器翻译。本书析蒸虽角特丰味结构完整,层次分明,条理清楚;既便于教学,又便于自学。可作为中文、外语、计算机360百科等专业高年级本科生和研究生教材,也可供从事自然语言处理或信息处理的研究者参考。
前言
计算语言学,也称单信背征自然语言处理或自然语言理解,它是研究如何利用计算机来分析、处理和理解自知然语言的一门学科。计东总行环油完算语言学是植根于计算机科学、语言学和数学等多学科沃土而成长起来的一门新兴学科。一般情况下,处理宣白名脱说考通虽川才自然语言不仅要有语言学方面的知识,而且还要有数学和只程经北注顾计算机科学方面的知原北风编到升识,因此,计算语利试言学就成为一门介于语言学、数学和计算机科学之间的边缘性交叉学科。
本讲无法措玉子立队油书第1章主要介绍计算语言学与计算机科学、数学和语言学学科之间的关系,并介绍了计算语言学的基本方法设扬担安周事胡则货、主要内容、应用领域以及发展过程。第2章主要介绍了自然语言处理常用的语法词典、语义词典和语义框架词典及其应用。语法词典介绍了《现代汉语语法信息词典》,语义词典介绍了wordnet 、《同义词词林》和《知网》,除此之外还介绍了语义框架词典framenet。第3章主要介绍汉语的切词、切词歧义以及如何消歧,介绍了英语的形机对破号王态分析及主要分析算法以及日语的分词、分词歧义、分词算法和日说轮皮英除造轮须语开源分词软件。第4章主要介绍词性标注的4种方法--规则方法、统计方法、规则与统计结照从据不亮留合以及基于转换的错误驱动方法。重点介绍用历刘边师井球给展隐马尔可夫模型、条件随机场和最大熵模型进行词性标注的统计处理过程。第5章主要介绍乔姆斯基的4种类型的文法和4种类米威雨稳附易怀型的自动机。文法和自动机是统刻画语言的有效手段,文法用来生成语言中的句子,自动机用来识别语言的句子,就描述一种语言而言,两者是统一的。前者属于形式语法理论,后者属于自动机理论。第6章主要介绍20世纪50年代以来发展起来的用于自然语言处理的一些重要的句法理论,主要有基于类的语法理论和基于词的语法理论,基于类的语法理论有:转换生成语法、树粘接语法、词汇功能语法、功能合一语法、广义短语结构语法和中心词驱动的短语结构语法。基于词的语法理论包括:范畴语法、依存语法和链语法等。乔姆斯基提出的短语结构语法分析能力不高,分析时难以区分大量的不合语法的句子,生成能力过强。后来乔姆斯基提出了转换生成语法来克服短语结构语法的这些局限性,但转换生成语法本身也有局限性,它的生成能力过强。于是,乔姆斯基提出管辖约束理论来限制转换生成语法过强的生成能力。然而,由于转换生成语法通常要涉及若干个句子之间的关系,在机器翻译和自然语言处理中使用起来很不方便,不如短语结构语法那样,就一个句子来分析一个句子,它的成分结构是单一的,非常便于进行机器翻译的语法分析和自然语言处理。计算语言学的学者们抛弃了转换生成语法,又转向短语结构语法,于是80年代以来出现了各种增强的短语结构语法--词汇功能语法、功能合一语法、广义短语结构语法、中心词驱动的短语结构语法等,这些语法都采用了复杂特征结构来改进短语结构语法单一的特征,采用合一运算来改进传统的集合运算,从而有效地克服了短语结构语法的缺点,保持了短语结构语法的优点。基于词的语法与基于类的语法不同,把语言知识主要都记录在词典中。第7章主要介绍了用于自然语言分析的扩充转移网络、Early分析算法、Tomita分析算法、Chart分析算法和CYK分析算法。基于扩充转移网络的句法分析的优点在于所定义的操作接近人在理解语言时所采用的操作,缺点是随着结点的增多,计算的复杂性就会急剧地增长,修改时非常困难。Tomita分析算法、Chart分析算法等都可以运用复杂特征集和合一运算机制对短语结构语法进行分析。Tomita分析算法改进了LR分析算法,是一种高效的自然语言分析方法。Chart分析算法采用了线图(chart)来记录分析结果,线图可以表示互不相连的树,可以表示歧义。CYK算法是一种并行的分析算法。由于其算法容易实现、易于被人理解,因此被广泛应用于机器翻译中。第8章主要介绍了用于自然语言处理的一些语义理论以及如何运用这些理论。第9章主要介绍了语料库及其标注、n元模型、HMM模型及HMM在语音识别和组块识别中的应用、随机上下文无关语法及在句法语义消歧中的应用、基于长度的句子对齐、支持向量机及用于入声识别和最大熵模型及其应用。针对统计出现的数据稀疏问题,介绍了常见的数据稀疏处理方法。 第10章系统地介绍了机器翻译的方法、困难及解决策略、应用类型及应用领域和机器翻译的自动评价。重点介绍了统计机器翻译方法,包括基于词对齐的机器翻译、基于短语对齐的机器翻译和基于句法的机器翻译。词对齐主要有IBM的词对齐和基于HMM的词对齐。短语对齐主要有利用词对齐进行的短语对齐、对齐模板和层次的对齐短语。基于句法的统计机器翻译介绍了树串模型、串树模型和树树模型。目前,基于短语对齐的统计翻译译文质量较高。
本书可作为中文、外语、计算机等专业高年级的本科教材,教授学时可为32~64学时。教师可根据学时安排上机,比如词法分析、词性标注和句法分析等。如果学生掌握了基本理论和算法,同时通过上机实现了一些重要算法,则能为掌握本门课程以及掌握计算机处理自然语言打下坚实基础。
本书在写作时尽量做到通俗易懂,所有的算法都举例进行了详细说明,并列出了计算机处理自然语言的详细过程。本书的读者如果具有一定的计算机科学方面的知识(如离散数学、数据结构等),则能更好地理解本书的所有内容。
本书的写作参考了许多学者的论文和著作,本书能够出版与他们所做的工作紧密相关。谨向他们表示衷心感谢。
由于本人水平和时间限制,书中难免存在疏漏和不足之处。欢迎各位读者批评指正。
刘 颖
2014年7月
目录
第1章计算语言学简介
1.1端除王大例探该英胶则计算语言学
1.1.1计算语言学概念
1.1.2计算语言学与计算机科学
1.1.3计算语言学与语言学
1.1.4计算语言学与数理语言学
1.1.5计算语言学与自然语言
1.2计算语言学主要研究的内容
1.3计算语言学理论的主要用途
1.3.1机器翻译
1.3.2语音自动识别和自动生成
1.3.3自动文摘
1.3.4自动来自校对
1.3.5自然语言理解
1.3.6信息自动检索
1.3.7自动问答
1.3.8自动分类
1.3.9信息抽取
1360百科.4计算语言学研究的基本方法
1.4.1理性主吃布掌斗节州企现义和经验主义
1居晶妒流哪.4.2理性主义和经验主义的区别
1.5计算语言学的发展历程
1.6本章小结
第2章机器词典
2.1《现代汉语语法信息词典》
2.2《同义词词林》
2.3Wordnet
唱若 2.4Framenet
2.5《知网花记尽》
2.6本章小结
第3章词法分析
3.1汉语的自动分词
3.1.1相群述再物督比又歌词与自动分词
3.有基放田情费却1.2汉语自动分词的重要性
3.1.3汉语自动背逐分词方法
3.1.4汉语切分歧义及其处理
3.燃核谓攻家备1.5未登录词的处理
3.1.6汉语分词的难点
3.1.7汉语分词评测
3.2屈折语的词法分析
3.2.1屈折语的词法分析
3阳味随齐支婷印北.2.2屈折语的词法分析技术
3.2.3词法分析的原因
镇巴头孩的愿按千谁显 3.2.4词法分析谓米边坚句的程度
3.3日语分词
3.3.1日语词语特征
3.3.2日语分词的常用方法
3.3.3日语切词和词性标注
3.3.4日语硫应情劳统湖区开源切分和标注器
3.4本章小结
第4章词性标注
4.1词性标注概述
4.2词性标注集
4.3词性标注的研究方法
4.3.1规则方法
4.3.2统计方法进行词性标注
排未心于首4.3.3统计与规则相结合的方法
4.3.4基于转换剂叫至找棉想医配核重的错误驱动学习
4.4本章小结
第5章形式语言理论与自动机
析序形硫门消形没况 5.1形式语言理论
5.1.1形式语法
5.1.2形式语法组成
5.1.3形式语法的定义
5够.1.4形式语法的特点
谓岩论黄律候判围错等口5.1.5研究形式语法的必要性
5.1.6语法的类型
5.2自动机理论
5.2.1图灵机
5.2.2线性有界自动机
5.2.3有限自动机
5.2.4下推自动机
5.3乔姆斯基层级和自然语言
5.3.1文法、自动机和语言的关系
5.3.2哪一种语法最宜于用来生成自然语言的句子
5.4本章小结
第6章现代句法理论
6.1转换生成语法
6.1.1经典理论
6.1.2乔姆斯基的标准理论
6.1.3扩充式标准理论
6.2广义的短语结构语法
6.2.1引言
6.2.2句法规则
6.2.3特征制约系统
6.2.4语义解释系统
6.3树粘接语法
6.4中心词驱动的短语结构语法
6.5功能合一文法
6.5.1复杂特征集
6.5.2合一运算
6.6词汇功能文法
6.6.1引言
6.6.2基本成分
6.6.3词库部分
6.6.4LFG的两个语法层次结构
6.6.5功能合格条件
6.6.6词汇功能语法特点
6.7范畴语法
6.8依存语法
6.9链语法(Link Grammar)
6.10本章小结
第7章句法分析
7.1句法分析概念
7.1.1分析策略
7.1.2句法分析
7.2有限状态转移网络、递归转移网络和扩充转移网络
7.2.1有限状态转移网络
7.2.2递归转移网络
7.2.3扩充转移网络
7.3自顶向下剖析
7.4厄尔利算法
7.5LR分析算法
7.5.1LR(0)算法
7.5.2LR(1)算法
7.5.3对LR(k)算法的评价
7.6富田胜算法
7.7自底向上的线图算法
7.8自底向上与自顶向下相结合的线图分析算法
7.9CYK算法
7.10本章进一步讨论
7.11本章小结
第8章语义理论与语义分析
8.1格语法
8.1.1格的含义
8.1.2格语法
8.1.3词汇部分
8.1.4转换部分
8.1.5使用格语法进行语义分析:格框架约束分析技术
8.1.6格语法描写汉语的局限性
8.2语义网络文法
8.2.1语义网络的概念
8.2.2语义网络的概念关系
8.2.3事件的语义网络表示
8.2.4事物间语义关系
8.2.5用语义网络进行推理
8.2.6用语义网络来翻译
8.2.7基于语义网络的汉语处理
8.3义素分析法
8.4优选语义学
8.4.1语义元素
8.4.2语义公式
8.4.3语义模式
8.4.4使用优选理论翻译英法句子的处理过程
8.4.5优选语义学主要特点
8.5蒙塔格语法
8.5.1引言
8.5.2MG句法部分
8.5.3MG翻译部分
8.5.4MG语义部分
8.6本章进一步讨论
第9章统计语言学
9.1概率统计与信息论基础
9.2语料库发展与加工技术
9.2.1语料库的发展与加工
9.2.2语料库的作用
9.3概率语法
9.3.1n元语法
9.3.2隐马尔可夫模型及其应用
9.3.3概率上下文无关语法及其应用
9.4双语语料库中的对齐技术
9.4.1基于长度的句子对齐
9.4.2基于词汇的句子对齐
9.5支持向量机
9.6最大熵模型
9.7参数平滑算法
9.8本章小结
第10章机器翻译
10.1机器翻译的概念
10.2机器翻译方法
10.2.1直接翻译法(第一代机器翻译系统)
10.2.2基于转换的方法
10.2.3基于中间语言方法
10.2.4统计机器翻译
10.2.5基于实例方法
10.3机器翻译难点
10.4机器翻译系统采取的其他策略
10.5机器翻译发展原因
10.6机器翻译的应用
10.7机器翻译自动评测方法
10.8本章小结