⾃然语⾔处理(NLP)知识结构总结
作者简介:⼩郭,计算机专业在读硕⼠研究⽣,AI学习与爱好者,欢迎交流,留⾔或者邮箱guo_jc5@163。本⽂选⾃CSDN博客。
纪检部工作计划⾃然语⾔处理知识太庞⼤了,⽹上也都是⼀些零零散散的知识,⽐如单独讲某些模型,也没有来龙去脉,学习起来较为困难,于是我⾃⼰总结了⼀份知识体系结构,内容来源主要参考黄志洪⽼师的⾃然语⾔处理课程,主要参考书为宗成庆⽼师的《统计⾃然语⾔处理》,可能很多内容写的不清楚,但好像中⽂NLP书籍就这⼀本全⼀些,如果想看好的英⽂资料,可以到我的GitHub上下载:
github/lovesoft5/ml
下⾯直接开始正⽂:
▌⼀、⾃然语⾔处理概述
1)⾃然语⾔处理:利⽤计算机为⼯具,对书⾯实⾏或者⼝头形式进⾏各种各样的处理和加⼯的技术,是研究⼈与⼈交际中以及⼈与计算机交际中的演员问题的⼀门学科,是⼈⼯智能的主要内容。
2)⾃然语⾔处理是研究语⾔能⼒和语⾔应⽤的模型,建⽴计算机(算法)框架来实现这样的语⾔模型,并完善、评测、最终⽤于设计各种实⽤系统。
烙饼怎么做3)研究问题(主要):
机器翻译
⽂档分类
问答系统
信息过滤
⾃动⽂摘
信息抽取
⽂本挖掘
舆情分析
机器写作
语⾳识别
研究模式:⾃然语⾔场景问题,数学算法,算法如何应⽤到解决这些问题,预料训练,相关实际应⽤
⾃然语⾔的困难:
场景的困难:语⾔的多样性、多变性、歧义性
学习的困难:艰难的数学模型(hmm,crf,EM,深度学习等)
语料的困难:什么的语料?语料的作⽤?如何获取语料?
▌⼆、形式语⾔与⾃动机
语⾔:按照⼀定规律构成的句⼦或者字符串的有限或者⽆限的集合。
描述语⾔的三种途径:
穷举法临兵斗者皆阵列前
⽂法(产⽣式系统)描述
⾃动机
⾃然语⾔不是⼈为设计⽽是⾃然进化的,形式语⾔⽐如:运算符号、化学分⼦式、编程语⾔形式语⾔理论朱啊哟研究的是内部结构模式这类语⾔的纯粹的语法领域,从语⾔学⽽来,作为⼀种理解⾃然语⾔的句法规律,在计算机科学中,形式语⾔通常作为定义编程和语法结构的基础形式语⾔与⾃动机基
础知识:
图论如何制作辣椒酱
⾃动机的应⽤:
. 单词⾃动查错纠正
. 词性消歧(什么是词性?什么的词性标注?为什么需要标注?如何标注?)
形式语⾔的缺陷:
. 对于像汉语,英语这样的⼤型⾃然语⾔系统,难以构造精确的⽂法
. 不符合⼈类学习语⾔的习惯
. 有些句⼦语法正确,但在语义上却不可能,形式语⾔⽆法排出这些句⼦
. 解决⽅向:基于⼤量语料,采⽤统计学⼿段建⽴模型
▌三、语⾔模型
1)语⾔模型(重要):通过语料计算某个句⼦出现的概率(概率表⽰),常⽤的有2-元模型,3-元模型2)语⾔模型应⽤:
语⾳识别歧义消除例如,给定拼⾳串:tashiyanyanjiusaunfade
可能的汉字串:踏实烟酒算法的他是研究酸法的他是研究算法的,显然,最后⼀句才符合。
3)语⾔模型的启⽰:
. 开启⾃然语⾔处理的统计⽅法
. 统计⽅法的⼀般步骤:
收集⼤量语料
对语料进⾏统计分析,得出知识
针对场景建⽴算法模型
解释和应⽤结果
4)语⾔模型性能评价,包括评价⽬标,评价的难点,常⽤指标(交叉熵,困惑度)
5)数据平滑:
数据平滑的概念,为什么需要平滑?
平滑的⽅法,加⼀法,加法平滑法,古德-图灵法,J-M法,Katz平滑法等。
6)语⾔模型的缺陷:
语料来⾃不同的领域,⽽语⾔模型对⽂本类型、主题等⼗分敏感。
n与相邻的n-1个词相关,假设不是很成⽴。
▌四、概率图模型,⽣成模型与判别模型,贝叶斯⽹络,马尔科夫链与隐马尔科夫模型(HMM)
1)概率图模型概述(什么的概率图模型,参考清华⼤学教材《概率图模型》)
2)马尔科夫过程(定义,理解)
3)隐马尔科夫过程(定义,理解)
HMM的三个基本问题(定义,解法,应⽤)
注:第⼀个问题,涉及最⼤似然估计法,第⼆个问题涉及EM算法,第三个问题涉及维特⽐算法,内容很多,要重点理解,(参考书李航《统计学习⽅法》,⽹上博客,笔者github)
▌五、马尔科夫⽹,最⼤熵模型,条件随机场(CRF)
1)HMM的三个基本问题的参数估计与计算
2)什么是熵
3)EM算法(应⽤⼗分⼴泛,好好理解)
4)HMM的应⽤
5)层次化马尔科夫模型与马尔科夫⽹络
提出原因,HMM存在两个问题
6)最⼤熵马尔科夫模型
优点:与HMM相⽐,允许使⽤特征刻画观察序列,训练⾼效
缺点:存在标记偏置问题
7)条件随机场及其应⽤(概念,模型过程,与HMM关系)
参数估计⽅法(GIS算法,改进IIS算法)
CRF基本问题:特征选取(特征模板)、概率计算、参数训练、解码(维特⽐)
应⽤场景:
词性标注类问题(现在⼀般⽤RNN+CRF)
中⽂分词(发展过程,经典算法,了解开源⼯具jieba分词)
中⽂⼈名,地名识别
8)CRF++
伤感的语句
▌六、命名实体识别,词性标注,内容挖掘、语义分析与篇章分析(⼤量⽤到前⾯的算法)1)命名实体识别问题
相关概率,定义
>六一儿童节怎么过的写几句话