超强NLP思维导图，知识点全面覆盖：从基础概念到最佳模型，萌新成长必备资源-电子产品世界手机版

超强NLP思维导图，知识点全面覆盖：从基础概念到最佳模型，萌新成长必备资源

智能计算作者：栗子时间：2019-09-29来源：量子位

本文经AI新媒体量子位（公众号 ID: QbitAI）授权转载，转载请联系出处。

一只萌新，想把自己修炼成一个成熟的NLP研究人员，要经过一条怎样的路？

有个名叫Tae-Hwan Jung的韩国小伙伴，做了一份完整的思维导图，从基础概念开始，到NLP的常用方法和著名算法，知识点全面覆盖。

可以说，从0到1，你需要的都在这里了：

这份精致的资源刚刚上线，不到一天Reddit热度就超过400，获得了连篇的赞美和谢意：

“肥肠感谢。”“我需要的就是这个！”“哇，真好啊！”

所以，这套丰盛的思维导图，都包含了哪些内容？

四大版块

就算你从前什么都不知道，也可以从第一个版块开始入门：

1 概率&统计

从中间的灰色方块，发散出5个方面：

基础 (Basic) ，采样 (Sampling) 、信息理论 (Information Theory) 、模型 (Model) ，以及贝叶斯 (Baysian) 。

每个方面，都有许多知识点和方法，需要你去掌握。

毕竟，有了概率统计的基础，才能昂首挺胸进入第二个板块。

2 机器学习

这个版块，一共有7个分支：

线性回归 (Linear Regression) 、逻辑回归 (Logistic Regression) 、正则化 (Regularization) 、非概率 (Non-Probabilistic) 、聚类 (Clustering) 、降维 (Dimensionality Reduction) ，以及训练 (Training) 。

掌握了机器学习的基础知识和常用方法，再正式向NLP进发。

3 文本挖掘

文本挖掘，是用来从文本里获得高质量信息的方法。

图上有6个分支：

基本流程 (Basic Procedure) 、图 (Graph) 、文档 (Document) 、词嵌入 (Word Embedding)、序列标注 (Sequential Labeling) ，以及NLP基本假设 (NLP Basic Hypothesis)。

汇集了NLP路上的各种必备工具。

4 自然语言处理

装备齐了，就该实践了。这也是最后一张图的中心思想：

虽然只有4个分支，但内容丰盛。

一是基础 (Basic) ，详细梳理了NLP常用的几类网络：循环模型、卷积模型和递归模型。

二是语言模型 (Language Model) ，包含了编码器-解码器模型，以及词表征到上下文表征 (Word Representation to Contextual Representation) 这两部分。许多著名模型，比如BERT和XLNet，都是在这里得到了充分拆解，也是你需要努力学习的内容。

三是分布式表征 (Distributed Representation) ，许多常用的词嵌入方法都在这里，包括GloVe和Word2Vec，它们会一个个变成你的好朋友。

四是任务 (Task) ，机器翻译、问答、阅读理解、情绪分析……你已经是合格的NLP研究人员了，有什么需求，就调教AI做些什么吧。

看完脑图，有人问了：是不是要把各种技术都实现一下？

韩国少年说：“不不，你不用把这些全实现一遍。找一些感觉有趣的，实现一波就好了。”