NLTK 的介绍
- NLTK(Natural Language Toolkit)简介
- NTLK是著名的Python自然语言处理工具包,但是主要针对的是英文处理。NLTK配套有文档,有语料库,有书籍。
- NLP领域中最常用的一个Python库
- 开源项目
- 自带分类、分词等功能
- 强大的社区支持
- 语料库的概念
- 语料库,语言的实际使用中真实出现过的语言材料
- http://www.nltk.org/py-modindex.html
NTLK及其相关库的安装方法
- 安装NTLK的方法
- 在官网进行安装
- 在NTLK的主页详细介绍了如何在Mac、Linux和Windows下安装NLTK:
- http://nltk.org/install.html
- 使用Anaconda直接进行安装
- Anaconda直接包含了NTLK相关的包和库
- 使用pip进行安装
- pip install ntlk
- 安装NTLK的相关包
- 使用命令弹出包安装工具
- import nltk
- nltk.download() 接下来回弹出栏一个下载工具框
- 弹出下面的框,建议安装所有的包
- 安装的内容
- Corpors :语料库,常用语料库(brown),停用词库(stopwords),词形归并工具(wordbet)等
- Model:模型,比如词性标注(Tagger),分词(Punkt),词干提取(Porter)模型等常用模型