Skip to content

NLTK #
Find similar titles

Structured data

Category
Programming
Description
자연어처리를 위한 파이썬 라이브러리
URL

NLTK (Natural Langualge Toolkit) #

NLTK는 개발된 NLP(natural language processing)를 위한 파이썬 라이브러리 이다. 무료 오픈소스 프로젝트로 OS에 상관없이 (Windowns, Mac OS X, Linux 등) 사용가능하다. 2001년에 펜실베니아대학에서 처음 개발된 이후, 많은 대학들과 연구프로젝트에서 사용되고 있다. 현재 Python2.7뿐만아니라 Python3.2이상도 지원하고 있다.

<참조: 자연어처리란?> 컴퓨터를 이용하여 사람 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술. 자연어 이해는 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여 컴퓨터가 처리할 수 있도록 변환시키는 작업이며, 자연어 생성은 컴퓨터가 처리한 결과물을 사람의 편의성에 입각하여 텍스트, 음성, 그래픽 등을 생성하는 작업이다. 문서 처리, 색인 작성, 언어 번역, 질문 응답 등 많은 응용 분야에서 활용한다. 자연어 처리 [Natural Language Processing, 自然語處理] (IT용어사전, 한국정보통신기술협회)

NLTK 설치 #

Mac/Unix 에서 설치 #

NLTK와 Numpy설치하기

$ sudo pip install -U nltk
$ sudo pip install -U numpy (*optional)

설치확인

$ python
>>>import nltk

Windows 에서 설치 #

기본적으로 파이썬이 설치되어 있어야한다. 32bit에서 설치방법은 다음과 같다.

  1. Python3.4를 설치한다 (http://www.python.org/downloads/)
  2. Numpy를 설치한다 (http://sourceforge.net/projects/numpy/files/NumPy/)
  3. NTKL을 설치한다. (http://pypi.python.org/pypi/nltk)
  4. 설치를 확인한다. (윈도우시작 -> Python34 선택, import nltk 타이핑)

NLTK Data 설치 #

NLTK를 설치하면 corpora, toy grammars, trained models 등의 데이터를 다운받을 수 있는 NLTK's downloader를 제공한다.

Installer 사용하기 #

python 쉘을 실행한 후 다음과 같이 입력하면 NLTK Downloader를 실행할 수 있다. File-select change Download Directory를 클릭해서 기본 다운로드 경로를 설정 할 수 있다.

>>> import nltk
>>> nltk.download()

다음으로, 설치하고자하는 팩키지, 또는 컬렉션을 선택한다. 아래와 같이 proxy server를 통해서도 설치할 수 있다.

>>> nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
>>> nltk.download()

Linux에서는 command line상으로 다음과 같이 설치할 수 있다.

$ python -m nltk.downloader all  또는,
$ python -m nltk.downloader -d /user/share/nltk_data all

참고 #

0.0.1_20140628_0