twitter-korean-text
트위터에서 만든 한국어 처리기
스칼라로 쓰여진 한국어 처리기입니다. 현재 텍스트 정규화와 형태소 분석, 스테밍을 지원하고 있습니다. 짧은 트윗은 물론이고 긴 글도 처리할 수 있습니다. 개발에 참여하시고 싶은 분은 Google Forum에 가입해 주세요. 사용법을 알고자 하시는 초보부터 코드에 참여하고 싶으신 분들까지 모두 환영합니다.
... 중략
트위터에서 제공하는 한국어 형태소 분석기 입니다.
정규화, 토큰화, 어근화, 어구 추출 까지 4단계로 이루어 집니다. 깃허브(GitHub) twitter 페이지로 가면 다운받을 수 있어요.
<dependency>
<groupId>com.twitter.penguin</groupId>
<artifactId>korean-text</artifactId>
<version>4.4</version>
</dependency>
를 추가 해주면 됩니다.
다른 형태소 분석기 보다 속도가 아래 그림과 같습니다.
빨간색 - Twitter
<출처 : github.com/twitter/twitter-korean-text>
'개발 티끌 팁' 카테고리의 다른 글
[vi]vi 에디터 비정상 종료시 (0) | 2017.01.06 |
---|---|
[명령어]리눅스 도움말, 디렉토리 관련 기본 명령어 (0) | 2017.01.04 |
jQuery 핸드폰 번호 입력시 하이푼(-) 자동으로 넣고 빼기 (0) | 2016.05.11 |
전자정부에서 한글 깨짐 처리 UTF-8 (0) | 2016.05.06 |
JAVA SHA-256 (0) | 2016.03.10 |