twitter-korean-text


트위터에서 만든 한국어 처리기


스칼라로 쓰여진 한국어 처리기입니다. 현재 텍스트 정규화와 형태소 분석, 스테밍을 지원하고 있습니다. 짧은 트윗은 물론이고 긴 글도 처리할 수 있습니다. 개발에 참여하시고 싶은 분은 Google Forum에 가입해 주세요. 사용법을 알고자 하시는 초보부터 코드에 참여하고 싶으신 분들까지 모두 환영합니다.


... 중략 



트위터에서 제공하는 한국어 형태소 분석기 입니다. 


정규화, 토큰화, 어근화, 어구 추출 까지 4단계로 이루어 집니다.  깃허브(GitHub)  twitter 페이지로 가면 다운받을 수 있어요.


https://github.com/twitter/twitter-korean-text

그리고 메이븐(Maven)을 이용하고 있다면 pom.xml 에 


       <dependency>

     <groupId>com.twitter.penguin</groupId>

     <artifactId>korean-text</artifactId>

     <version>4.4</version>

    </dependency>


를 추가 해주면 됩니다. 


다른 형태소 분석기 보다 속도가 아래 그림과 같습니다.

빨간색 - Twitter


<출처 : github.com/twitter/twitter-korean-text>





반응형


웹에서 작업을 하다보면 한글이 깨질 때가 종종 있다.


자바, jsp 페이지에 request.setCharacterEncoding("utf-8"); 를 열심히 추가 해봤자 소용이 없는 경우가 있었는데 


Sever - Tomcat - sever.xml 을 수정해주면 해결 된다. 


아래 그림처럼 URIEncoding="UTF-8" 를 추카 해주자 







그리고 전자정부프레임워크를 사용하고 있다면 web.xml 파일에


        <filter>

<filter-name>encodingFilter</filter-name>

<filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class>

<init-param>

<param-name>encoding</param-name>

<param-value>UTF-8</param-value>

</init-param>

</filter>

<filter-mapping>

<filter-name>encodingFilter</filter-name>

<url-pattern>/*</url-pattern>

</filter-mapping>


를 등록 해주면 된다. 근데 이미 되어있을 거에요. 






반응형

import java.security.MessageDigest;


public class Sha256_Util {

public String encrypt(String planText){

try{

MessageDigest digest = MessageDigest.getInstance("SHA-256");

digest.update(planText.getBytes("UTF-8"));

byte[] byteData = digest.digest();

StringBuffer hexString = new StringBuffer();

for(int i = 0; i<byteData.length; i++){

String hex = Integer.toHexString(0xff & byteData[i]);

if(hex.length() == 1)

hexString.append("0");

hexString.append(hex);

}

return hexString.toString();

}catch(Exception ex){

ex.printStackTrace();

throw new RuntimeException();

}

}

}


사용 예 :



결과 :



반응형

+ Recent posts