PDF에서 Text읽어오기 ( PDFbox모듈 사용 )
PDF에 있는 문자와 다른 파일에 있는 데이터 검증을 위해 PDF에 있는 Text정보를 읽어오는 부분을 개발하였습니다.
사용환경
Java : 1.8
IDE : eclipse
pdfbox : 2.0.2
소스코드
try {
PDDocument document = null;
document = PDDocument.load(new File(pdf_Path));
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper Tstripper = new PDFTextStripper();
Tstripper.setStartPage(2);
Tstripper.setEndPage(2);
String st = Tstripper.getText(document);
System.out.println("Text:" + st);
} catch (Exception e) {
e.printStackTrace();
}
참고링크 : http://pdfbox.apache.org/1.8/cookbook/textextraction.html
[정적분석] c/c++을 위한 정적분석 도구 cppcheck (0) | 2016.09.07 |
---|---|
[정적분석 테스트프로그램] PMD프로그램 사용하는 방법 (0) | 2016.09.07 |
Perl 정규표현식 옵션 정리 (0) | 2016.08.17 |
Junit & Ant를 이용한 테스트 결과 리포트 생성하기 (0) | 2016.08.17 |
소프트웨어 아키텍쳐 표준 IEEE 42010 (0) | 2016.06.06 |