친절한효자손 취미생활

NoteBookLM 이란?

노트북LM이라고 아시나요? 이미 검증되어 있는 자료들을 키워드만 입력하면 자동으로 수집하고 수집된 내용을 바탕으로 핵심 요약 및 보고서 작성, PPT, 카드 뉴스 등 다양한 플랫폼으로 변환하여 콘텐츠를 재가공해주는 엄청난 AI 플랫폼입니다. 또한 외부 정보를 임의로 섞지 않고 등록한 자료 안에서만 답변을 생성하기 때문에 정보 신뢰도가 높으며 답변마다 근거가 되는 원문 위치를 함께 제시해 검증이 쉽다는 장점이 있습니다. 구글에서 운영하고 있고 아직까지는 많이 알려지지 않아서 그런지 사용자가 엄청나게 많지는 않지만, 기능이 너무 우수해서 이미 아는 사람들은 전부 활용 중입니다. 특히 분량이 많은 문서나 구조가 복잡한 자료를 빠르게 이해해야 할 때 유용하며 논문 정리 보고서 분석 기술 문서 검토처럼 정확성이 중요한 작업에 적합한 도구입니다. 저는 이번 기회에 알게 되었네요. 테너쉐어의 광고 협찬에 의해 작성된 이 문서는 100% 순수하게 제 의견이 반영되어 있음을 밝힙니다. 직접 써 보고 기능이 어떤지 딱 말씀 드리겠습니다.

 

NotebookLM PDF > OCR 편집

노트북LM으로 생성한 PDF 문서는 2차 가공이 거의 불가능합니다. 그룹으로 노트북LM에서 활동하면서 만든 문서라면 이미 원본이 있으니 언제든 원본 재편집을 통해 PDF 문서를 재생성 하면 되지만, 그렇지 않은 경우에는 이미 완성된 노트북LM PDF 문서를 편집해야 하는 상황이 발생할 수 있습니다. 이런 경우에는 OCR이라는 활용 방법으로 PDF 문서의 텍스트를 추출, 재편집이 가능한 상태로 바꿔줍니다. 다만 이런 OCR 프로그램들이 한두개가 아니며 웹서비스를 통해 추가 프로그램 설치없이 편집이 가능한 상태로 만들어주기도 합니다.

 

다만 웹이라는 특성상 뭔가 중요한 문서라고 한다면 왠지 웹에서 수집을 하는게 아닐까라는 의심이 들기도 해서 민감하신 분들은 아무래도 사용하기가 좀 꺼려질지도 모릅니다. 또한 대부분의 웹플랫폼의 PDF to OCR 변환기는 인식률이 떨어지는 경우가 많습니다. 특히 대부분의 OCR 웹서비스는 기본 언어가 영어죠. 한국 사람이 이용할 때 대부분은 아무래도 한글 PDF가 포함될 확률이 높은데 이때 한글까지 정확하게 인식해서 변환 가능한 텍스트로 바꿔주는 경우가 잘 없어요.

 

NotebookLM PDF는 텍스트가 선택되지 않거나 복사해도 깨지는 경우가 많아 보고서 수정이나 2차 가공이 사실상 불가능합니다.숫자 하나 바꾸려면 처음부터 다시 만들어야 하고 표는 캡처해서 다시 작업해야 하며 온라인 OCR 변환 도구는 대부분 신용카드 등록을 요구하거나 파일을 서버에 업로드해야 해서 보안이 불안합니다. 이 지점에서 많은 사용자들이 “NotebookLM 결과물을 제대로 활용할 방법”을 찾게 됩니다.  이런 경우에 추천할만한 프로그램이 바로 테너쉐어에서 출시한 PDNob 입니다.

 

PDNob 성능 테스트

테너쉐어 PDNob 다운로드

 

위의 공식 홈페이지를 방문하시고 무료 다운로드를 받으시면 됩니다. 설치 과정에서는 특별히 중요한 내용이 없으므로 생략하겠습니다. 여기에서는 각각 3가지 경우를 테스트해보려고 합니다.

 

1. 백그라운드가 단순한 텍스트 OCR 시도

먼저 백그라운드가 단색이어서 텍스트 인식이 비교적 쉬운 PDF 문서를 PDNob의 OCR 기능을 사용하여 텍스트 추출을 시도해 보겠습니다. 테너쉐어 PDNob 설치가 완료되었다면 실행합니다. 그러면 위와 같은 화면이 뜨는데 1번의 PDF 열기 버튼을 눌러서 편집할 PDF 문서를 로딩할 수 있습니다. 아니면 2번 항목에 직접 편집하고자 하는 PDF 문서를 드래그하여 불러올수도 있습니다.

 

문서를 불러왔습니다. 이력서 샘플을 찾았고 이것을 편집할 수 있는지 시도해 볼 것입니다. 보시면 백그라운드가 흰색이죠? 따라서 텍스트만 인식하기가 매우 수월한 상태라고 볼 수 있겠습니다. 위의 사진에서는 파란색으로 보여지는데 그건 현재 선택된 상태여서 그런 것입니다.

 

이제 이 상태에서 OCR 실행 버튼을 누릅니다.

 

그러면 OCR PDF 설정창이 뜨는데 특별히 옵션 변경할 부분은 없어서 바로 OCR 실행 버튼을 눌러주면 됩니다.

 

열심히 OCR 변환 중입니다.

 

완료되었습니다. 텍스트가 사용된 모든 영역에 대해 텍스트 편집이 가능한 상태가 되었습니다. 훌륭하군요.

 

편집을 원하는 문장에 클릭해 보시면 이렇게 텍스트 편집 모드가 됩니다.

 

앗?! 그런데 보니까 영어 알파벳 중 일부가 "니" 라는 글자로 표현되는군요. 이건 영어 알파벳 'u'가 한글의 '니'로 인식되는 버그인 것 같습니다.

 

따라서 이 문제를 해결하려면 언어 인식에서 한국어를 제외한 영어만 인식하게 만들면 해결됩니다. 혹은 그냥 OCR로 인식한 텍스트를 수동으로 수정해도 좋고요.

 

다만 영어로 인식해서 다시 OCR를 해보니 이번에는 텍스트가 두 겹으로 보이는 문제가 발생했습니다. 이것은 원래의 텍스트와 편집되면서 변형된 글꼴의 텍스트가 겹치게 되는 이슈군요.

 

아까 오류가 있었던 텍스트는 정상적으로 인식했습니다.

 

완벽하게 텍스트를 인식하게 되었습니다. 이제 원하는 텍스트로 편집하면 됩니다.

 

이번에는 한글로 도전해 봅니다. 아무래도 한국인들에게 어필하는 OCR 프로그램이니까요.

 

적당한 이력서 PDF 샘플을 들고 왔습니다. 영어도 포함되어있긴 하지만 극히 일부입니다. 대부분은 한글입니다.

 

아까와 마찬가지로 언어 인식은 영어와 한국어입니다.

 

인식 완료되었습니다. 오~ 놀랍게도 한국어는 거의 변함이 없어요. 즉 OCR을 통해 제대로 인식합니다. 오타율이 거의 없습니다.

 

오리지널 버전의 폰트 스타일과 바뀐 이유는 제 컴퓨터에 해당 폰트가 없기 때문이죠. 그래서 기본 글꼴인 바탕체로 자동 변경되었습니다. 글꼴은 여러분들의 PC에 설치된 것들 중 원하는 것으로 변경하시면 됩니다.

 

2. 이미지 위에 있는 텍스트 OCR 시도

이미지가 다수 포함된 PDF 문서를 OCR 시도해 보았습니다. 근데 일부 텍스트를 이미지로 인식하네요.

 

그래도 절반 이상의 텍스트는 정상적으로 편집 모드로 들어갈 수 있었습니다.

 

이번에는 한국어 버전입니다. 아까와 마찬가지로 이미지가 다수 포함된 PDF 문서입니다.

 

OCR 스캔 완료했습니다. 근데 진짜 신기하게도 한글은 기가막히게 모두 텍스트를 추출하네요! 이거 진짜 놀랍습니다. 한국어를 이렇게 또 잘 챙겨주다니?! 매우 감사하고요.

 

3. NotebookLM PDF 텍스트 OCR 시도

이번에는 오늘의 핵심인 노트북LM으로 완성시킨 PDF 문서를 PDNob OCR로 텍스트를 추출해 보겠습니다. 노트북LM으로 대충 우주나이에 대한 블로그 정보성 글을 완성시켜 보았습니다. 이렇게 완성된 글을 PDF로 내보내기하고 테너쉐어 PDNob으로 불러옵니다.

 

불러왔습니다. 이번에는 한국어를 먼저 테스트해봅니다. 바로 OCR 실행 버튼을 눌러봅니다.

 

페이지 범위는 모든 페이지로 설정합니다. 나머지는 아까와 동일합니다.

 

이야~ 아니 근데 진짜 테너쉐어 PDNob 소프트웨어는 한국어에 굉장히 친화적인 것 같아요. 진짜 인식 잘 합니다. 오타율도 거의 없고요.

 

이번에는 영문 버전으로 시도해 봅니다.

 

영문 버전도 완벽하게 텍스트 추출이 됩니다.

 

메모장에 붙여놔도 완벽합니다.

 

마무리

테너쉐어 PDNob 프로그램의 OCR 기능, 이거 생각보다 성능이 너무 좋습니다. 구글LM PDF 문서도 거의 완벽하게 텍스트 편집이 가능하게끔 만들어 줍니다. NotebookLM은 문서 생성에 강하고 PDNob은 그 결과물을 편집·활용하는 데 특화된 도구입니다. 특히 웹플랫폼이 아니라 데스크톱 기반으로 보안성 부분에서 우수합니다. OCR 처리 속도 빠르고 PDF 소프트웨어의 핵심 기능을 모두 갖춘 프로그램입니다. 또한 당장 유료로 사용하지 않더라도 PDNob에서는 매주 무료 OCR 사용 기회도 제공되어 부담 없이 체험할 수 있어서 맛보기를 해볼수도 있고요. 노트북LM에서 PDF 문서를 자주 만드시는 분들, 그렇게 완성된 PDF 문서를 다시 한 번 재편집 해야 하는 경우, 이런 분들에게 딱인 소프트웨어라고 생각합니다. 여러말해 뭐합니까? 직접 한번 써보시기 바랍니다. 끝.

 

테너쉐어 PDNob PDF to OCR 프로그램

 

공유하기

facebook X kakaoTalk naver band