Crowd Parser

본 문서는 크라우드웍스 플랫폼에서 제공하는 '크라우드파서'에 대해 소개합니다.

  • '크라우드파서'는 LLM Pre-training 및 RAG를 위한 기업 문서 전처리 Solution입니다.

  • 크라우드웍스 플랫폼에서 제공하는 '크라우드파서'를 통해 문서의 텍스트, 수식, 표, 이미지를 Machine-Readable한 형태(Markdown)로 전처리 할 수 있습니다.

1. '크라우드파서'란?

  • 크라우드웍스 플랫폼의 데이터 구축 Solution 중 LLM Pre-training 및 RAG를 위한 데이터를 구축할 수있는 전용 Solution입니다.

  • 문서 내 텍스트, 수식, 표, 이미지를 Machine-Readable한 형태(Markdown)로 전처리 할 수 있습니다.

  • WYSIWYG(What You See Is What You Get) 시스템을 적용한 Markdown Editor를 탑재하여 직관적인화면구성과 효율적인 작업 방식으로 전처리 데이터를 구축할 수 있습니다.

WYSIWYG이란?

위지윅(WYSIWYG: What You See Is What You Get, "보는 대로 얻는다")은 인쇄된 문서, 웹 페이지, 슬라이드 프레젠테이션 등 완성된 결과물로서 인쇄 또는 표시될 때의 모습과 닮은 형태로 콘텐츠의 편집이 가능한 시스템이다.

2. '크라우드파서'의 특장점

2-1. 직관적인 WYSIWYG 작업 환경

'크라우드파서'는 WYSIWYG 시스템을 적용하여 Markdown 작성의 효율성을 극대화합니다. Markdown 문법에 익숙하지 않더라도 직관적인 tool bar와 라이브 화면으로 쉽게 데이터를 입력하고 검수할 수 있습니다.

'크라우드파서'에서 Markdown작성 tool bar

2-2. Live mode로 검수 효율 극대화

Markdown 포맷이 아무리 간편하더라도 검수 시 최종 렌더링 결과를 직접 확인하지 않으면 오류를 쉽게 놓칠 수 있습니다. '크라우드파서'의 Live mode는 작성과 동시에 최종 출력 형태를 확인할 수 있어, 데이터 검수 과정에서의 시간 절약과 품질 향상을 보장합니다.

원본 문서(왼쪽)와 Live mode(오른쪽)를 활용한 검수 화면

2-3. 다양한 데이터 요소의 통합 관리

텍스트, 수식, 표, 이미지 등 복잡한 문서 구성 요소를 Markdown 형태로 통합 관리할 수 있습니다. Live mode에서는 이러한 다양한 요소가 실제 데이터처럼 시각화되므로, 데이터 구축 작업 중 데이터 구조를 더욱 명확히 이해할 수 있습니다.

2-4. 작업 모드 전환으로 유연한 데이터 처리

Live mode와 Text mode 간의 손쉬운 전환이 가능합니다. 직관적인 시각적 작업(Live mode)과 세밀한 Markdown 코드 편집(Text mode)을 모두 지원하여, 문서 전처리 작업자는 작업 방식에 따라 유연하게 대처할 수 있습니다.

Text mode(왼쪽)와 Live mode(오른쪽)를 비교 화면

2-5. 에러 방지 및 데이터 품질 개선

WYSIWYG 기반 Live mode에서는 작성 중의 오류나 불일치 문제를 즉시 확인할 수 있어, 후속 검수 단계에서 발생할 수 있는 추가 작업을 최소화합니다. 데이터 구축 시 높은 데이터 품질을 유지하는 데 기여합니다.

3. 기본 구성

3-1. 기본 작업화면

  • 작업 화면 왼쪽은 원본 문서(PDF)가(image off) 노출됩니다.

  • 작업 화면 오른쪽은 Markdown Editor(Live mode)가 노출됩니다.

기본 작업 화면 - 원본 문서(PDF) 노출 영역(왼쪽)과 Markdown Editor 노출 영역(오른쪽)

3-2. image on

  • 작업 화면 왼쪽 상단에 'image 토글 버튼'을 on으로 변경 시 PDF가 image로 변환됩니다.

  • image on 상태에서는 OCR 기능을 사용하거나 이미지를 파일(.png)로 저장할 수 있습니다.

image 토글 on(왼쪽 상단)

3-3. live mode & text mode

  • Markdown editor는 'live mode'와 'text mode'가 존재합니다.

  • live mode에서는 markdown viewer와 같이 렌더링된 화면으로 보여지며, tool bar를 활용하여 markdown으로 입력할 수 있습니다. (WYSIWYG 시스템 적용)

  • text mode에서는 live mode에서 작업된 내용을 Markdown으로 변환되어 보여집니다.

Live mode에서 작업 예시(왼쪽)와 Text mode에서 Markdown으로 변환된 예시(오른쪽)

4. 세부 기능

4-1. 문서 구조화

  • 문서를 구성하는 요소(개요, 본문, 참고, 부록 등)에 맞게 tagging하여 문서를 구조화할 수 있습니다.

문서의 '참고' 부분을 '참고' 항목으로 태깅하여 "annexes"로 데이터 구조화

4-2. 문서 계층 구조 처리

  • 문서 전체의 계층 구조를 파악하여 Markdown으로(#, ##, ### ...) 위계를 처리할 수 있습니다.

  • live mode에서 tool bar를 활용하여 header를 부여하고 문서의 계층 구조를 표현합니다.

4-3. 표, 수식, 이미지 처리

4-3-1. 표

  • 원본 표에 맞게 live mode에서 표를 작성하면 markdown으로 변환할 수 있습니다.

  • 표 제목 등 캡션 텍스트를 포함하여 데이터로 처리할 수 있습니다.

표 처리 예시

4-3-2. 수식

  • 수식이 포함된 텍스트는 OCR을 활용하여 LaTeX 문법으로 처리할 수 있습니다.

  • live mode에서 전사된(generated) 수식을 확인하여 직접 수정할 수 있습니다.

수식 처리 예시

4-3-3. 이미지

  • 이미지는 crop&paste를 통해 파일(.png)로 저장하고, '이미지 제목', '대체 텍스트'를 입력할 수 있습니다.

이미지 처리 예시

5. '크라우드파서'를 활용한 전처리 데이터 예시

5-1. S보험사 보험약관 전처리

  • 보험약관 문서는 법 조문 체계에 따라 '편-장-절-관-조-항-호-목'으로 구성되어 있으며, 동일한 용어가 각 조항마다 반복적으로 나타나는 문서입니다.

보험약관 문서 예시
  • RAG에 활용하기 위해 '조'를 기준으로 chunk를 구성하고, retrieval 강화를 위해 tree 구조를 만들고 UUID를 부여하여 chunk를 구분하였습니다.

  • 작업자가 문서 전체의 계층 구조를 이해하며 작업하기에 어려움이 있는 경우 '크라우드파서'를 사용하여 원본 문서를 세부적인 depth 별로 구분하여 전처리가 가능합니다.

tree 구조 예시(왼쪽)와 chunk 예시(오른쪽)

5-2. 중앙은행 연구보고서 전처리

  • 중앙은행에서 발간하는 연구 자료, 보고서는 1개 문서가 100p 이상으로 문서의 계층 구조가 나타나지만 문서 유형이 다양하고 발간 연도별 서식이 상이한 문서입니다.

중앙은행 연구자료 문서 예시
  • RAG에 활용하기 위해 문서별 메타 데이터를 구축하였고, 문서 유형에 맞게 문서를 구조화하고 이미지, 표, 수식을 markdown으로 처리하였습니다.

문서 내 기본 정보를 활용한 메타 데이터 구축 예시

영업 문의

영업팀에 문의하세요. 궁금한 사항을 남겨주시면 최대한 빠르게 연락드리겠습니다.

Last updated