# Crowd Parser

{% hint style="info" %}
본 문서는 크라우드웍스 플랫폼에서 제공하는 '크라우드파서'에 대해 소개합니다.

* '크라우드파서'는 LLM Pre-training 및 RAG를 위한 기업 문서 전처리 Solution입니다.
* 크라우드웍스 플랫폼에서 제공하는 '크라우드파서'를 통해 문서의 텍스트, 수식, 표, 이미지를 Machine-Readable한 형태(Markdown)로 전처리 할 수 있습니다.
  {% endhint %}

## 1. '크라우드파서'란?

* 크라우드웍스 플랫폼의 데이터 구축 Solution 중 LLM Pre-training 및 RAG를 위한 데이터를 구축할 수있는 전용 Solution입니다.
* 문서 내 텍스트, 수식, 표, 이미지를 Machine-Readable한 형태(Markdown)로 전처리 할 수 있습니다.
* WYSIWYG(What You See Is What You Get) 시스템을 적용한 Markdown Editor를 탑재하여 직관적인화면구성과 효율적인 작업 방식으로 전처리 데이터를 구축할 수 있습니다.

{% hint style="info" %}
WYSIWYG이란?

위지윅(WYSIWYG: What You See Is What You Get, "보는 대로 얻는다")은 인쇄된 문서, 웹 페이지, 슬라이드 프레젠테이션 등 완성된 결과물로서 인쇄 또는 표시될 때의 모습과 닮은 형태로 콘텐츠의 편집이 가능한 시스템이다.
{% endhint %}

## 2. '크라우드파서'의 특장점

### **2-1. 직관적인 WYSIWYG 작업 환경**

<mark style="color:red;">'크라우드파서'는 WYSIWYG 시스템을 적용하여 Markdown 작성의 효율성을 극대화</mark>합니다. Markdown 문법에 익숙하지 않더라도 직관적인 tool bar와 라이브 화면으로 쉽게 데이터를 입력하고 검수할 수 있습니다.

<figure><img src="https://2457514744-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FjiXNMD7IBENi2ZYTMap0%2Fuploads%2FepGo2eqaAZdKL1XTO3Yj%2Fimage.png?alt=media&#x26;token=9c95c447-df7d-4e84-bde9-9020a881f7d0" alt=""><figcaption><p>'크라우드파서'에서 Markdown작성 tool bar</p></figcaption></figure>

### 2-2. Live mode**로 검수 효율 극대화**

Markdown 포맷이 아무리 간편하더라도 검수 시 최종 렌더링 결과를 직접 확인하지 않으면 오류를 쉽게 놓칠 수 있습니다. <mark style="color:red;">'크라우드파서'의 Live mode는 작성과 동시에 최종 출력 형태를 확인할 수 있어, 데이터 검수 과정에서의 시간 절약과 품질 향상을 보장</mark>합니다.

<figure><img src="https://2457514744-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FjiXNMD7IBENi2ZYTMap0%2Fuploads%2FeCFTxWGK2LUTGMj36ELf%2Fimage.png?alt=media&#x26;token=41dc057d-36c7-41a7-9e53-635e2329f438" alt=""><figcaption><p>원본 문서(왼쪽)와 Live mode(오른쪽)를 활용한 검수 화면</p></figcaption></figure>

### **2-3. 다양한 데이터 요소의 통합 관리**

<mark style="color:red;">텍스트, 수식, 표, 이미지 등 복잡한 문서 구성 요소를 Markdown 형태로 통합 관리</mark>할 수 있습니다. Live mode에서는 이러한 다양한 요소가 실제 데이터처럼 시각화되므로, 데이터 구축 작업 중 데이터 구조를 더욱 명확히 이해할 수 있습니다.

### **2-4. 작업 모드 전환으로 유연한 데이터 처리**

Live mode와 Text mode 간의 손쉬운 전환이 가능합니다. <mark style="color:red;">직관적인 시각적 작업(Live mode)과 세밀한 Markdown 코드 편집(Text mode)을 모두 지원하여, 문서 전처리 작업자는 작업 방식에 따라 유연하게 대처</mark>할 수 있습니다.

<figure><img src="https://2457514744-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FjiXNMD7IBENi2ZYTMap0%2Fuploads%2FeTstLhmtmMJ7C4VSDGIE%2Fimage.png?alt=media&#x26;token=e6445c7f-de61-43c7-b825-7146eb0edb60" alt=""><figcaption><p>Text mode(왼쪽)와 Live mode(오른쪽)를 비교 화면</p></figcaption></figure>

### **2-5. 에러 방지 및 데이터 품질 개선**

WYSIWYG 기반 Live mode에서는 <mark style="color:red;">작성 중의 오류나 불일치 문제를 즉시 확인할 수 있어, 후속 검수 단계에서 발생할 수 있는 추가 작업을 최소화</mark>합니다. 데이터 구축 시 높은 데이터 품질을 유지하는 데 기여합니다.

## 3. 기본 구성

### 3-1. 기본 작업화면

* 작업 화면 왼쪽은 원본 문서(PDF)가(image off) 노출됩니다.
* 작업 화면 오른쪽은 Markdown Editor(Live mode)가 노출됩니다.

<div align="center"><figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/9mTfRUoJ98FNssA6Jyc6/image.png" alt=""><figcaption><p>기본 작업 화면 - 원본 문서(PDF) 노출 영역(왼쪽)과 Markdown Editor 노출 영역(오른쪽)</p></figcaption></figure></div>

### 3-2. image on

* 작업 화면 왼쪽 상단에 'image 토글 버튼'을 on으로 변경 시 PDF가 image로 변환됩니다.
* image on 상태에서는 OCR 기능을 사용하거나 이미지를 파일(.png)로 저장할 수 있습니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/aKqPRVFCRY0yDok3RLUv/image.png" alt=""><figcaption><p>image 토글 on(왼쪽 상단)</p></figcaption></figure>

### 3-3. live mode & text mode

* Markdown editor는 'live mode'와 'text mode'가 존재합니다.
* live mode에서는 markdown viewer와 같이 렌더링된 화면으로 보여지며, tool bar를 활용하여 markdown으로 입력할 수 있습니다. (WYSIWYG 시스템 적용)
* text mode에서는 live mode에서 작업된 내용을 Markdown으로 변환되어 보여집니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/XokcyLKy5gTkYJ9FPQec/image.png" alt=""><figcaption><p>Live mode에서 작업 예시(왼쪽)와  Text mode에서 Markdown으로 변환된 예시(오른쪽)</p></figcaption></figure>

## 4. 세부 기능

### 4-1. 문서 구조화

* 문서를 구성하는 요소(개요, 본문, 참고, 부록 등)에 맞게 tagging하여 문서를 구조화할 수 있습니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/9wnZILEidsYq2vF5sACL/image.png" alt=""><figcaption><p>문서의 '참고' 부분을 '참고' 항목으로 태깅하여 "annexes"로 데이터 구조화</p></figcaption></figure>

### 4-2. 문서 계층 구조 처리

* 문서 전체의 계층 구조를 파악하여 Markdown으로(#, ##, ### ...) 위계를 처리할 수 있습니다.
* live mode에서 tool bar를 활용하여 header를 부여하고 문서의 계층 구조를 표현합니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/GdyioL8VCiJh4nmluBLA/image.png" alt=""><figcaption></figcaption></figure>

### 4-3. 표,  수식, 이미지 처리

#### 4-3-1. 표

* 원본 표에 맞게 live mode에서 표를 작성하면 markdown으로 변환할 수 있습니다.
* 표 제목 등 캡션 텍스트를 포함하여 데이터로 처리할 수 있습니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/crgS0XKQlMmoC5hvhgBw/image.png" alt=""><figcaption><p>표 처리 예시</p></figcaption></figure>

#### 4-3-2. 수식

* 수식이 포함된 텍스트는 OCR을 활용하여 LaTeX 문법으로 처리할 수 있습니다.
* live mode에서 전사된(generated) 수식을 확인하여 직접 수정할 수 있습니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/9EvszCGL9lLKfcnkpDgV/image.png" alt=""><figcaption><p>수식 처리 예시</p></figcaption></figure>

#### 4-3-3. 이미지

* 이미지는 crop\&paste를 통해 파일(.png)로 저장하고, '이미지 제목', '대체 텍스트'를 입력할 수 있습니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/zwMYN2D59D1Vi7azLS2X/image.png" alt=""><figcaption><p>이미지 처리 예시</p></figcaption></figure>

## 5. '크라우드파서'를 활용한 전처리 데이터 예시

### 5-1. S보험사 보험약관 전처리

* 보험약관 문서는 법 조문 체계에 따라 '편-장-절-관-조-항-호-목'으로 구성되어 있으며, 동일한 용어가 각 조항마다 반복적으로 나타나는 문서입니다.

<figure><img src="https://content.gitbook.com/content/jiXNMD7IBENi2ZYTMap0/blobs/wEqlBAeYFFTcDeaHITYL/image.png" alt=""><figcaption><p>보험약관 문서 예시</p></figcaption></figure>

* RAG에 활용하기 위해 '조'를 기준으로 chunk를 구성하고, retrieval 강화를 위해 tree 구조를 만들고 UUID를 부여하여 chunk를 구분하였습니다.
* 작업자가 문서 전체의 계층 구조를 이해하며 작업하기에 어려움이 있는 경우 '크라우드파서'를 사용하여  원본 문서를 세부적인 depth 별로 구분하여 전처리가 가능합니다.

<figure><img src="https://2457514744-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FjiXNMD7IBENi2ZYTMap0%2Fuploads%2FNQfl4UFF95MQvg5k5CIj%2Fimage.png?alt=media&#x26;token=213797ab-a694-49aa-b0eb-f7519308b0dd" alt=""><figcaption><p>tree 구조 예시(왼쪽)와 chunk 예시(오른쪽)</p></figcaption></figure>

### 5-2. 중앙은행 연구보고서 전처리

* 중앙은행에서 발간하는 연구 자료, 보고서는 1개 문서가 100p 이상으로 문서의 계층 구조가 나타나지만 문서 유형이 다양하고 발간 연도별 서식이 상이한 문서입니다.

<figure><img src="https://2457514744-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FjiXNMD7IBENi2ZYTMap0%2Fuploads%2FAHxVAG8wFbFbfwTaSPpa%2Fimage.png?alt=media&#x26;token=5b7499df-dbb2-404c-bbe5-a680b49db275" alt=""><figcaption><p>중앙은행 연구자료 문서 예시</p></figcaption></figure>

* RAG에 활용하기 위해 문서별 메타 데이터를 구축하였고, 문서 유형에 맞게 문서를 구조화하고 이미지, 표, 수식을 markdown으로 처리하였습니다.

<figure><img src="https://2457514744-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FjiXNMD7IBENi2ZYTMap0%2Fuploads%2Fas7ZoXe6w686y5eI0hLP%2Fimage.png?alt=media&#x26;token=03c7aaae-29d0-4563-93a3-485eac48c134" alt=""><figcaption><p>문서 내 기본 정보를 활용한 메타 데이터 구축 예시</p></figcaption></figure>

***

## **영업 문의**

영업팀에 문의하세요.  궁금한 사항을 남겨주시면 최대한 빠르게 연락드리겠습니다.

{% embed url="<https://crowdworks.ai/ko/company/contact>" %}
