# AI 웹페이지 크롤링 및 추출

안녕하세요! 간단한 사이트 링크 입력만으로 해당 웹사이트에 존재하는 데이터를 한번에 수집 가능한 기능을 알아볼까요?

이 기능은 간단하게 링크   입력만으로 AI로 웹페이지 내 정보들을 수집할 수 있는 기능이에요.&#x20;

***

## AI 웹페이지 크롤링으로 데이터 추출하는 방법

{% @arcade/embed flowId="ZQYHX6yPKjcFphhyY9uz" url="<https://app.arcade.software/share/ZQYHX6yPKjcFphhyY9uz>" %}

#### 1. AI 웹페이지 크롤링 및 추출 액션을 선택하세요.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2Fe68f2c8c-0bd1-4986-a70c-e5d5ddd9930c.png\&hotspot=195.00000000000003%3B1356.6666666666667%3B%231484EC)

#### 2. 데이터를 추출할 웹사이트의 URL을 입력합니다.

{% hint style="info" %}
😊Tip) 수집할 페이지가  여러  사이트 라면 데이터시트에 사이트링크를 정리한 후 데이터태그를 활용해서 여러 사이트를 수집할 수 있어요.  (`{`를 입력하면 데이터태그 입력이 가능해요.)&#x20;

페이지 형태에 따라 설정 방법이 다릅니다. 아래 다중 페이지 수집 방법 설정에 대한 내용들을 확인해주세요.&#x20;

❗다중 페이지 수집 기능은 Beta 기능으로 일부 웹사이트에서 작동이 제한될 수 있습니다.
{% endhint %}

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F8002f03d-1481-4413-bf55-a91a057298a0.png\&hotspot=149.16666666666669%3B889.1666666666667%3B%231484EC)

#### 3. 입력이 끝났다면 *다음* 버튼을 눌러 진행합니다.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F795f770f-779b-400b-864a-926f53e542c9.png\&hotspot=220.83333333333337%3B850%3B%231484EC)

#### 4. 페이지내에서수집을 원하는 항목을 입력합니다. 특정한 이름 규칙은 없습니다. 일반적으로 구분 가능한 항목 이름을 입력해주세요.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F93bdd855-e6b5-4956-b1fd-850905463380.png\&hotspot=152.8550375133977%3B748.6641221374047%3B%231484EC)

<div data-full-width="true"><img src="https://image.mux.com/TJ8v02Y3X54BNTWLrFMoYVUWWl01cSY41kLNAeAJanV8g/animated.gif?start=13.116999999999999&#x26;end=23.116999999999997&#x26;width=640&#x26;fps=30" alt=""></div>

#### 6. 항목 입력이 끝났다면 다음 버튼을 눌러주세요.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F93bdd855-e6b5-4956-b1fd-850905463380.png\&trim=-0.281881424391768%3B408.5191436068699%3B506.0839170478014%3B657.4961235687023\&hotspot=409.4369724393347%3B861.7119047750091%3B%231484EC)

#### 7. 수집한 결과를 출력할 탭, 셀위치를 선택해줍니다.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F45c8b04a-6bb0-43c0-97b7-7b690f8c748a.png\&hotspot=186.07851018220796%3B639.7201017811705%3B%231484EC)

#### 8. 완료 버튼을 눌러 설정을 저장해주세요.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F45c8b04a-6bb0-43c0-97b7-7b690f8c748a.png\&hotspot=287.38210075026797%3B902.3155216284987%3B%231484EC)

#### 9. 한 번만 실행하기기 버튼을 눌러 크롤링 및 추출 작업을 시작하세요.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F8d85c21f-a076-45bf-aa8c-fe68175d7984.png\&hotspot=671.6666666666667%3B1305%3B%231484EC)

#### 10. 작업이 완료되면 결과를 확인해주세요.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2Ffdc165c4-f8ba-4884-b276-0df42a02fc44.png\&hotspot=282.50000000000006%3B1005.8333333333334%3B%231484EC)

#### 11.   URL입력만으로 웹페이지에서 원하는 항목 추출이 끝났습니다.

![](https://worker.arcade.software/image-transform?image=https%3A%2F%2Fcdn.arcade.software%2Fextension-uploads%2FZQYHX6yPKjcFphhyY9uz%2Fimage%2F724026d6-1f6e-4ecb-bfaf-99d2ee2b1baf.png\&hotspot=256.3102893890676%3B1019.236641221374%3B%231484EC)

![](https://image.mux.com/TJ8v02Y3X54BNTWLrFMoYVUWWl01cSY41kLNAeAJanV8g/animated.gif?start=119.92\&end=126.963\&width=640\&fps=30)

***

**다중 페이지 수집 설정하기 (beta)**

1. 사이트 형태: 어떤 방식으로 다음 페이지로 이동하는지를 설정해주세요.&#x20;
   * 각 페이지가 구분됨: 버튼 등으로 각 페이지를 이동하는 페이지 형태에요. EX) 쿠팡 상품 리스트 화면
   * 무한 스크롤: 스크롤을 하면 계속 정보가 불러와지는 페이지 형태에요. EX) 인스타그램, 쓰레드
   * 더보기: 더보기 버튼을 눌러 페이지 정보를 더 불러오는 페이지 형태에요.
2. Selector(각 페이지가 구분됨,더보기) : AI가 페이지를 이동하기 위해 어떤 버튼을 눌러야 하는지를 알려주세요. &#x20;

   :bulb:Selector 확인, 복사 방법

   1\) 크롬 브라우저에서 F12를 눌러 개발자도구를 켜주세요.

   2\) Ctrl+Shift+C를 눌러 요소 선택 기능을 활성화해주세요.

   3\) 버튼을 찾아 클릭해주세요.

   4\) 개발자도구에서 표시되는 부분을 확인하고 우클릭 > 복사 > selector 복사 버튼을 눌러주세요. 그 후 가장 마지막 `>` 표시 뒤에 값을 입력해주세요.&#x20;

   <figure><img src="https://4259766993-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F9tf5wU3gqEdnZAEnPTm6%2Fuploads%2F4SUu7XL4YBoNPcadjTlZ%2Fselector%20%EB%B3%B5%EC%82%AC%20%EB%B0%A9%EB%B2%95%20%EC%98%88%EC%8B%9C.gif?alt=media&#x26;token=e35038ab-4f5b-48b4-a490-5ceb22557337" alt=""><figcaption></figcaption></figure>
3. 페이지넘버: 몇 페이지를 수집할지를 데이터태그를 통해 설정해주세요. 데이터 시트에 원하는 페이지 넘버까지 한번에 정리 후 데이터 태그를 통해 입력하시면 됩니다.

{% hint style="warning" %}
&#x20;**일부사이트의경우 무단 수집 제한으로 인해 수집이 제한될 수 있습니다. 반드시테스트 수집 후 본 수집을 진행해주세요.**
{% endhint %}
