크롤링과 스크래핑

데이터를 추출하고 분석을 할 때, "??아 어디 사이트 크롤링해서 데이터좀 뽑아봐." 이렇게 말을 하며 데이터를 추출하고 분석을 요구하는 경우가 있다. 이 때마다, 나는 파이썬으로 특정 웹사이트에 데이터를 가져왔다. 근데 여기서 가끔 의문점이 든다. 이건 '스크래핑이 아닌가?' 그래서 이 참에 크롤링과 스크래핑에 대한 차이를 명확하게 구분하고 이해해보자 하여 이 글을 써본다.

크롤링과 스크래핑

크롤링	스크래핑
웹 사이트의 콘텐츠를 모아서 분류하고, 알아보기 쉽게 표시해 구글과 같은 검색엔진 검색 결과에서 해당 페이지가 노출될 수 있도록 하는 작업	웹 사이트 내 특정 페이지에서 특정한 정보를 추출하는 작업

위의 정의를 보았을 때, 크롤링은 데이터를 추출한다는 의미보다는 데이터를 쉽고 빠르게 찾기 위해 탐색한 웹페이지를 인덱싱하는 작업이고, 스크래핑은 특정 페이지에서 원하는 데이터만 얻기 위한 작업이다.

이렇게 보니까 확실하게 초점이 다른 것으로 보인다. 크롤링은 '탐색과 색인', 스크래핑은 '데이터 추출'

나는 그럼 크롤링을 해본 것이 아니라 스크래핑을 한 것이다. 하하하

웹 크롤링의 동작 원리

스크래핑은 대략 어떻게 하는 지 안다. 원하는 페이지의 url과 특정 요소의 타이틀이나 id명 등으로 원하는 데이터만 추출한다.

그럼 웹 크롤링은 어떻게 동작하는 걸까?

1. 탐색할 웹페이지를 선택하고 URL를 입력하여 탐색을 시작한다.

2. 탐색하는 페이지의 HTML을 파싱하고 하이퍼링크를 추출한다.

3. 추출된 정보를 저장한다.

4. 특정 조건에 충족할 때까지 1,2,3번의 과정을 반복한다.

웹서칭을 해도 GPT나 Gemini한테 물어봐도 해당 과정은 거의 동일하게 알려준다. 근데 이러한 과정들을 소개시켜주는 걸 보면

좀 답답한 마음이 있다. 마치 교과서에서 단원이 시작할 때 적혀있는 정의를 보는 것 같다. 그래서 직접 해볼 생각이다.

주의사항

또한, 개인정보 수집 시 개인정보보호법에 준수해야 하며, 수집한 데이터의 사용 목적을 명확히 하고 출처를 명시해야 한다.

마무리

이 글은 일단 크롤링과 스크래핑의 차이에 대해 알아가는 것이 수확이라 생각한다. 애매한 지식을 머릿속에 확립시키고 나서 이제 크롤링이 어떻게 동작을 하는 것인지 알아야 한다. 나는 기획자지만 어느 정도 기술에 대한 메커니즘을 이해해야 기획과 설계를 하고 개발과 소통이 원활하게 된다고 생각한다.(절대 개발자랑 싸워서 이기려고 그러는 것 아니다.. 정말이다.. 토론정도..?)

~~그래서 다음 글에서는 직접 크롤링을 해보고 경험담으로 작성을 해보려고 한다.~~ (플러터 공부 후에 하기로 했다...)

'기획 > 개념' 카테고리의 다른 글

앱 화면 기획 시 꼭 알아야 할 7가지 터치 제스처 정리 (1)	2025.10.12
프로토타입의 두 가지 개념 : Lo-fi 와 Hi-fi (0)	2025.09.10
페르소나 도출하기 (0)	2024.11.04
서비스 기획 프로세스와 역할 (0)	2024.08.01