직무사이트 크롤링 프로그램
직무사이트의 평점 추출 및 엑셀 정리
요약
직무사이트에서 원하는 회사들의 평점을 추출하고 저장하는 프로그램입니다. 원하는 키워드들을 돌아가면서 검색하고, 연도별로 추출합니다. 추출된 데이터는 엑셀파일에 저장합니다.
도입배경
고객님은 한 직무사이트에서 약 400개의 기업들의 평점을 연도별로 조사하기 원했습니다. 그래서 저희는 엑셀파일에 저장된 검색어들을 돌아가면서 검색 후, 연도별로 평점을 추출하고 엑셀파일에 저장하는 과정을 자동화한 프로그램을 개발해드렸습니다.
솔루션
1) 400개 업체 링크 추출
400개 키워드를 통해 검색되는 해당 업체의 상세페이지 링크를 모두 자동 수집합니다. 400개 기업의 키워드(삼성전자, 현대 등)는 모두 엑셀파일에 저장시켜놓고 프로그램을 동작시킵니다.
2) 각 기업의 10년치 평점 추출
1단계에서 추출한 링크를 모두 자동 접속하며 평점 데이터를 자동 추출합니다. 2014년부터 2025년까지 자동으로 접속하며 데이터를 추출합니다.
3) 엑셀 자동 저장
2단계에서 추출한 데이터들을 엑셀파일에 모두 자동으로 저장시킵니다. 접속 오류가 있거나, 데이터가 없는 링크들은 따로 표시를 합니다. 링크와 함께 저장하므로, 사용자가 따로 살펴볼 수 있습니다.
성과
- 데이터 추출 100% 자동화
- "클릭 1번"으로 400개 기업의 10년간 평점 추출