검색 기능은 준비 중입니다.
검색 기능은 준비 중입니다.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Efficient Distributed Web Crawling Utilizing Internet Resources 인터넷 자원을 활용한 효율적인 분산 웹 크롤링

Xiao XU, Weizhe ZHANG, Hongli ZHANG, Binxing FANG

  • 조회수

    0

  • 이것을 인용

요약 :

인터넷 컴퓨팅은 저렴한 비용으로 대규모 웹 애플리케이션을 구축하기 위해 인터넷을 통해 개인 컴퓨팅 리소스를 활용하도록 제안되었습니다. 본 논문에서는 인터넷 컴퓨팅 개념을 기반으로 한 DHT 기반 분산 웹 크롤링 모델을 제안한다. 또한 시스템의 처리량과 업데이트 속도를 높이기 위해 다운로드 시간과 웹 크롤링 작업의 대기 시간을 줄이는 두 가지 최적화를 제안합니다. 기여자 친화적인 다운로드 체계를 기반으로 크롤러-크롤리 RTT를 단축하여 다운로드 시간을 개선합니다. RTT를 정확하게 추정하기 위해 네트워크 좌표계가 기본 DHT와 결합됩니다. 대기 시간은 각 크롤러의 대기열 크기를 동일하게 유지하기 위해 들어오는 크롤링 작업을 부하가 낮은 크롤러로 리디렉션함으로써 달성됩니다. 또한 작업 세분화를 줄이기 위해 대규모 웹 사이트를 작은 조각으로 분할하는 간단한 웹 사이트 분할 방법을 제안합니다. 제안된 모든 방법은 실제 인터넷 테스트와 시뮬레이션을 통해 평가되었으며 만족스러운 결과를 보여주었다.

발행
IEICE TRANSACTIONS on Information Vol.E93-D No.10 pp.2747-2762
발행일
2010/10/01
공개일
온라인 ISSN
1745-1361
DOI
10.1587/transinf.E93.D.2747
원고의 종류
PAPER
범주
데이터공학, 웹정보시스템

작성자

키워드