Big data-based content publishing automatic management system

본 발명은 대단위의 빅데이터 기반의 컨텐츠 퍼블리싱 자동 관리 시스템에 관한 것으로, 멀티프로세스에 기반하여 병렬적으로 특정 관공서와 관련한 온라인상의 데이터를 짧은 시간에 수집하고, 수집된 데이터를 가공하여 담당자가 직접 작성, 편집, 게시를 하지 않고 동적으로 웹사이트 페이지를 작성하고 게시하기 위한 것으로, 멀티프로세스에 기반하여 병렬적으로 특정 관공서와 관련한 온라인상의 데이터를 외부서버로부터 수집할 데이터를 크롤링하는 크롤러를 포함하는 데이터마이닝엔진을 포함하고, 상기 크롤러는 크롤링한 웹페이지의 URL주소를 리스트화하여...

Full description

Saved in:
Bibliographic Details
Main Author LIM SEUNG HWAN
Format Patent
LanguageEnglish
Korean
Published 03.01.2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:본 발명은 대단위의 빅데이터 기반의 컨텐츠 퍼블리싱 자동 관리 시스템에 관한 것으로, 멀티프로세스에 기반하여 병렬적으로 특정 관공서와 관련한 온라인상의 데이터를 짧은 시간에 수집하고, 수집된 데이터를 가공하여 담당자가 직접 작성, 편집, 게시를 하지 않고 동적으로 웹사이트 페이지를 작성하고 게시하기 위한 것으로, 멀티프로세스에 기반하여 병렬적으로 특정 관공서와 관련한 온라인상의 데이터를 외부서버로부터 수집할 데이터를 크롤링하는 크롤러를 포함하는 데이터마이닝엔진을 포함하고, 상기 크롤러는 크롤링한 웹페이지의 URL주소를 리스트화하여 저장한 텍스트파일인 주소파일과 크롤링한 웹페이지의 제목 중 첫 번째 제목을 해당 웹페이지의 URL주소 단위로 구분하여 저장한 텍스트파일인 제목파일을 생성하고 관리하는 기록관리모듈; 크롤링 수행할 대상의 웹페이지 URL주소가 상기 주소파일에 저장된 웹페이지의 URL주소 중 어느 하나와 동일하면 제1값을 출력하고, 그렇지 않으면 제2값을 출력하는 URL비교모듈; 상기 URL 비교모듈이 제1값을 출력하면, 상기 제목파일에 웹페이지의 URL 주소 단위로 구분되어 저장된 크롤링한 웹페이지의 제목 중 첫 번째 제목과 크롤링 수행할 대상인 웹페이지의 제목 중 첫 번째 제목이 동일하면 제3값을 출력하고, 그렇지 않으면 제4값을 출력하는 제목비교모듈; 상기 URL비교모듈이 제2값을 출력하거나 상기 제목비교모듈이 제4값을 출력한 경우에만 크롤링 수행할 대상의 웹페이지의 데이터를 수집하되, 해당 웹페이지의 로봇 배제 표준(robots exclusion standard)의 내용에 따라 수집이 허가되지 않은 데이터의 크롤링을 방지하면서, 크롤링 수행할 대상의 웹페이지에 대하여 크롤링하여 상기 외부서버로부터 데이터를 수집하는 수집모듈;을 포함한다.
Bibliography:Application Number: KR20220077748