scrapeghost (GPT로 자동 웹스크래핑 코드 작성)

  • 페이지 관련 코드를 전혀 작성하지 않고, HTML로부터 데이터를 추출하는 실험적인 라이브러리
  • 추출하고 싶은 데이터 형태만 지정한 뒤 URL을 넘기면 알아서 추출해줌
  • 내부에서 비용절감을 위해 HTML 클리닝, 분할등을 처리하고, 추출한 데이터가 진짜로 페이지에 있는 정확한 값인지 Hallucination 체크도 수행
  • GPT API 호출 비용에 대해서 예산 설정 기능 제공

내용 출처 : Scrapeghost – GPT를 이용한 웹 스크래핑 라이브러리 | GeekNews (hada.io)

깃허브 링크 : https://github.com/jamesturk/scrapeghost

Leave a Comment