• AWS Lambda에서 Python 코드 배포하기

    작업환경 windows 10 python 3.7 docker for windows 목차 vanilla python python-lambda-local anaconda 전역 pip 모듈 및 캐시 제거 venv로 가상환경에서 실행 python on docker TL;DR 참조 vanilla python 빠른 코드 배포를 위해 다른 생각 없이 로컬환경에 python을 설치해 pip로 패키지를 설치했습니다. 로컬과 aws lambda의 리눅스 환경이 차이가 있다는 것을...


  • Puppeteer로 크롤러 만들기 - 무한스크롤

    작업환경 puppeteer v1.19.0 moment v2.24.0 시리즈 Puppeteer로 크롤러 만들기 - 준비 Puppeteer로 크롤러 만들기 - 페이지네이션 Puppeteer로 크롤러 만들기 - 무한스크롤 목차 모듈 불러오기 및 글로벌 스코프 선언하기 브라우저 옵션 설정하기 함수 작성하기 모델 작성하기 코딩 모듈 불러오기 및 글로벌 스코프 선언하기 이전 편에서 작성한 것처럼 모듈을 불러옵니다. 이번편에서는 cheerio를...


  • Puppeteer로 크롤러 만들기 - 페이지네이션

    작업환경 puppeteer v1.19.0 moment v2.24.0 시리즈 Puppeteer로 크롤러 만들기 - 준비 Puppeteer로 크롤러 만들기 - 페이지네이션 Puppeteer로 크롤러 만들기 - 무한스크롤 목차 모듈 불러오기 및 글로벌 스코프 선언하기 브라우저 옵션 설정하기 함수 작성하기 모델 작성하기 모듈 불러오기 및 글로벌 스코프 선언하기 함수분리 없이 한 파일에서 모든 코드를 작성하도록 하겠습니다. //...


  • Puppeteer로 크롤러 만들기 - 준비

    시리즈 Puppeteer로 크롤러 만들기 - 준비 Puppeteer로 크롤러 만들기 - 페이지네이션 Puppeteer로 크롤러 만들기 - 무한스크롤 목차 체크리스트 전략 수립 브라우저 옵션 설정 참조 체크리스트 커뮤니티, 포털, SNS는 게시판의 형태가 상이하기때문에 어떤 식으로 크롤할지 전략을 수립하는게 크롤러개발 시간을 단축하는데 큰 도움을 준다고 봅니다. 그래서 아래와 같이 체크리스트를 작성해봤습니다. 출처: 나의...


  • Selenium, Puppeteer 비교하기

    서두 nodejs의 cheerio, python의 beautiful soup은 둘 다 스스로 웹사이트를 크롤링 할 수 없습니다. request 라이브러리를 사용해서 html 소스를 가져온 다음에야 크롤이 가능합니다. 또한 웹사이트에서 javascript가 사용된 부분에는 접근하는데 한계가 있습니다. 그래서 이벤트가 일어나야 html이 렌더되는 부분의 데이터를 얻기 위해서는 puppeteer나 selenium같은 라이브러리가 필요합니다. 브라우저를 조작할 수 있는 기능들이 있기때문에...