본문 바로가기
  • 기록
파이썬

웹 스크래핑4(다음 영화)

by juserh 2021. 7. 6.

다음 영화 연도별 역대 관객순위 url형태: https://search.daum.net/search?w=tot&q= 2020년영화순위&DA=MOR&rtmaxcoll=MOR

역대 관객순위에서 특정 년도 선택하면 검색창에 년도만 바뀌어 입력됨

이미지를 다른이름으로 저장하려면 링크 3번을 타고 들어가야 함.

 

1.이미지 링크 출력

import requests
from bs4 import BeautifulSoup

res = requests.get(
    "https://search.daum.net/search?w=tot&q=2020%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR"
)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml")

images = soup.find_all("img", attrs={"class": "thumb_img"})

for image in images:
    # print(image["src"])
    image_url = image["src"]
    if image_url.startswith("//"):
        image_url = "https:" + image_url

    print(image_url)

 

2.이미지 가져와 파일로 저장(위 for문 안에 삽입)

image_res = requests.get(image_url)
    image_res.raise_for_status()

    with open("movie{}.jpg".format(idx + 1), "wb") as f:
        f.write(image_res.content)

 

3.상위 5개 영화만(위 for문 안에 삽입)

if idx >= 4:  # 상위 5개 영화 이미지만 가져오기
        break

 

4.최근 5년 

for year in range(2016, 2021):
    url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(
        year
    )
    res = requests.get(url)
    res.raise_for_status()

    soup = BeautifulSoup(res.text, "lxml")

    images = soup.find_all("img", attrs={"class": "thumb_img"})
    #위 for문 이 안에 추가

'파이썬' 카테고리의 다른 글

웹 스크래핑6(Selenium기본)  (0) 2021.07.08
웹 스크래핑5(CSV, 네이버 금융)  (0) 2021.07.07
웹 스크래핑3(쿠팡)  (0) 2021.07.02
웹 스크래핑2(네이버 웹툰)  (0) 2021.06.23
웹 스크래핑1  (0) 2021.06.23