다음 영화 연도별 역대 관객순위 url형태: https://search.daum.net/search?w=tot&q= 2020년영화순위&DA=MOR&rtmaxcoll=MOR
이미지를 다른이름으로 저장하려면 링크 3번을 타고 들어가야 함.
1.이미지 링크 출력
import requests
from bs4 import BeautifulSoup
res = requests.get(
"https://search.daum.net/search?w=tot&q=2020%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR"
)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")
images = soup.find_all("img", attrs={"class": "thumb_img"})
for image in images:
# print(image["src"])
image_url = image["src"]
if image_url.startswith("//"):
image_url = "https:" + image_url
print(image_url)
2.이미지 가져와 파일로 저장(위 for문 안에 삽입)
image_res = requests.get(image_url)
image_res.raise_for_status()
with open("movie{}.jpg".format(idx + 1), "wb") as f:
f.write(image_res.content)
3.상위 5개 영화만(위 for문 안에 삽입)
if idx >= 4: # 상위 5개 영화 이미지만 가져오기
break
4.최근 5년
for year in range(2016, 2021):
url = "https://search.daum.net/search?w=tot&q={}%EB%85%84%EC%98%81%ED%99%94%EC%88%9C%EC%9C%84&DA=MOR&rtmaxcoll=MOR".format(
year
)
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")
images = soup.find_all("img", attrs={"class": "thumb_img"})
#위 for문 이 안에 추가
'파이썬' 카테고리의 다른 글
웹 스크래핑6(Selenium기본) (0) | 2021.07.08 |
---|---|
웹 스크래핑5(CSV, 네이버 금융) (0) | 2021.07.07 |
웹 스크래핑3(쿠팡) (0) | 2021.07.02 |
웹 스크래핑2(네이버 웹툰) (0) | 2021.06.23 |
웹 스크래핑1 (0) | 2021.06.23 |