본문 바로가기
  • 기록

전체 글45

웹 스크래핑3(쿠팡) 쿠팡사이트에 '노트북' 검색-> https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterType=&listSize=36&filter=&isPriceRange=false&brand=&offerCondition=&rating=0& page=1&rocketAll=false&searchIndexingToken=1=4&backgroundColor= http 서버에 요청을 보내면 서버는 그 요청에 맞는 응답을 보내는데 이때 요청에 http method가 포함됨... 2021. 7. 2.
웹 스크래핑2(네이버 웹툰) beautifulsoup4, lxml 설치 import requests from bs4 import BeautifulSoup url = "https://comic.naver.com/webtoon/weekday.nhn" res = requests.get(url) res.raise_for_status() soup = BeautifulSoup( res.text, "lxml" ) # 가져온 html문서를 lxml 파서를 통해 beautifulsoup 객체(html 정보 저장)로 만듬 print(soup.title) print(soup.title.get_text()) #글자만 가져오기 print(soup.a) #soup 객체에서 처음 발견된 a엘리먼트 정보 print(soup.a.attrs) #a엘리먼트 속성 정.. 2021. 6. 23.
웹 스크래핑1 웹 스크래핑: 원하는 것만 쏙쏙 빼오기 웹 크롤링: 전부 다 쓸어오기 웹: html css javascript (스크래핑은 html이랑 관련있음) xpath: html 경로 (/html/body/div/span/a... 이런 거 ->html id속성 값을 이용하면 더 간단함) *requests 라이브러리* res=requests.get("---사이트----") res.raise_for_status() #문제 생기면 바로 종료 -> res.status_code 검사해서 응답코드 확인 print(res.text) #사이트 내용 출력 with open("mysite.html", "w", encoding="utf8") as f: f.write(res.text) #읽어온 값 파일로 저장 *정규식* import r.. 2021. 6. 23.