본문 바로가기
파이썬

파이썬 BeautifulSoup으로 속성을 기반으로 이미지 src 추출

by º기록 2021. 1. 9.
반응형

IMDb에서 HTML 페이지를 가져 오기 위해 BeautifulSoup을 사용하고 있으며 페이지에서 포스터 이미지를 추출하고 싶습니다. 속성 중 하나를 기반으로 한 이미지가 있지만 그 안의 데이터를 추출하는 방법을 모릅니다.

내 코드는 다음과 같습니다.

url = 'http://www.imdb.com/title/tt%s/' % (id)
soup = BeautifulSoup(urllib2.urlopen(url).read())
print("before FOR")
for src in soup.find(itemprop="image"): 
    print("inside FOR")
    print(link.get('src'))

 

해결 방법

 

거의 완료되었습니다. 몇 가지 실수 만 있습니다. soup.find () 는 목록이 아닌 일치하는 첫 번째 요소를 가져 오므로 반복 할 필요가 없습니다. 요소를 가져 오면 사전 액세스를 사용하여 속성 (예 : src )을 가져올 수 있습니다. 다음은 재 작업 된 버전입니다.

film_id = '0423409'
url = 'http://www.imdb.com/title/tt%s/' % (film_id)
soup = BeautifulSoup(urllib2.urlopen(url).read())
link = soup.find(itemprop="image")
print(link["src"])
# output:
http://ia.media-imdb.com/images/M/MV5BMTg2ODMwNTY3NV5BMl5BanBnXkFtZTcwMzczNjEzMQ@@._V1_SY317_CR0,0,214,317_.jpg


 

참조 페이지 https://stackoverflow.com/questions/18304532

 

 

반응형

댓글