반응형
IMDb에서 HTML 페이지를 가져 오기 위해 BeautifulSoup을 사용하고 있으며 페이지에서 포스터 이미지를 추출하고 싶습니다. 속성 중 하나를 기반으로 한 이미지가 있지만 그 안의 데이터를 추출하는 방법을 모릅니다.
내 코드는 다음과 같습니다.
url = 'http://www.imdb.com/title/tt%s/' % (id)
soup = BeautifulSoup(urllib2.urlopen(url).read())
print("before FOR")
for src in soup.find(itemprop="image"):
print("inside FOR")
print(link.get('src'))
해결 방법
거의 완료되었습니다. 몇 가지 실수 만 있습니다. soup.find ()
는 목록이 아닌 일치하는 첫 번째 요소를 가져 오므로 반복 할 필요가 없습니다. 요소를 가져 오면 사전 액세스를 사용하여 속성 (예 : src
)을 가져올 수 있습니다. 다음은 재 작업 된 버전입니다.
film_id = '0423409'
url = 'http://www.imdb.com/title/tt%s/' % (film_id)
soup = BeautifulSoup(urllib2.urlopen(url).read())
link = soup.find(itemprop="image")
print(link["src"])
# output:
http://ia.media-imdb.com/images/M/MV5BMTg2ODMwNTY3NV5BMl5BanBnXkFtZTcwMzczNjEzMQ@@._V1_SY317_CR0,0,214,317_.jpg
참조 페이지 https://stackoverflow.com/questions/18304532
반응형
'파이썬' 카테고리의 다른 글
파이썬, 16 진수 값을 문자열 / 정수로 변환 (0) | 2021.01.09 |
---|---|
파이썬 Python에서 문자열 대신 datetime으로 sqlite에서 datetime을 다시 읽는 방법은 무엇입니까? (0) | 2021.01.09 |
파이썬에서 파일 또는 디렉토리의 소유자를 찾는 방법 (0) | 2021.01.09 |
파이썬 Python으로 소켓을 통해 바이너리 데이터 보내기 (0) | 2021.01.09 |
파이썬에서 시간을 비교하는 방법? (0) | 2021.01.09 |
댓글