본문 바로가기
파이썬

파이썬 Beautiful Soup to parse url to get another urls data

by º기록 2020. 10. 17.
반응형

세부 정보 페이지로 연결되는 URL 목록을 가져 오려면 URL을 구문 분석해야합니다. 그런 다음 해당 페이지에서 해당 페이지의 모든 세부 정보를 가져와야합니다. 상세 페이지 URL이 정기적으로 증가하고 변경되지 않지만 이벤트 목록 페이지는 동일하게 유지되기 때문에 이런 식으로해야합니다.

원래:

example.com/events/



example.com/events/1 ...some detail stuff I need example.com/events/2 ...some detail stuff I need

 

해결 방법

 

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://yahoo.com').read()
soup = BeautifulSoup(page)
soup.prettify()
for anchor in soup.findAll('a', href=True):
    print anchor['href']

URL 목록을 제공합니다. 이제 해당 URL을 반복하고 데이터를 구문 분석 할 수 있습니다.

 

참조 페이지 https://stackoverflow.com/questions/4462061

 

 

반응형

댓글