반응형
세부 정보 페이지로 연결되는 URL 목록을 가져 오려면 URL을 구문 분석해야합니다. 그런 다음 해당 페이지에서 해당 페이지의 모든 세부 정보를 가져와야합니다. 상세 페이지 URL이 정기적으로 증가하고 변경되지 않지만 이벤트 목록 페이지는 동일하게 유지되기 때문에 이런 식으로해야합니다.
원래:
example.com/events/
example.com/events/1
...some detail stuff I need
example.com/events/2
...some detail stuff I need
해결 방법
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://yahoo.com').read()
soup = BeautifulSoup(page)
soup.prettify()
for anchor in soup.findAll('a', href=True):
print anchor['href']
URL 목록을 제공합니다. 이제 해당 URL을 반복하고 데이터를 구문 분석 할 수 있습니다.
참조 페이지 https://stackoverflow.com/questions/4462061
반응형
'파이썬' 카테고리의 다른 글
파이썬 NumPy 다차원 배열의 i 번째 열에 액세스하는 방법은 무엇입니까? (0) | 2020.10.17 |
---|---|
파이썬 TensorFlow가 GPU에 액세스하지 못하도록 차단 하시겠습니까? (0) | 2020.10.17 |
파이썬 요청에서 다운로드 한 파일을 다른 디렉토리에 저장하는 방법은 무엇입니까? (0) | 2020.10.17 |
파이썬 문자열 목록에서 쉼표로 구분 된 문자열을 어떻게 만들까요? (0) | 2020.10.17 |
파이썬 누군가 파이썬에서 __all__을 설명 할 수 있습니까? (0) | 2020.10.17 |
댓글