본문 바로가기
파이썬

파이썬 Python을 사용하여 HTML에서 href 링크를 얻으려면 어떻게해야합니까?

by º기록 2020. 11. 22.
반응형
import urllib2

website = "WEBSITE"
openwebsite = urllib2.urlopen(website)
html = getwebsite.read()

print html

여태까지는 그런대로 잘됐다.

하지만 일반 텍스트 HTML의 href 링크 만 원합니다. 이 문제를 어떻게 해결할 수 있습니까?

 

해결 방법

 


from BeautifulSoup import BeautifulSoup
import urllib2
import re

html_page = urllib2.urlopen("http://www.yourwebsite.com")
soup = BeautifulSoup(html_page)
for link in soup.findAll('a'):
    print link.get('href')

http : // 로 시작하는 링크 만 원하는 경우 다음을 사용해야합니다.

soup.findAll('a', attrs={'href': re.compile("^http://")})

BS4가있는 Python 3에서는 다음과 같아야합니다.

from bs4 import BeautifulSoup
import urllib.request

html_page = urllib.request.urlopen("http://www.yourwebsite.com")
soup = BeautifulSoup(html_page, "html.parser")
for link in soup.findAll('a'):
    print(link.get('href'))

 

참조 페이지 https://stackoverflow.com/questions/3075550

 

 

반응형

댓글