본문 바로가기
파이썬

파이썬 Python 2.7 Beautiful Soup Img Src Extract

by º기록 2020. 9. 22.
반응형
for imgsrc in Soup.findAll('img', {'class': 'sizedProdImage'}):
    if imgsrc:
        imgsrc = imgsrc
    else:
        imgsrc = "ERROR"

patImgSrc = re.compile('src="(.*)".*/>')
findPatImgSrc = re.findall(patImgSrc, imgsrc)

print findPatImgSrc

'''
<img height="72" name="proimg" id="image" class="sizedProdImage" src="http://imagelocation" />

이것이 내가 추출하려는 것이며 얻는 것입니다.

findimgsrcPat = re.findall(imgsrcPat, imgsrc)
File "C:\Python27\lib\re.py", line 177, in findall
    return _compile(pattern, flags).findall(string)
TypeError: expected string or buffer

'' '

 

해결 방법

 

re.findall에 beautifulsoup 노드를 전달하고 있습니다. 문자열로 변환해야합니다. 시험:

findPatImgSrc = re.findall(patImgSrc, str(imgsrc))

더 나은 방법은 beautifulsoup이 제공하는 도구를 사용하는 것입니다.

[x['src'] for x in soup.findAll('img', {'class': 'sizedProdImage'})]

'sizedProdImage'클래스의 img 태그의 모든 src 속성 목록을 제공합니다.

 

참조 페이지 https://stackoverflow.com/questions/8289957

 

 

반응형

댓글