반응형
글 머리 기호 목록 때문에 "•"와 같은 기호가있는 글 머리 기호가있는 HTML 웹 페이지를 읽은 문자열이 있습니다. 텍스트는 Python 2.7의 urllib2.read (webaddress)
를 사용하는 웹 페이지의 HTML 소스입니다.
글 머리 기호 문자의 유니 코드 문자를 U + 2022
로 알고 있지만 실제로 해당 유니 코드 문자를 다른 문자로 대체하려면 어떻게해야합니까?
나는 시도했다
str.replace ( "•", "something")
하지만 작동하지 않는 것 같습니다 ... 어떻게해야합니까?
해결 방법
문자열을 유니 코드로 디코딩합니다. UTF-8 인코딩이라고 가정합니다.
str.decode("utf-8")
replace
메서드를 호출하고 첫 번째 인수로 유니 코드 문자열을 전달해야합니다.
str.decode("utf-8").replace(u"\u2022", "*")
필요한 경우 UTF-8로 다시 인코딩합니다.
str.decode("utf-8").replace(u"\u2022", "*").encode("utf-8")
(다행히도 Python 3은이 문제를 해결합니다. 3 단계는 실제로 I / O 직전에 수행해야합니다. 또한 문자열 str
을 호출하면 내장 유형 str
.)
참조 페이지 https://stackoverflow.com/questions/13093727
반응형
'파이썬' 카테고리의 다른 글
파이썬 Flask보기에서 JSON 응답 반환 (0) | 2021.02.02 |
---|---|
파이썬 Python 전역 / 지역 변수 (0) | 2021.02.02 |
파이썬 소수를 나열하는 Python 라이브러리가 있습니까? (0) | 2021.02.02 |
파이썬 Compare strings based on alphabetical ordering (0) | 2021.02.02 |
파이썬 Homebrew에서 Python을 심볼릭 링크하는 방법은 무엇입니까? (0) | 2021.02.02 |
댓글