본문 바로가기
파이썬

파이썬 유니 코드 인 경우 문자열을 테스트합니다. UTF 표준은 무엇이며 바이트 단위로 길이를 얻습니까?

by º기록 2021. 2. 10.
반응형


또한 교훈적인 목적으로 UTF-8 문자열의 바이트 목록 표현은 어떻게 생겼습니까? 파이썬에서 UTF-8 문자열이 어떻게 표현되는지 궁금합니다.

후기 편집 : pprint는 꽤 잘합니다.

 

해결 방법

 

try:
    string.decode('utf-8')
    print "string is UTF-8, length %d bytes" % len(string)
except UnicodeError:
    print "string is not UTF-8"

Python 2에서 str 은 바이트 시퀀스이고 unicode 는 문자 시퀀스입니다. str.decode 를 사용하여 바이트 시퀀스를 unicode 로 디코딩하고 unicode.encode 를 사용하여 문자 시퀀스를 str <로 인코딩합니다. / code>. 예를 들어, u "é"는 단일 문자 U + 00E9를 포함하는 유니 코드 문자열이며 u "\ xe9"로 쓸 수도 있습니다. UTF-8로 인코딩하면 바이트 시퀀스 "\ xc3 \ xa9"가 제공됩니다.

Python 3에서는 이것이 변경되었습니다. bytes 는 일련의 바이트이고 str 은 일련의 문자입니다.

 

참조 페이지 https://stackoverflow.com/questions/12053107

 

 

반응형

댓글