UTF-8은 국제적으로 많이 사용되고 있는 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나입니다.
- UTF-8 특징
- UTF-8 인코딩은 유니코드 한 문자를 나타내기 위해 1바이트에서 4바이트까지 사용합니다.
- 예를 들어, U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트만으로 표시됩니다.
- UTF-8 장점
- ASCII 문자들은 1바이트로 표현할 수 있기 때문에, 한중일 문자와 표의 문자를 사용하지 않는 대부분의 문자열을 UTF-16보다 더 작은 크기로 표현할 수 있습니다.
- 바이트 경계를 순서대로 혹은 역순으로 찾기 쉽습니다.
- 바이트 표현의 첫 바이트만 사용하여 해당 바이트 표현의 길이를 결정할 수 있습니다. 따라서, 부분 문자열을 얻는 과정이 매우 쉽습니다.
-UTF-8 단점
- 대부분의 UTF-8 문자열은 일반적으로 적당한 기존 인코딩으로 표현한 문자열보다 더 큽니다.
- 한중일 문자들과 표의 문자를 제외한 거의 모든 기존 인코딩들은 한 문자에 1바이트를 사용하므로 문자열 처리가 간편한 반면, UTF-8은 그렇지 않습니다.