이론

UTF-8

월러비 2024. 3. 11. 16:59

UTF-8은 국제적으로 많이 사용되고 있는 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나입니다.

 

- UTF-8 특징

  • UTF-8 인코딩은 유니코드 한 문자를 나타내기 위해 1바이트에서 4바이트까지 사용합니다.
    • 예를 들어, U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트만으로 표시됩니다.

 

- UTF-8 장점

  • ASCII 문자들은 1바이트로 표현할 수 있기 때문에, 한중일 문자와 표의 문자를 사용하지 않는 대부분의 문자열을  UTF-16보다 더 작은 크기로 표현할 수 있습니다.
  • 바이트 경계를 순서대로 혹은 역순으로 찾기 쉽습니다.
  • 바이트 표현의 첫 바이트만 사용하여 해당 바이트 표현의 길이를 결정할 수 있습니다. 따라서, 부분 문자열을 얻는 과정이 매우 쉽습니다.

 

-UTF-8 단점

  • 대부분의 UTF-8 문자열은 일반적으로 적당한 기존 인코딩으로 표현한 문자열보다 더 큽니다.
  • 한중일 문자들과 표의 문자를 제외한 거의 모든 기존 인코딩들은 한 문자에 1바이트를 사용하므로 문자열 처리가 간편한 반면, UTF-8은 그렇지 않습니다.

'이론' 카테고리의 다른 글

IPC(Inter Process Communication)  (0) 2024.03.13
바이트 스트림  (0) 2024.03.12
아스키 코드  (0) 2024.03.09
벡터  (0) 2024.03.08
RGB 컬러  (1) 2024.03.07