当前位置：主页 > java教程 > Java语言中一个字符占几个字节

Java语言中一个字符占的字节数详解

发布：2019-07-25 23:08:12 154

给网友们整理相关的编程文章，网友郭文石根据主题投稿了本篇教程内容，涉及到Java、语言、字符、字节数、Java语言中一个字符占几个字节相关内容，已被798网友关注，相关难点技巧可以阅读下方的电子资料。

Java语言中一个字符占几个字节

题主要区分清楚内码（internal encoding）和外码（external encoding）就好了。

内码是程序内部使用的字符编码，特别是某种语言实现其char或String类型在内存里用的内部编码；
外码是程序与外部交互时外部使用的字符编码。“外部”相对“内部”而言；不是char或String在内存里用的内部编码的地方都可以认为是“外部”。例如，外部可以是序列化之后的char或String，或者外部的文件、命令行参数之类的。

Java语言规范规定，Java的char类型是UTF-16的code unit，也就是一定是16位（2字节）；

char, whose values are 16-bit unsigned integers representing UTF-16 code units (§3.1).

然后字符串是UTF-16 code unit的序列：

The Java programming language represents text in sequences of 16-bit code units, using the UTF-16 encoding.

这样，Java规定了字符的内码要用UTF-16编码。或者至少要让用户无法感知到String内部采用了非UTF-16的编码。

另举一例：

Java标准库实现的对char与String的序列化规定使用UTF-8作为外码。Java的Class文件中的字符串常量与符号名字也都规定用UTF-8编码。这大概是当时设计者为了平衡运行时的时间效率（采用定长编码的UTF-16）与外部存储的空间效率（采用变长的UTF-8编码）而做的取舍。

首先，你所谓的“字符”具体指什么呢？

如果你说的“字符”就是指 Java 中的 char，那好，那它就是 16 位，2 字节。

如果你说的“字符”是指我们用眼睛看到的那些“抽象的字符”，那么，谈论它占几个字节是没有意义的。

具体地讲，脱离具体的编码谈某个字符占几个字节是没有意义的。

就好比有一个抽象的整数“42”，你说它占几个字节？这得具体看你是用 byte，short，int，还是 long 来存它。用 byte 存就占一字节，用 short 存就占两字节，int 通常是四字节，long 通常八字节。当然，如果你用 byte，受限于它有限的位数，有些数它是存不了的，比如 256 就无法放在一个 byte 里了。

字符是同样的道理，如果你想谈“占几个字节”，就要先把编码说清楚。

同一个字符在不同的编码下可能占不同的字节。

就以你举的“字”字为例，“字”在 GBK 编码下占 2 字节，在 UTF-16 编码下也占 2 字节，在 UTF-8 编码下占 3 字节，在 UTF-32 编码下占 4 字节。

不同的字符在同一个编码下也可能占不同的字节。

“字”在 UTF-8 编码下占3字节，而“A”在 UTF-8 编码下占 1 字节。（因为 UTF-8 是变长编码）
而 Java 中的 char 本质上是 UTF-16 编码。而 UTF-16 实际上也是一个变长编码（2 字节或 4字节）。

如果一个抽象的字符在 UTF-16 编码下占 4 字节，显然它是不能放到 char 中的。换言之， char 中只能放 UTF-16 编码下只占 2 字节的那些字符。

而 getBytes 实际是做编码转换，你应该显式传入一个参数来指定编码，否则它会使用缺省编码来转换。

你说“ new String("字").getBytes().length 返回的是3 ”，这说明缺省编码是 UTF-8.如果你显式地传入一个参数，比如这样“ new String("字").getBytes("GBK").length ”，那么返回就是 2.

你可以在启动 JVM 时设置一个缺省编码，

假设你的类叫 Main，那么在命令行中用 java 执行这个类时可以通过 file.encoding 参数设置一个缺省编码。比如这样：java -Dfile.encoding=GBK Main这时，你再执行不带参数的 getBytes() 方法时，new String("字").getBytes().length 返回的就是 2 了，因为现在缺省编码变成 GBK 了。当然，如果这时你显式地指定编码，new String("字").getBytes("UTF-8").length 返回的则依旧是 3

否则，会使用所在操作系统环境下的缺省编码。

通常，Windows 系统下是 GBK，Linux 和 Mac 是 UTF-8.但有一点要注意，在 Windows 下使用 IDE 来运行时，比如 Eclipse，如果你的工程的缺省编码是 UTF-8，在 IDE 中运行你的程序时，会加上上述的 -Dfile.encoding=UTF-8 参数，这时，即便你在 Windows 下，缺省编码也是 UTF-8，而不是 GBK。

由于受启动参数及所在操作系统环境的影响，不带参数的 getBytes 方法通常是不建议使用的，最好是显式地指定参数以此获得稳定的预期行为。

以上所述是小编给大家介绍的Java语言中一个字符占几个字节详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农之家网站的支持！

上一篇：SpringBoot系列教程JPA基础环境搭建的步骤
下一篇：java的NIO管道用法及代码分享

参考资料

Java中FileOutputStream流的write方法

发布：2022-06-26

给大家整理一篇关于Java的教程，这篇文章主要为大家详细介绍了Java中FileOutputStream流的write方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

JavaScript中shift()用法实例

发布：2019-12-01

这篇文章主要介绍了详解JavaScript中shift()方法的使用,是JS入门学习中的基础知识,需要的朋友可以参考下

关于Java日志组件间关系的知识点分析

发布：2020-07-06

在本文里我们给大家整理了关于Java日志组件间关系相关基础知识，需要的朋友们跟着学习下。

java自定义异常实例详解

发布：2019-11-04

这篇文章主要为大家详细介绍了java简单自定义异常实例代码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

JavaScript实现计数器基础方法

发布：2022-06-17

给大家整理了关于JavaScript的教程，这篇文章主要为大家详细介绍了JavaScript实现计数器的基础方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

深入了解java.util.Arrays的使用技巧

发布：2023-04-19

在这篇文章中，我们将来带大家看看 java.util.Arrays ，我们可以使用 Arrays 创建，比较，排序，搜索，stream 和转化数组，感兴趣的小伙伴可以了解一下

Java C++题解leetcode判定是否为字符重排

发布：2023-03-03

这篇文章主要为大家介绍了Java C++题解leetcode判定是否为字符重排，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

Java面向对象设计原则之迪米特法则介绍

发布：2023-04-04

迪米特法则解决类与类之间耦合度问题，如果类A调用了B类的某一个方法，则这两个类就形成了一种紧耦合的方式，当B类这个方法发生变化时，一定会影响A类的执行结果。迪米特法则要求每一个类尽可能少的与其他类发生关系

网友讨论

最新更新

最近更新

热门资源

Java语言中一个字符占的字节数详解

Java语言中一个字符占几个字节

参考资料

51单片机项目教程（C语言版）计算机书籍

Java学习指南 PDF电子书

轻量级Java EE企业应用开发实战计算机书籍

C语言完全手册：基本概念、函数参考、编程实例与试题集锦 PDF电子书

云原生Java PDF电子书

Selenium自动化测试：基于Python语言 PDF电子书

你必须知道的495个C语言问题 PDF电子书

C语言程序设计（第四版） PDF电子书

PHP、MySQL与JavaScript学习手册（第4版） PDF电子书

相关文章

Java中FileOutputStream流的write方法

JavaScript中shift()用法实例

关于Java日志组件间关系的知识点分析

java自定义异常实例详解

JavaScript实现计数器基础方法

深入了解java.util.Arrays的使用技巧

Java C++题解leetcode判定是否为字符重排

Java面向对象设计原则之迪米特法则介绍

网友讨论