什么是编码和解码-程序员宅基地

技术标签: java  编码和解码  

编码和解码概念

  编码是信息从一种形式或格式转换为另一种形式的过程也称为计算机编程语言的代码简称编码。用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。解码,是编码的逆过程。—— 百度百科
  我对编码和解码的理解:编码是根据一种编码规则,将我所要表达的信息用代码去表示出来;解码是根据解码规则(如果是对称加密的话,编码规则和解码规则是同一个规则),将代码解读出来。

举例说明

  我们小时候经常会看一些谍战片,谍战片里总会出现一两个间谍,在敌方打探消息,然后用他和己方能看懂的方式去传递消息,如:摩斯密码。间谍敲出一串摩斯密码——三短三长三短,己方也会通过摩斯密码的规则来去解读对应的意思——SOS,己方就知道了这是求救信息,需要马上去营救被困在敌方的间谍。
  在这个例子中,如果间谍明白此规则,发出三短三长三短,向外求救,但不知道此规则的敌方,只能听到这个声音,而不知道其中的含义,就“单纯”的以为间谍无聊发出此声音。
  下图制定好的规则就指的是编码规则和解码规则,发出消息和解读消息的前提是双方都知道此规则,才会进行有效的消息传递。
在这里插入图片描述

对应到java程序中

为什么要编码?

  最直接的回答就是防止我们的中文和一些特殊字符出现乱码的现象;详细点讲就是计算机只能识别0和1两个数字,所有的符号和文字都必须经过转换编码才能“翻译”成我们计算机认识的“语言”,相反也是,我们要想显示出我们能读懂的“语言”也必须要进行相应的解码才能从计算机中显示出我们能看懂的文字。

总的来说编码的原因有:
1.计算机中存储信息的最小单元是一个字节即 8 个 bit,所以能表示的字符范围是 0~255 个(2的8次方)
2.人类要表示的符号太多,每个符号无法用一个字节来完全表示
3.要解决这个矛盾必须需要一个新的数据结构 char,从 char 到 byte 必须编码

如何编码和解码呢?

  那就是通过一种特定的编码格式转换,其实现在有很多中的编码格式,只要让计算机按照规定的编码格式进行转化,就可以显示成我们自己的字符。那现在就介绍一下目前最常见的一些编码格式:
首先我们要知道编码和编码格式是有区别的?
  编码就是一个编号(数字)到字符的一种映射关系,是一种一对一的映射关系。
ASCII码
  在计算机种中,1 字节对应 8 位二进制数,而每位二进制数有 0、1 两种状态,因此 1 字节可以组合出 256 种状态。如果这 256 中状态每一个都对应一个符号,就能通过 1 字节的数据表示 256 个字符。美国人于是就制定了一套编码(其实就是个字典),描述英语中的字符和这 8 位二进制数的对应关系,这被称为 ASCII 码。
  ASCII 码一共定义了 128 个字符,例如大写的字母 A 是 65(这是十进制数,对应二进制是0100 0001)。这 128 个字符只使用了 8 位二进制数中的后面 7 位,最前面的一位统一规定为 0。
Unicode
  Unicode 只是一个字符集,规定了符合对应的二进制代码,至于这个二进制代码如何存储则没有任何规定。它的想法很简单,就是为每个字符规定一个用来表示该字符的数字,仅此而已。
Unicode编码方案
  之前提到,Unicode 没有规定字符对应的二进制码如何存储。以汉字“汉”为例,它的 Unicode 码点是 0x6c49,对应的二进制数是 110110001001001,二进制数有 15 位,这也就说明了它至少需要 2 个字节来表示。可以想象,在 Unicode 字典中往后的字符可能就需要 3 个字节或者 4 个字节,甚至更多字节来表示了。

  这就导致了一些问题,计算机怎么知道你这个 2 个字节表示的是一个字符,而不是分别表示两个字符呢?这里我们可能会想到,那就取个最大的,假如 Unicode 中最大的字符用 4 字节就可以表示了,那么我们就将所有的字符都用 4 个字节来表示,不够的就往前面补 0。这样确实可以解决编码问题,但是却造成了空间的极大浪费,如果是一个英文文档,那文件大小就大出了 3 倍,这显然是无法接受的。
  于是,为了较好的解决 Unicode 的编码问题, UTF-8 和 UTF-16 两种当前比较流行的编码方式诞生了。当然还有一个 UTF-32 的编码方式,也就是上述那种定长编码,字符统一使用 4 个字节,虽然看似方便,但是却不如另外两种编码方式使用广泛。

  对于编码格式目前最常见的是UTF-8、GBK,它们都是用来序列化或存储 Unicode 编码的数据的,但是分别是2中不同的格式,他们都是 Unicode 的实现方式,当然也还有很多,这里就先介绍这两种啦。

  • GBK
      全称叫《汉字内码扩展规范》,是国家技术监督局为 windows95 所制定的新的汉字内码规范,它的出现是为了扩展 GB2312,加入更多的汉字,它的编码范围是 8140~FEFE(去掉 XX7F)总共有 23940 个码位,它能表示 21003 个汉字,它的编码是和 GB2312 兼容的,也就是说用 GB2312 编码的汉字可以用 GBK 来解码,并且不会有乱码。
  • UTF-8
      UTF-8 采用了一种变长技术,每个编码区域有不同的字码长度。不同类型的字符可以是由 1~6 个字节组成。
    编码规则:
    1.如果一个字节,最高位(第 8 位)为 0,表示这是一个 ASCII 字符(00 - 7F)。可见,所有 ASCII 编码已经是 UTF-8 了。
    2.如果一个字节,以 11 开头,连续的 1 的个数暗示这个字符的字节数,例如:110xxxxx 代表它是双字节 UTF-8 字符的首字节。
    3.如果一个字节,以 10 开始,表示它不是首字节,需要向前查找才能得到当前字符的首字节

在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yangsimo/article/details/129917367

智能推荐

.Net内存泄露原因及解决办法_.net内存泄露的解决方法-程序员宅基地

文章浏览阅读296次。 1.    什么是.Net内存泄露(1).NET 应用程序中的内存您大概已经知道,.NET 应用程序中要使用多种类型的内存,包括:堆栈、非托管堆和托管堆。这里我们需要简单回顾一下。以运行..._.net内存泄露的解决方法

PHP从入门到精通pdf-程序员宅基地

文章浏览阅读2.2k次。链接:https://pan.baidu.com/s/1aveXrqeTnILsc9jgiuCNsQ 密码:570u 本书为完整版,以下为内容截图:

新手如何使用腾讯云服务器部署Flask项目_flask云部署-程序员宅基地

文章浏览阅读541次,点赞9次,收藏5次。浅记录新手如何部署flask项目上线:配置服务器-上传项目文件-配置环境依赖-服务器开放端口-运行发布_flask云部署

【TypeScript入门】TypeScript入门篇——类_typescript 类-程序员宅基地

文章浏览阅读752次,点赞23次,收藏14次。TypeScript 是面向对象的 JavaScript。类描述了所创建的对象共同的属性和方法。_typescript 类

6个常用大数据分析工具集锦-程序员宅基地

文章浏览阅读4.4k次,点赞2次,收藏17次。大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。一、HadoopHadoo

CSDN创作技巧_csdn正文是什么快捷键?-程序员宅基地

文章浏览阅读920次,点赞26次,收藏25次。​使用CSS样式:在csdn的样式文件中添加以下CSS代码来定义颜色区分汉字和英文:1.1.2使用JavaScript:在csdn的HTML文件中添加以下JavaScript代码来实现自动颜色区分汉字和英文:这段代码会在页面加载完毕后,遍历所有元素,将汉字和英文分别加上span标签,并加上对应的类名,从而实现自动颜色区分汉字和英文。使用jQuery:如果你已经在csdn上引入了jQuery库,可以使用下面的代码来实现自动颜色区分汉字和英文:$(document).ready(function() {_csdn正文是什么快捷键?

随便推点

y2.2隐藏英雄密码_从嗨到2y 10 tmnkr您的密码发生了什么-程序员宅基地

文章浏览阅读99次。y2.2隐藏英雄密码Say that I decide to sign up for an account an incredibly insecure password, ‘hi’. How does this become something stored in the database like this: 假设我决定为一个帐户注册一个非常不安全的密码“ hi ”。 它如何变成这样存储在数据..._$2y$10$y

从0到1搭建一套属于你自己的高精度实时结构光3D相机(1):硬件搭建-程序员宅基地

文章浏览阅读1.6k次,点赞42次,收藏11次。在这篇博客中,博主将主要介绍结构光3D相机的硬件如何搭建,主要涉及到相机与投影仪的选型与配置。在开头,博主先给大家摘出一段语录:能从硬件层面解决的问题,就别死磕算法了。是的,能从硬件层面解决的问题,死磕算法是没有意义的。例如,当你评估自己的3D相机精度却发现始终达不到理想水平时,不要在那两三句代码上死磕,回头想想,是不是自己的硬件搭建的不好,选型选的不对。就博主经验而言,大部分做结构光3D相机没几年的小萌新们,都对相机与投影仪的硬件特性毫无理解。

推荐开源项目:Notion Zh-CN - 中文本地化版本-程序员宅基地

文章浏览阅读407次,点赞5次,收藏4次。推荐开源项目:Notion Zh-CN - 中文本地化版本项目地址:https://gitcode.com/Reamd7/notion-zh_CN项目简介Notion Zh-CN 是一个由开发者 Reamd7 主导的开源项目,它的目标是为流行的生产力工具 Notion 提供中文本地化的支持。Notion 是一款集文档管理、知识库、任务管理和团队协作于一体的平台,而 Notion Zh-CN ..._notion 开源吗

机器学习算法之SVM的多分类_svm多分类-程序员宅基地

文章浏览阅读1.7w次,点赞3次,收藏23次。一、SVM可以直接进行多分类吗 SVM本身是对付二分类问题的,所以在处理多分类的时候需要进行必要的改造。同样是二分类的情况,logistic回归可以直接拓展为softmax多分类。但是SVM如果直接在目标函数上进行修改的话,就是将多个分类面的参数求解合并到一个最优化问题上,显然难度太大,目前也没有任何实际操作的方法。二、SVM多分类间接实现1、1-V-rest:将某一类归为正类,其余全部是负类_svm多分类

CentOS7离线安装supervisor-程序员宅基地

文章浏览阅读485次,点赞4次,收藏6次。【解决办法】:没有setuptools的模块,说明python缺少这个模块,那我们只要安装这个模块即可解决此问题。【可能报错】:ImportError: No module named setuptools。2.安装supervisor。3.验证安装是否成功。_离线安装supervisor

[rails] 我的订餐系统 -- 小试ruby on rails _订盒饭代码-程序员宅基地

文章浏览阅读890次。前言 近期在java社区中一种新的脚本语言ruby,及用ruby开发的一个wab框架 rails也热闹了起来.引起了不少的java开发人员的关注.  本人平时还是很少接触脚本语言方面东东,看到相关的评论例如: "习惯约定优于配置" -- 那样就用象java那样麻烦且繁杂地配置N多XML "一站式面向用户的简单易用的框架" _订盒饭代码

推荐文章

热门文章

相关标签