计算机科学入门
二进制
无论是电子管计算机还是晶体管计算机,我们可以发现,虽然数据有很多种形式,但是电路只有两种: 有电和没电 。因此发现其实用两个数字就可以表达所有的情况,这就是 二进制 (Binary)。和十进制不同的是,二进制只有两个数字: 0 和 1 ,十进制是逢十进一,而二进制是 逢二进一 。
早期的计算机还有三进制(Ternary),甚至是五进制(Quinary),但是多种的状态受到干扰时产生的错误就会越多,而只用“开”和“关”两种状态可以尽可能减少这类问题。
在数字数据存储器、存储、处理和通信中, 0 和 1 值有时分别称为“低”和“高”。
为什么使用二进制
- 技术上容易实现。用双稳态电路表示二进制数字0和1是很容易的事情。
- 可靠性高。二进制中只使用0和1两个数字,传输和处理时不易出错。
- 二进制数与十进制数之间的转换相当容易。
- 有一整个数学分支存在,专门处理"真"和"假",它已经解决了所有法则和运算,叫 "布尔代数" (Boolean Algebra)。
阅读二进制
阅读二进制就是将二进制转换成我们熟悉的十进制。
在十进制中最大的数字是 9 ,再加 1 就会进位变成 10 。同理,在二进制中最大的数字是 1 ,再加 1 就会变成 10 。看起来都是数字 1 和 0 ,但是表达的意思却不同,在十进制中 10 表示数字十,而在二进制中 10 是 1+1 得来的所以 10 表示数字 2 。
让我们继续……
10 再加 1 会变成 11 ,这时是数字 3 。
11 再加 1 ,这时要进位变成 100 ,这时是数字 4 。
……
让我们列出最高位是 1 ,而其余都是 0 的情况:
10000000 | 1000000 | 100000 | 10000 | 1000 | 100 | 10 | 1 |
---|---|---|---|---|---|---|---|
128 | 64 | 32 | 16 | 8 | 4 | 2 | 1 |
我们可以发现当最高位是 1 ,而其余都是 0 时,所表示的十进制正是 2 的 n 次方。
10000000 | 1000000 | 100000 | 10000 | 1000 | 100 | 10 | 1 |
---|---|---|---|---|---|---|---|
2^7 | 2^6 | 2^5 | 2^4 | 2^3 | 2^2 | 2^1 | 2^0 |
二进制转换为十进制
二进制转换为十进制的技巧我称为 1248 。
当然后面还有很多,只需要将前一位乘 2 即可:16 、32、64、128、256、512、1024、2048……
例如二进制 1010111011 ,这个是我乱打的,接下来让我们用 1248 法将它转换为十进制。
- 将二进制所有的数字拆出来。
1 | 0 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 1 |
---|
- 写出对应的1248。
1 | 0 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 1 |
---|---|---|---|---|---|---|---|---|---|
512 | 256 | 128 | 64 | 32 | 16 | 8 | 4 | 2 | 1 |
- 将对应是 1 的 1248 相加。即 512+128+32+16+8+2+1=699 ,因此二进制 1010111011 所表示的十进制数为 699 。
十进制转换为二进制
这个方法叫做:除二取余法。
如果你有一个十进制数 13 。
- 除 2 ,结果为 6 余 1 。
- 取出结果 6 。
- 除 2 ,结果为 3 余 0 。
- 取出结果 3 。
- 除 2 ,结果为 1 余 1 。
- 取出结果 1 。
- 除 2 ,结果为 0 余 1 。
- 当结果为 0 时结束
- 将所有的结果从下到上拼凑。
- 因此 13 的二进制数为 1101 。
更大的数字也可以用这个方法。
二进制和计算机
字节
每个二进制数字都简称为bit,也叫位,一位只能用于表示 2 个不同的值:0 和 1。
一开始的时候,需要显示的字符只有 26 个英文字母、 10 个数字、计算符号以及各种特殊符号,这样大概 100 个字符需要显示。我们知道2的 7 次方是 128 ,为了制造更多的冗余因此再加 1 位,这时人们规定了一个字符用 8 个二进制数表示。
我们给他一个名字: 字节(byte)。
1 字节 = 8 位
1 bytes = 8 bits
也就是说, 26 个英文字母最少需要 1 个字节表示,但中文不同,一个汉字需要 2 个字节表示,我们再给它一个名字: 字(word)。
至于汉字怎么表示,我们可以查看《信息交换用汉字编码字符集》,**GB2312 **标准共收录6763个汉字,基本满足了日常生活需要,但是一些罕见字就打不出来,因此后来出现了 GBK 。
进制
就像 1 千克 = 1000 克一样,字节也有它的进制关系。与重量单位不同的是,存储单位换算率为1024。
1024B | 1KB |
---|---|
1024KB | 1MB |
1024MB | 1GB |
1024GB | 1TB |
1024TB | 1PB |
WARNING
b 和 B 不是一个东西, b 代表 bits , B 代表 Byte, 1Bytes = 8bits。
K、M、G、T、P这类前缀的命名有一套规则,叫做 《国际单位制词头》,所有的单位都会按照这个命名。
乘数因子 | 中文名称 | 符号 | 英文 |
---|---|---|---|
10^30 | 昆[它] | Q | quetta |
10^27 | 容[那] | R | ronna |
10^24 | 尧[它] | Y | yotta |
10^21 | 泽[它] | Z | zetta |
10^18 | 艾[可萨] | E | exa |
10^15 | 拍[它] | P | peta |
10^12 | 太[拉] | T | tera |
10^9 | 吉[咖] | G | giga |
10^6 | 兆 | M | mega |
10^3 | 千 | k | kilo |
10^2 | 百 | h | hecto |
10^1 | 十 | da | deca |
10^-1 | 分 | d | deci |
10^-2 | 厘 | c | centi |
10^-3 | 毫 | m | milli |
10^-6 | 微 | μ | micro |
10^-9 | 纳[诺] | n | nano |
10^-12 | 皮[可] | p | pico |
10^-15 | 飞[母托] | f | femto |
10^-18 | 阿[托] | a | atto |
10^-21 | 仄[普托] | z | zepto |
10^-24 | 幺[科托] | y | yocto |
10^-27 | 柔[托] | r | ronto |
10^-30 | 亏[科托] | q | quecto |
所以什么时候才可以买到 1 鲲的硬盘呢?
32/64位
现在使用的计算机一定是这两种的其中之一,位是指电脑CPU一次处理的最大的数据量,所谓32位处理器就是一次只能处理 32 位,也就是 4 个字节的数据,而64位处理器一次就能处理 64 位,即 8 个字节的数据。
图片颜色
你或许看到过图片分为 8 位, 16 位, 32 位。这代表了图片最大支持的颜色数量, 8 位含有 256 种颜色 16 位包含65000种颜色 32 位包含 4294967296 种颜色。
正数和负数
大部分计算机用第一位二进制位表示正负: 0 为正,1 为负。
因此在 32 位系统中只有 31 位表示数字内容,也就是能表示的数字范围是 -2147483648到2147483648 ,这是个非常经典的数字。
小数
因为小数点可以在数字间“浮动”,因此也叫浮点数。
最常见的标准是 IEEE 754 标准,它用类似科学计数法的方法,来存十进制值。
IEEE 754规定了四种表示浮点数值的方式:单精确度(32位)、双精确度(64位)、延伸单精确度(43比特以上,很少使用)与延伸双精确度(79比特以上,通常以80位实现)
其中单精度和双精度在编程中非常常见。
标准的IEEE 754格式由三部分组成,符号位Sign,指数项exponent,以及尾数部分mantissa。一个浮点数 (Value) 的表示其实可以这样表示:
ASCII
American Standard Code for Information Interchange,美国信息交换标准代码,简称ASCII。
ASCII 是 7 位代码,足够存 128 个不同值,其中包括了大小写英文字母、标点符号、特殊符号……
因为 ASCII 是个很早的标准,所以它被广泛使用,让不同公司制作的计算机,能互相交换数据,这种通用交换信息的能力叫 "互操作性" (interoperability)。
但是其他国家有不一样的字符,如:俄罗斯、希腊……于是他们使用了127位之后的位置。
Bin(二进制) | Oct(八进制) | Dec(十进制) | Hex(十六进制) | 缩写/字符 | 解释 |
---|---|---|---|---|---|
0000 0000 | 00 | 0 | 0x00 | NUL(null) | 空字符 |
0000 0001 | 01 | 1 | 0x01 | SOH(start of headline) | 标题开始 |
0000 0010 | 02 | 2 | 0x02 | STX (start of text) | 正文开始 |
0000 0011 | 03 | 3 | 0x03 | ETX (end of text) | 正文结束 |
0000 0100 | 04 | 4 | 0x04 | EOT (end of transmission) | 传输结束 |
0000 0101 | 05 | 5 | 0x05 | ENQ (enquiry) | 请求 |
0000 0110 | 06 | 6 | 0x06 | ACK (acknowledge) | 收到通知 |
0000 0111 | 07 | 7 | 0x07 | BEL (bell) | 响铃 |
0000 1000 | 010 | 8 | 0x08 | BS (backspace) | 退格 |
0000 1001 | 011 | 9 | 0x09 | HT (horizontal tab) | 水平制表符 |
0000 1010 | 012 | 10 | 0x0A | LF (NL line feed, new line) | 换行键 |
0000 1011 | 013 | 11 | 0x0B | VT (vertical tab) | 垂直制表符 |
0000 1100 | 014 | 12 | 0x0C | FF (NP form feed, new page) | 换页键 |
0000 1101 | 015 | 13 | 0x0D | CR (carriage return) | 回车键 |
0000 1110 | 016 | 14 | 0x0E | SO (shift out) | 不用切换 |
0000 1111 | 017 | 15 | 0x0F | SI (shift in) | 启用切换 |
0001 0000 | 020 | 16 | 0x10 | DLE (data link escape) | 数据链路转义 |
0001 0001 | 021 | 17 | 0x11 | DC1 (device control 1) | 设备控制1 |
0001 0010 | 022 | 18 | 0x12 | DC2 (device control 2) | 设备控制2 |
0001 0011 | 023 | 19 | 0x13 | DC3 (device control 3) | 设备控制3 |
0001 0100 | 024 | 20 | 0x14 | DC4 (device control 4) | 设备控制4 |
0001 0101 | 025 | 21 | 0x15 | NAK (negative acknowledge) | 拒绝接收 |
0001 0110 | 026 | 22 | 0x16 | SYN (synchronous idle) | 同步空闲 |
0001 0111 | 027 | 23 | 0x17 | ETB (end of trans. block) | 结束传输块 |
0001 1000 | 030 | 24 | 0x18 | CAN (cancel) | 取消 |
0001 1001 | 031 | 25 | 0x19 | EM (end of medium) | 媒介结束 |
0001 1010 | 032 | 26 | 0x1A | SUB (substitute) | 代替 |
0001 1011 | 033 | 27 | 0x1B | ESC (escape) | 换码(溢出) |
0001 1100 | 034 | 28 | 0x1C | FS (file separator) | 文件分隔符 |
0001 1101 | 035 | 29 | 0x1D | GS (group separator) | 分组符 |
0001 1110 | 036 | 30 | 0x1E | RS (record separator) | 记录分隔符 |
0001 1111 | 037 | 31 | 0x1F | US (unit separator) | 单元分隔符 |
0010 0000 | 040 | 32 | 0x20 | (space) | 空格 |
0010 0001 | 041 | 33 | 0x21 | ! | 叹号 |
0010 0010 | 042 | 34 | 0x22 | " | 双引号 |
0010 0011 | 043 | 35 | 0x23 | # | 井号 |
0010 0100 | 044 | 36 | 0x24 | $ | 美元符 |
0010 0101 | 045 | 37 | 0x25 | % | 百分号 |
0010 0110 | 046 | 38 | 0x26 | & | 和号 |
0010 0111 | 047 | 39 | 0x27 | ' | 闭单引号 |
0010 1000 | 050 | 40 | 0x28 | ( | 开括号 |
0010 1001 | 051 | 41 | 0x29 | ) | 闭括号 |
0010 1010 | 052 | 42 | 0x2A | * | 星号 |
0010 1011 | 053 | 43 | 0x2B | + | 加号 |
0010 1100 | 054 | 44 | 0x2C | , | 逗号 |
0010 1101 | 055 | 45 | 0x2D | - | 减号/破折号 |
0010 1110 | 056 | 46 | 0x2E | . | 句号 |
0010 1111 | 057 | 47 | 0x2F | / | 斜杠 |
0011 0000 | 060 | 48 | 0x30 | 0 | 字符0 |
0011 0001 | 061 | 49 | 0x31 | 1 | 字符1 |
0011 0010 | 062 | 50 | 0x32 | 2 | 字符2 |
0011 0011 | 063 | 51 | 0x33 | 3 | 字符3 |
0011 0100 | 064 | 52 | 0x34 | 4 | 字符4 |
0011 0101 | 065 | 53 | 0x35 | 5 | 字符5 |
0011 0110 | 066 | 54 | 0x36 | 6 | 字符6 |
0011 0111 | 067 | 55 | 0x37 | 7 | 字符7 |
0011 1000 | 070 | 56 | 0x38 | 8 | 字符8 |
0011 1001 | 071 | 57 | 0x39 | 9 | 字符9 |
0011 1010 | 072 | 58 | 0x3A | : | 冒号 |
0011 1011 | 073 | 59 | 0x3B | ; | 分号 |
0011 1100 | 074 | 60 | 0x3C | < | 小于 |
0011 1101 | 075 | 61 | 0x3D | = | 等号 |
0011 1110 | 076 | 62 | 0x3E | > | 大于 |
0011 1111 | 077 | 63 | 0x3F | ? | 问号 |
0100 0000 | 0100 | 64 | 0x40 | @ | 电子邮件符号 |
0100 0001 | 0101 | 65 | 0x41 | A | 大写字母A |
0100 0010 | 0102 | 66 | 0x42 | B | 大写字母B |
0100 0011 | 0103 | 67 | 0x43 | C | 大写字母C |
0100 0100 | 0104 | 68 | 0x44 | D | 大写字母D |
0100 0101 | 0105 | 69 | 0x45 | E | 大写字母E |
0100 0110 | 0106 | 70 | 0x46 | F | 大写字母F |
0100 0111 | 0107 | 71 | 0x47 | G | 大写字母G |
0100 1000 | 0110 | 72 | 0x48 | H | 大写字母H |
0100 1001 | 0111 | 73 | 0x49 | I | 大写字母I |
01001010 | 0112 | 74 | 0x4A | J | 大写字母J |
0100 1011 | 0113 | 75 | 0x4B | K | 大写字母K |
0100 1100 | 0114 | 76 | 0x4C | L | 大写字母L |
0100 1101 | 0115 | 77 | 0x4D | M | 大写字母M |
0100 1110 | 0116 | 78 | 0x4E | N | 大写字母N |
0100 1111 | 0117 | 79 | 0x4F | O | 大写字母O |
0101 0000 | 0120 | 80 | 0x50 | P | 大写字母P |
0101 0001 | 0121 | 81 | 0x51 | Q | 大写字母Q |
0101 0010 | 0122 | 82 | 0x52 | R | 大写字母R |
0101 0011 | 0123 | 83 | 0x53 | S | 大写字母S |
0101 0100 | 0124 | 84 | 0x54 | T | 大写字母T |
0101 0101 | 0125 | 85 | 0x55 | U | 大写字母U |
0101 0110 | 0126 | 86 | 0x56 | V | 大写字母V |
0101 0111 | 0127 | 87 | 0x57 | W | 大写字母W |
0101 1000 | 0130 | 88 | 0x58 | X | 大写字母X |
0101 1001 | 0131 | 89 | 0x59 | Y | 大写字母Y |
0101 1010 | 0132 | 90 | 0x5A | Z | 大写字母Z |
0101 1011 | 0133 | 91 | 0x5B | [ | 开方括号 |
0101 1100 | 0134 | 92 | 0x5C | \ | 反斜杠 |
0101 1101 | 0135 | 93 | 0x5D | ] | 闭方括号 |
0101 1110 | 0136 | 94 | 0x5E | ^ | 脱字符 |
0101 1111 | 0137 | 95 | 0x5F | _ | 下划线 |
0110 0000 | 0140 | 96 | 0x60 | ` | 开单引号 |
0110 0001 | 0141 | 97 | 0x61 | a | 小写字母a |
0110 0010 | 0142 | 98 | 0x62 | b | 小写字母b |
0110 0011 | 0143 | 99 | 0x63 | c | 小写字母c |
0110 0100 | 0144 | 100 | 0x64 | d | 小写字母d |
0110 0101 | 0145 | 101 | 0x65 | e | 小写字母e |
0110 0110 | 0146 | 102 | 0x66 | f | 小写字母f |
0110 0111 | 0147 | 103 | 0x67 | g | 小写字母g |
0110 1000 | 0150 | 104 | 0x68 | h | 小写字母h |
0110 1001 | 0151 | 105 | 0x69 | i | 小写字母i |
0110 1010 | 0152 | 106 | 0x6A | j | 小写字母j |
0110 1011 | 0153 | 107 | 0x6B | k | 小写字母k |
0110 1100 | 0154 | 108 | 0x6C | l | 小写字母l |
0110 1101 | 0155 | 109 | 0x6D | m | 小写字母m |
0110 1110 | 0156 | 110 | 0x6E | n | 小写字母n |
0110 1111 | 0157 | 111 | 0x6F | o | 小写字母o |
0111 0000 | 0160 | 112 | 0x70 | p | 小写字母p |
0111 0001 | 0161 | 113 | 0x71 | q | 小写字母q |
0111 0010 | 0162 | 114 | 0x72 | r | 小写字母r |
0111 0011 | 0163 | 115 | 0x73 | s | 小写字母s |
0111 0100 | 0164 | 116 | 0x74 | t | 小写字母t |
0111 0101 | 0165 | 117 | 0x75 | u | 小写字母u |
0111 0110 | 0166 | 118 | 0x76 | v | 小写字母v |
0111 0111 | 0167 | 119 | 0x77 | w | 小写字母w |
0111 1000 | 0170 | 120 | 0x78 | x | 小写字母x |
0111 1001 | 0171 | 121 | 0x79 | y | 小写字母y |
0111 1010 | 0172 | 122 | 0x7A | z | 小写字母z |
0111 1011 | 0173 | 123 | 0x7B | { | 开花括号 |
0111 1100 | 0174 | 124 | 0x7C | | | 垂线 |
0111 1101 | 0175 | 125 | 0x7D | } | 闭花括号 |
0111 1110 | 0176 | 126 | 0x7E | ~ | 波浪号 |
0111 1111 | 0177 | 127 | 0x7F | DEL (delete) | 删除 |
Unicode
ASCII最多只能表示200多个字符,大部分国家都够用了,但是少数国家还是不够用,比如中国就推出了GB2312,这其中共收录6763个汉字。
但这出现了一个问题:如果使用了错误的字符集就会出现乱码。
这时候Unicode就诞生了,如果把各种文字编码形容为各地的方言,那么统一码就是世界各国合作开发的一种语言。
目前Unicode字符分为17组,每组称为一个平面(Plane),每个平面拥有16位,也就是65536个点位,一共可以包含100多万个字符。这其中不仅包括了所有国家的语言字符,还包括了数学符号、特殊字符,甚至是 Emoji 😀。
Unicode的实现
Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点 。
Unicode 是一个符号集, 它只规定了每个符号的二进制值,但是符号具体如何存储它并没有规定。
常见的实现方式是UTF(Unicode Transformation Format),如:UTF-8、UTF-16、UTF-32。其中UTF-8 最常见。后面的数字表明至少使用多少个比特位来存储字符,如:UTF-8 最少需要8bits也就是一个字节来存储,对应的, UTF-16 和 UTF-32 分别需要最少 2 个字节 和 4 个字节来存储。
UTF-8
Universal Multiple-Octet Coded Character Set,简称为UCS ,UCS-2表示一个字符用2个字节表示,UCS-4表示一个字符用4个字节表示。但一些字符并不需要这么多的字节表示,都使用Unicode会造成浪费,于是出现了 可变长度的储存方式。
最常见的储存方式是UTF-8,它可以用来表示Unicode标准中的任何字符,其规则如下:
对于单字节的符号,字节的第一位设为 0,后面 7 位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的, 所以 UTF-8 能兼容 ASCII 编码。
对于 n 字节的符号( n > 1),第一个字节的前 n 位都设为 1,第 n + 1 位设为 0,后面字节的前两位一律设为 10 。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
Unicode编码对应UTF-8需要的字节数量:
Unicode符号范围 | UTF-8所需字节数量 |
---|---|
0000 0000 - 0000 007F | 1 |
0000 0080 - 0000 07FF | 2 |
0000 0800 - 0000 FFFF | 3 |
0001 0000 - 0010 FFFF | 4 |
US-ASCIl字符只需1字节。
带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文等字母使用2字节。
中日韩文字、东南亚文字、中东文字等使用3字节。
其他极少使用的语言字符使用4字节。
示例
- 中文均使用 3 字节,因此使用 1110 开头。
- 使用三字节则分成三份。
- 填入Unicode的二进制表示。