十进制浮点数的表示方法

发布时间：2020-08-16 20:42:05 来源：ITPUB博客阅读：825 作者：pacman2000 栏目：编程语言

使用十进制浮点数,可以避免二进制浮点数与我们习惯的十进制数之间的表示误差.这个在金融领域是非常重要的.但是计算机基本都只能对二进制浮点数进行计算,也就是IEEE754格式表示的浮点数.很多程序都会自己模拟十进制浮点数的计算.为了统一,IEEE754做了扩展,包括了十进制的浮点数.

IEEE 754-2008里面规定了十进制浮点数的一些规范.不过里面没有说具体的二进制表示方法.只是规定了32位,64位,128位的十进制浮点数的表示范围和有效位数. 因为具体一个浮点数的二进制里面每个位表示啥,都是每个机器自己决定的.不需要跟外界一致.只是在传输的时候要保证数据的精度和范围一致就行了.下表来自wikipedia,列出了每种浮点数的有效位数,指数的范围.

Name	Common name	Base	Digits	E min	E max
binary16	Half precision	2	10+1	-14	15
binary32	Single precision	2	23+1	-126	127
binary64	Double precision	2	52+1	-1022	1023
binary128	Quadruple precision	2	112+1	-16382	16383
decimal32		10	7	-95	96
decimal64		10	16	-383	384
decimal128		10	34	-6143	6144

实际的系统中,十进制浮点数有两种表示方法,分别是Densely Packed Decimal(密集十进制数)和Binary Integer Decimal(二进制整数表示的十进制数).

DPD表示方便转换成十进制的浮点数字符串,但是需要专门的计算单元来做计算,软件模拟比较麻烦.

而BID表示更直观,转换到二进制会比较容易.很方便用二进制的整数运算单元来计算.

所以Power6上有了硬件的十进制浮点计算单元,就用DPD表示.而在x86 x64 cpu上没有十进制计算单元, 各种软件实现的十进制浮点库默认大都用BID方式表示.比如Intel就实现了一个开源的c 语言的十进制浮点数库。http://software.intel.com/en-us/articles/intel-decimal-floating-point-math-library/

十进制浮点的意义，在于更符合人们的习惯，比如下面的例子

#include < stdio . h >
int main ( )
{
double a = 7 . ;
double b = 0 . 00007 ;
printf ( "%d/n" , a = = b * 100000 ) ;
}

正确的输出应该是1，但是实际的输出结果是0，在做相等比较的时候，还不得不考虑一下这个误差了。而某些时候误差会在计算过程中累计，变成比较明显的错误了。

如果用intel的十进制浮点库赖做这个计算，结果就会不同了。intel这个库明显还在试验阶段，用起来比较麻烦。

int main ( )
{
Decimal64 a , b , c ;
_IDEC_round my_rnd_mode = _IDEC_dflround ;
_IDEC_flags my_fpsf = _IDEC_allflagsclear ;
a = bid64_from_int32 ( 7 ) ;
b = bid64_from_string ( "0.00007" , my_rnd_mode , & my_fpsf ) ;
c = bid64_mul ( b , bid64_from_int32 ( 100000 ) , my_rnd_mode , & my_fpsf ) ;
printf ( "%d/n" , bid64_quiet_equal ( a , c , & my_fpsf ) ) ;
return 0 ;
}

使用和double位数相同的Decimal64，结果就是1了。这里显然不是精度的问题，而是十进制浮点数能丝毫不变的表示十进制的小数。

我们可以看到这里使用的是BID的表示方法。函数名前面都带个bid前缀。

接下来，我们来具体看看BID的表示方法，我们可以把刚才程序中的a和c按照十六进制输出

printf("%llx/n%llx/n",a,c);

结果是

31c0000000000007
31200000000aae60

可见，两个相等的十进制浮点数的BID表示不一定是相同的。也就是说，一个数有多种表示方法。

a的表示里，最低位的16进制数就是7，而c的表示里，最低的5位15进制数aae60，其实就是十进制的700000。看来这后面的就是有效数字部分了。查一下BID的表示方法，还是比较复杂的，有6种情况。最高位是符号位，这里当然是0.符号位后面的两位是00，01，或10时，64位BID每个位的意义是这样的，s后面的2位和之后的8位是指数部分，之后53位T和t都是有效数字部分

s 00eeeeeeee TTTtttttttttttttttttttt tttttttttttttttttttttttttttttt
s 01eeeeeeee TTTtttttttttttttttttttt tttttttttttttttttttttttttttttt
s 10eeeeeeee TTTtttttttttttttttttttt tttttttttttttttttttttttttttttt
而如果符号位后面的两位是11，那么每一位的意义是
s 11 00eeeeeeee (100)Ttttttttttttttttttttt tttttttttttttttttttttttttttttt
s 11 01eeeeeeee (100)Ttttttttttttttttttttt tttttttttttttttttttttttttttttt
s 11 10eeeeeeee (100)Ttttttttttttttttttttt tttttttttttttttttttttttttttttt
这时，有效数字前面就加了隐含的100.
这个BID表示的数的值就是 (-1)^S *T*10^(E-398) ,其中T 是实际的有效数字（就是说如果有隐含的100需要加上后计算），E是指数，T，E都是2进制表示的
还是回到我们的例子
a的二进制数
0 0110001110 00000 00000000 00000000 00000000 00000000 00000000 00000111
指数部分就是0110001110，也就是398，所以a就是 7*10^(398-398) ,也就是7

而c的二进制是
0 0110001001 00000 00000000 00000000 00000000 00001010 10101110 01100000
指数部分是 0110001001，也就是393，所以c的值是 700000*10^(393-398)，还是7.
这就能看明白为啥同样是7，二进制表示却不同。这也是十进制浮点和二进制浮点一个不同之处，十进制浮点没有规定一定要是哪一种表示。这也给相等比较带来了一点麻烦。

power6 里面内置了十进制浮点计算单元，而power6上面的编译器也就支持了内置的十进制浮点类型。前面已经说了，power上面的十进制浮点才用的是DPD表示方法。还是看个程序吧。下面这个程序在一个使用Power6的P520机器上，操作系统是AIX5.3 ML6，用xlc 10.2编译。_Decimal64就是64位的十进制浮点。

int main ( int argc , char * * argv )
{
long i , count ;
double dfund , dinterest ;
_Decimal64 Dfund , Dinterest ; / * 定义十进制浮点类型的变量 * /
long long value ;
union trans {
_Decimal64 dv ;
int av [ 2 ] ;
} transTemp ;
dfund = atof ( argv [ 1 ] ) ;
dinterest = atof ( argv [ 2 ] ) ;
Dfund = atodecimal ( argv [ 1 ] ) ;
Dinterest = atodecimal ( argv [ 2 ] ) ;
count = atoi ( argv [ 3 ] ) ;
/ * 下面把_Decimal64 类型的Dinterest转换成两个int，然后按照十六进制格式显示 * /
transTemp . dv = Dinterest ;
printf ( "value=%#x,%#x/n" , transTemp . av [ ] , transTemp . av [ 1 ] ) ;
printf ( "double fund=%20.10f interest=%40.30f/n" , dfund , dinterest ) ;
printf ( "Decimal fund=%20.10Df interest=%40.30Df/n" , Dfund , Dinterest ) ; / * printing them with the new printf specifiers * /
for ( i = ; i < count ; i + + ) {
dfund = dfund * dinterest ;
Dfund = Dfund * Dinterest ; / * performing maths * /
}
printf ( "Print final funds/n" ) ;
printf ( "double fund=%30.10f/n" , dfund ) ;
printf ( "Decimal fund=%30.10Df/n" , Dfund ) ;
}

其中 atodecimal是自己写的一个帮助函数

_Decimal64 atodecimal ( char * s )
{
_Decimal64 top = , bot = , result ;
int negative = , i ;
if ( s [ ] = = ' - ' ) {
negative = 1 ;
s + + ;
}
if ( s [ ] = = ' + ' ) s + + ;
for ( ; isdigit ( * s ) ; s + + ) {
top = top * 10 ;
top = top + * s - ' ' ;
}
if ( * s = = ' . ' ) {
s + + ;
for ( i = strlen ( s ) - 1 ; isdigit ( s [ i ] ) ; i - - ) {
bot = bot / 10 ;
bot = bot + ( _Decimal64 ) ( s [ i ] - ' ' ) / ( _Decimal64 ) 10 ;
}
}
result = top + bot ;
if ( negative )
result = - result ;
return result ;
}

这个程序用xlc 10.2编译时，跟上参数表示使用硬件十进制浮点。不过这样会导致编译出来的可执行文件在power5以前的cpu上无法运行。

运行的时候输入参数 ./dfp_hw 1 1.00000091 6000000

dfp_hw是程序的名字，1就是程序里面的 fund，1.00000091是interest，也就是利息，6000000是count，输出结果：

value=0x22180000,0x800001b
double fund=        1.0000000000 interest=        1.000000910000000020616539586630
Decimal fund=        1.0000000000 interest=        1.000000910000000000000000000000
Print final funds
double fund=                235.0968403429
Decimal fund=                235.0968403137

可以看到用double存储利息，再输出，就不再是1.00000091了，后面有一点误差。而用_Decimal64存储输入结果，再输出，是一点误差都没有。

然后把interest乘6000000次，也就是1.0000091的6000000次方，输出的结果误差就比较明显了。用windows自带的计算器可以验证，_Decimal64的结果是正确的。

现在来看看1.00000091的二进制表示。也就是0x22180000,0x800001b，注意这里这个power机器是大端的，所以前面以前是高4字节，后面是低4字节。连起来看，就是0x22180000 0800001b也就是

00100010 00011000 00000000 00000000 00001000 00000000 00000000 00011011

DPD表示方法也比较复杂，从高位开始看，第一位还是符号位0，DPD的规定如果符号位后面的两位是00，01，或者10，那么每一位的意义如下

s 00 mmm (00)eeeeeeee (mmm)[tttttttttt][tttttttttt][tttttttttt][tttttttttt][tttttttttt]
s 01 mmm (01)eeeeeeee (mmm)[tttttttttt][tttttttttt][tttttttttt][tttttttttt][tttttttttt]
s 10 mmm (10)eeeeeeee (mmm)[tttttttttt][tttttttttt][tttttttttt][tttttttttt][tttttttttt]
其中，e是指数，e的表示方法跟前面的BID方式很像。t和m是有效数字，其中，每10位t组成一个declet，表示一个3位的十进制数。m实际的位置是在第4位到第6位，但是它逻辑上的位置是在那些t前面，所以用()表示放到e的后面。

因为2的10次方是1024，刚好能表示10的3次方。但是表示起来还是需要点技巧的，declet表示三位十进制数的规则比较复杂，这也是这个表示方法叫Densely Packed Decimal(密集十进制数)的原因。下表是编码的方式。b9-b0代表10个二进制数，d2 d1 d0代表3个十进制数。

编码值

数位的模式

0abc

0def

0ghi

(0 – 7) (0 – 7) (0 – 7)

3 位小数字

0abc

0def

100i

(0 – 7) (0 – 7) (8 – 9)

两位小数字，一位大数字

0abc

100f

0dei

(0 – 7) (8 – 9) (0 – 7)

100c

0def

0abi

(8 – 9) (0 – 7) (0 – 7)

0abc

100f

100i

(0 – 7) (8 – 9) (8 – 9)

一位小数字，两位大数字

100c

0abf

100i

(8 – 9) (0 – 7) (8 – 9)

100c

100f

0abi

(8 – 9) (8 – 9) (0 – 7)

100c

100f

100i

(8 – 9) (8 – 9) (8 – 9)

三位大数字

就我们的例子来看一下，最低的10位是0000011011，看b3b2b1，这里是101，所以就是上表第3行的情况，三位数字就是 (0000)(1001)(0001)也就是091，然后看从低位数的第3个10位二进制数，也就是00100000000，这显然是第一种情况，也就是100，连起来就是100000091，指数部分是390，那么这个十进制的值就是 10^(390-398)*100000091 = 1.00000091.

通过这个简单的例子，就应该对DPD方式的十进制浮点表示方式有个大概的了解了。这个方式算起来比较麻烦，所以除非有硬件支持，软件模拟的方式都不会使用的，但是DPD转换成十进制浮点的字符串表示就会很方便。

向AI问一下细节

十进制浮点数的表示方法

猜你喜欢

最新资讯

相关推荐

相关标签