Base64編碼原理分析與PHP實現

Base64是一種基於64個可打印字符來表示二進制數據的表示方法。由於2的6次方等於64,所以每6個為一個單元,對應某個可打印字符。

三個bites有24個比特,對應於4個Base64單元,即3個字節需要用4個可打印字符來表示。它可用來作為電子郵件的傳輸編碼。

 

在Base64中的可打印字符包括字母A-Z、a-z、數字0-9,這樣共有62個字符,此外兩個可打印符號在不同的系統中而不同。

 

如在mime(多用途郵件擴展)中,Base64的使用的64個可打印字符

 

A-Za-z:大小寫字母各26個

 

0-9:加上10個數字

 

+:加號

 

/:斜杠

 

一共64個字符,等號“=”用來作為後綴用途

 

對應的轉換關系為

 

0-63:A-Za-z0-9+/

 

 

 

轉換的時候,將三個byte的數據,先後放入一個24bit的緩沖區中,先來的byte占高位。數據不足3byte的話,於緩沖器中剩下的bit用0補足。然後,每次取出6(因為26=64)個bit,按照其值選擇ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/中的字符作為編碼後的輸出。不斷進行,直到全部輸入數據轉換完成。

 

當原數據長度不是3的整數倍時, 如果最後剩下一個輸入數據,在編碼結果後加2個“=”;如果最後剩下兩個輸入數據,編碼結果後加1個“=”;如果沒有剩下任何數據,就什麼都不要加,這樣才可以保證數據還原的正確性。

 

實例分析:

 

編碼:"Lailaiji"

 

通過查ASCII表找到對應關系

 

L:0x4c |  a:0x61  | i:0x69   |  l:0x6C    |  j:0x6A

 

因此轉換成二進制為:0100 1100 , 0110 0001 , 0110 1001 , 0110 1100 ,  0110 0001 , 0110 1001 , 0110 1010 ,  0110 1001

 

第一步:先取三個字節的數據即:0100 1100 , 0110 0001 , 0110 1001,然後從這個三字節中取出6位即010011,在最高位補充兩個位00使其成為1個byte,即0001 0011,剩餘的18位也如此循環,最終這三個字節將擴展成為4個字節即:0001 0011, 0000 0110, 0000 0101, 0010 1001

 

第二步,從剩餘的字節序列中再重復第一步,走到小於3個字節

 

第三步,這時剩餘字節為:0110 1010,0110 1001不足3個字節,需要在從低位以0進行補充,即成0110 1010,0110 1001,0000 0000重復第一步,得到:0001 1010,0010 0110, 0010 0100, 0000 0000,

 

經過以後的運算後,我們將得到一組位序列:

 

0001 0011, 0000 0110, 0000 0101, 0010 1001

 

0001 1011,0000 0110, 0000 0101, 0010 1001

 

0001 1010,0010 0110, 0010 0100, 0000 0000 

 

轉換成十進制為:19,6,5,41,27,6,5,41,26,38,36,0

 

對應的字符為:T,G,F,p,b,G,F,p,a,m,k,A

 

特別註重的是,最後一個字節0000 0000即0x00,通過查表為A,由於最後這8位是補充的,所以它應當被轉換成=號,而不是A

 

因此:最終結果為:TGFpbGFpamk=

 

PHP實現:

 

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

<?php

$input = '賴來基';

$obj = new MyBase64();

$output = $obj->encode($input);

echo "Encode:",$output.PHP_EOL;

$output = $obj->decode($output);

echo "Decode:",$output.PHP_EOL;

class MyBase64{

    private $_table = array();

    private $_revtable = array();

    public function __construct(){

        $this->_initTable();

    }

    public function decode($string)

    {

        $orign_len = strlen($string);

        $j = 0;

        $ret = null;

        for($i=0; $i<$orign_len; $i+=4)

        {

            $chr1 = $this->getRevChr($string[$i]);

            $chr2 = $this->getRevChr($string[$i+1]);

            $chr3 = $this->getRevChr($string[$i+2]);

            $chr4 = $this->getRevChr($string[$i+3]);

            $_chr1 = $chr1<<2 | ($chr2&0x3F) >>4;

            $_chr2 = ($chr2&0x0F)<<4 | ($chr3&0xFC) >>2;

            $_chr3 = ($chr3&0x03)<<6 | $chr4;

            $ret .= chr($_chr1);

            $ret .= chr($_chr2);

            $ret .= chr($_chr3);

        }

        $ret = rtrim($ret);

        return $ret;

    }

    private function getRevChr($chr)

    {

        if(isset($this->_revtable[$chr]))

        {

            return $this->_revtable[$chr];

        }else{

            return 0;

        }

    }

    public function _decode($string)

    {

        $orign_len = strlen($string);

        $de = null;

        $kv = array_flip($this->_table);

        $b  = null;

        for($i = 0 ;$i < $orign_len;$i++)

        {

            $chr = $string[$i];

            if($chr != '='){

                $c = $kv[$chr];

            }else{

                $c = chr(0);

            }

            printf("%x",$c);

            $b[] = pack('C',$c);

            echo PHP_EOL;

        }

        for($i = 0 ;$i < count($b);$i+=3){

            $ch1 = ($b[$i]<<2) | ($b[$i+1]>>4);

            $ch2 = ($b[$i+1]<<4) | ($b[$i+2]>>2);

            $ch3 = ($b[$i+2]<<6) | ($b[$i+3]);

            printf('%08b,%08b,%08b',$ch1,$ch2,$ch3);

            echo PHP_EOL;

            printf('%08b,%08b',($b[$i]<<2) , ($b[$i+1]>>4));

 

            echo PHP_EOL;

        }

    }

    public function encode($string)

    {

        $orign_len = strlen($string);

        $len       = intval(ceil($orign_len/3)*3);

        $bin       = pack('a'.$len,$string);

        $gen       = null;

        for($i=0; $i<$len; $i+=3)

        {

            $ch1 = ord($bin[$i]) >> 2;

            $ch2 = ((ord($bin[$i]) & 0x03) << 4) | (ord($bin[$i+1]) >> 4);

            $ch3 = ((ord($bin[$i+1]) & 0x0F) << 2) | ((ord($bin[$i+2]) & 0xC0) >> 6);

            $ch4 = ord($bin[$i+2]) & 0x3F;

            $gen.= $this->_table[$ch1];

            $gen.= $this->_table[$ch2];

            $gen.= $this->_table[$ch3];

            $gen.= $this->_table[$ch4];

        }

        if($orign_len-$len){

            $gen = substr($gen,0, -abs($orign_len-$len));

            for($i=0;$i<$len-$orign_len;$i++)

            {

                $gen .= '=';

            }          

        }

        return $gen;

    }

    private function  _initTable()

    {

        $tbl = array();

        for($i=ord('A');$i<=ord('Z');$i++)

        {

            $tbl[] = chr($i);

        }

        for($i=ord('a');$i<=ord('z');$i++)

        {

            $tbl[] = chr($i);

        }

        for($i=ord('0');$i<=ord('9');$i++)

        {

            $tbl[] = chr($i);

        }

        $tbl[]           = '+';

        $tbl[]           = '/';

        $reverse         = array_flip($tbl);

        $this->_table    = $tbl;

        $this->_revtable = $reverse;

    }

}

 

發佈留言