Java二進制指令代碼以以下格式緊湊排列(opcode占一個字節):
opcode operand*
除瞭tableswitch和lookupswitch兩條指令中間存在填充字節以外,其他指令都沒有填充字節,即使在兩條指令之間也沒有。因而在讀取指令的時候,要根據指令的定義讀取。
通過對上面Java指令集的分析可以知道,Java指令集中很大一部分沒有操作數,因而對這部分指令,隻需要讀取一個字節的操作碼,將操作碼映射成助記符即可。
而對其他帶操作數的指令,則需要根據不同類型分析(由於apache中的bcel(Binary Code Engineering Library)對字節碼的支持,操作碼和助記符的映射可以用com.sun.org.apache.bcel.internal.Constats中提供的映射表數組來完成)。
1. 處理兩條特殊的指令tableswitch和lookupswitch指令。
對這兩條指令,首先都要去掉填充字符以使defaultbyte1索引號是字對齊的。
private static void make4ByteAlignment(ByteSequence codes) {
int usedBytes = codes.getIndex() % 4;
int paddingBytes = (usedBytes == 0) ? 0 : 4 – usedBytes;
for(int i = 0;i < paddingBytes;i++) {
codes.readByte();
}
}
對tableswitch指令,讀取defaultoffset值,最小項的值,最大項的值以及在最小項和最大項之間每一項的offset值。並且將讀取到的offset值和當前指令的基地址相加:
int defaultOffset1 = baseOffset + codes.readInt();
builder.append("\tdefault = #" + defaultOffset1);
int low = codes.readInt();
int high = codes.readInt();
int npair1 = high – low + 1;
builder.append(", npairs = " + npair1 + "\n");
for(int i = low;i <= high;i++) {
int match = i;
offset = baseOffset + codes.readInt();
builder.append(String.format("\tcase %d : #%d\n", match, offset));
}
對lookupswitch指令,讀取defaultoffset值,鍵值對數值(npairs),以及npairs對的鍵值對,將得到的offset值和當前指令的基地址相加:
int defaultOffset2 = baseOffset + codes.readInt();
builder.append("\tdefault = #" + defaultOffset2);
int npairs2 = codes.readInt();
builder.append(", npairs = " + npairs2 + "\n");
for(int i = 0;i < npairs2;i++) {
int match = codes.readInt();
offset = baseOffset + codes.readInt();
builder.append(String.format("\tcase %d : #%d\n", match, offset));
}
2. 所有條件跳轉指令都有兩個字節的偏移量操作數(if<cond>, if_icmp<cond>, ifnull, ifnonnull, if_acmp<cond>)。無條件跳轉指令goto和子例程跳轉指令jsr也都是兩個字節的偏移量作為操作數。
offset = baseOffset + codes.readShort();
builder.append(String.format("\t\t#%d\n", offset));
3. 對寬偏移量的跳轉指令goto_w和子例程跳轉指令jsr_w的操作數是四個字節的偏移量。
offset = baseOffset + codes.readInt();
builder.append(String.format("\t\t#%d\n", offset));
4. wide指令,則繼續讀取下一條指令,並將wide參數設置為true。
byteCodeToString(codes, pool, verbose, true);
5. 還有一些指令值以一個字節的局部變量索引號作為操作數的,如果有wide修飾,則用兩個字節作為操作數,代表局部變量索引號。這樣的指令有:aload, iload, fload, lload, dload, astore, istore, fstore, lstore, dstore, ret。
if(wide) {
index = codes.readUnsignedShort();
} else {
index = codes.readUnsignedByte();
}
builder.append(String.format("\t\t%%%d\n", index));
6. iinc指令,以一個字節的局部變量索引號和一個自己的常量作為參數;如果以wide修飾,則該指令的局部變量索引號和常量都占兩個字節。
if(wide) {
index = codes.readUnsignedShort();
constValue = codes.readShort();
} else {
index = codes.readUnsignedByte();
constValue = codes.readByte();
}
builder.append(String.format("\t\t%d %d\n", index, constValue));
7. 對象操作指令,它們的操作數都是常量池中的索引,長度為兩個字節。指向CONSTANT_Class_info類型的結構,這些指令有new, checkcast, instanceof, anewarray。
index = codes.readUnsignedShort();
builder.append("\t\t" + pool.getClassInfo(index).toInstructionString(verbose) + "\n");
8. 所有字段操作指令,它們的操作數都是常量池中的索引,長度為兩個字節。指向CONSTANT_Fieldref_info類型結構,這些指令有getfield, putfield, getstatic, putstatic。
index = codes.readUnsignedShort();
builder.append("\t\t" + pool.getFieldRefInfo(index).toInstructionString(verbose) + "\n");
9. 非接口方法調用指令,也都是以兩個字節的索引號作為操作數,指向常量池中的CONSTANT_Methodref_info類型結構,這些指令有invokespecial, invokevirtual, invokestatic。
index = codes.readUnsignedShort();
builder.append("\t\t" + pool.getMethodRefInfo(index).toInstructionString(verbose) + "\n");
10. 接口方法調用指令invokeinterface,它有四個字節的操作數,前兩個字節為常量池的索引號,指向CONSTANT_InterfaceMethodref_info類型,第三個字節為count,表示參數的字節數,最後一個字節為0值。
index = codes.readUnsignedShort();
int nargs = codes.readUnsignedByte(); //Historical, redundant
builder.append("\t\t" + pool.getInterfaceMethodRefInfo(index).toInstructionString(verbose));
builder.append(" : " + nargs + "\n");
codes.readUnsignedByte(); //reserved should be zero
11. 基本類型的數組創建指令newarray,它的操作數為一個字節的類型標識。
String type = Constants.TYPE_NAMES[codes.readByte()];
builder.append(String.format("\t\t(%s)\n", type));
12. 多維數組的創建指令multianewarray,它有三個字節的操作數,前兩個字節為索引號,指向CONSTANT_Class_info類型,表示數組的類型,最後一個字節指定數組的維度。
index = codes.readUnsignedShort();
int dimensions = codes.readUnsignedByte();
builder.append(String.format("\t\t%s (%d)\n", pool.getClassInfo(index).getName(), dimensions));
13. 常量入棧指令ldc,以一個字節的索引號作為參數,指向CONSTANT_Integer_info、CONSTANT_Float_info、CONSTANT_String_info、CONSTANT_Class_info類型,表示要入棧的常量值(int類型值、float類型值、String引用類型值或對象引用類型值)。
index = codes.readUnsignedByte();
builder.append("\t\t" + pool.getPoolItem(index).toInstructionString(verbose) + "\n");
14. 寬索引的常量入棧指令ldc_w,以兩個字節的索引號作為參數,指向CONSTANT_Integer_info、CONSTANT_Float_info、CONSTANT_String_info、CONSTANT_Class_info類型,表示要入棧的常量值(int類型值、float類型值、String引用類型值或對象引用類型值)。
index = codes.readUnsignedShort();
builder.append("\t\t" + pool.getPoolItem(index).toInstructionString(verbose) + "\n");
15. 寬索引的常量入棧指令ldc2_w,以兩個字節的索引號作為參數,指向CONSTANT_Long_info、CONSTANT_Double_info類型,表示要入棧的常量值(long類型值、double類型值)。
index = codes.readUnsignedShort();
builder.append("\t\t" + pool.getPoolItem(index).toInstructionString(verbose) + "\n");
16. bipush指令,以一個字節的常量作為操作數。
byte constByte = codes.readByte();
builder.append(“\t” + constByte);
17. sipush指令,以兩個字節的常量作為操作數。
short constShort = codes.readShort();
builder.append(“\t” + constShort);
以上還有一些沒有完成的代碼,包括字段(方法)的簽名和描述符沒有解析,有一些解析的格式還需要調整等。不管怎麼樣,總體的結構就是這樣瞭,其它的都是細節問題,這裡不討論瞭。
作者“上善若水”