用 C# 處理二進(jìn)制文件
用 C# 處理二進(jìn)制文件的話,就會有另外兩項新的挑戰(zhàn)。第一項挑戰(zhàn)是:所有的 .NET 語言都是強類型的。因此,你不得不從文件中的字節(jié)流轉(zhuǎn)換為你所想要的數(shù)據(jù)類型。第二項挑戰(zhàn)就是:一些數(shù)據(jù)類型比它們表面上要復(fù)雜的多,需要某種轉(zhuǎn)換。
類型破壞(type breaking)
因為 .NET 語言,包括 C#,都是強類型的,你不能只是任意的從文件中讀取一段字節(jié),然后塞到數(shù)據(jù)結(jié)構(gòu)中就一切OK了。因此當(dāng)你要破壞類型轉(zhuǎn)換規(guī)則時,你就不得不這樣做了,首先讀取你所需要的字節(jié)數(shù)到一個字節(jié)數(shù)組中,然后把它們從頭到尾的復(fù)制到數(shù)據(jù)結(jié)構(gòu)中。
在 Usenet (注:世界性的新聞組網(wǎng)絡(luò)系統(tǒng))的文檔中搜尋,你會找到幾個構(gòu)架在 microsoft.public.dotnet層次上的一組程序,它們可以容許你把任何對象轉(zhuǎn)換為一系列字節(jié),并可以重新轉(zhuǎn)換回對象。它們可以在下面地址找到 Listing A
復(fù)雜的數(shù)據(jù)類型
在 C# 中,既沒有真正的數(shù)組,許多對象也沒有固定尺寸,因此一些復(fù)雜數(shù)據(jù)類型并不適合成為固定尺寸的二進(jìn)制數(shù)據(jù)。
.NET 提供了一種方式來解決這種問題。你可以告訴 C# ,你想怎樣處理你的字符串(string)和其它類型的數(shù)組。這將通過 MarshalAs 屬性來完成。下面這個例子,就是在 C# 中使用字符串,這屬性必須要在所控制的數(shù)據(jù)使用之前被使用:
[MarshalAs(UnmanagedType.ByValTStr, SizeConst = 50)]
你想要從二進(jìn)制文件中讀取,或者儲存到二進(jìn)制文件中的字符串(string)的長度就決定了參數(shù) SizeConst 的大小。這樣就確定了字符串長度的最大值。
現(xiàn)在,你知道了 .NET 引入的問題是怎樣被解決的了。那么,在后面,你就可以了解到,解決前面所遇到的二進(jìn)制文件問題是那么的容易。
包裝(pack)
不用麻煩的去設(shè)定編譯器來控制如何排列數(shù)據(jù)。你只需使用 StructLayout 屬性就可以使數(shù)據(jù)依照你的意愿來排列或打包。當(dāng)你需要不同的數(shù)據(jù)有著不同的包裝方式的時候,這就顯得十分有用了。這就像裝扮你的汽車一樣,任你的喜好。使用 StructLayout 屬性就像你很小心的決定是否把每一個數(shù)據(jù)都緊湊包裝或者還是只將它們隨便打發(fā),只要它們能夠被重新讀出來就行了。 StructLayout 屬性的使用如下面所示:
[StructLayout(LayoutKind.Sequential, Pack = 1)]
這樣做可以使數(shù)據(jù)忽略邊界對齊,讓數(shù)據(jù)盡可能的緊湊包裝。這個屬性應(yīng)當(dāng)和你從二進(jìn)制文件中讀取的任何數(shù)據(jù)的屬性都保持一致(即:你寫到文件中的屬性應(yīng)和從文件讀出來屬性保持不變)。
你也許會發(fā)現(xiàn),即使給你的數(shù)據(jù)加上了這個屬性后,也沒有完全解決問題。在某些情況下,你可能不得不進(jìn)行沉悶冗長的反復(fù)實驗。由于不同計算機和編譯器在二進(jìn)制層次上的有著不同的運行處理方式,這就是引起上述問題的原因。特別是在跨平臺時,我們都必須特別小心的處理二進(jìn)制數(shù)據(jù)。 .NET 是個好工具,適合其它二進(jìn)制文件,但是也并不是一個完美的工具。
字節(jié)排列順序的翻轉(zhuǎn)(endian flipping)
讀寫二進(jìn)制文件的經(jīng)典問題之一就是:某些計算機首先是儲存最不重要的字節(jié)(如:Inter),而另外一些計算機是首先儲存最重要的字節(jié)。在 C 和 C++ 中,你不得不手動處理這個問題,而且只能是一個字段一個字段的翻轉(zhuǎn)。而 .NET 框架的優(yōu)點之一就是:代碼可以在運行時訪問類型的元數(shù)據(jù)(metadata),你也就能夠讀取信息,并使用它來自動解決數(shù)據(jù)中每一段的字節(jié)排列順序問題。在 Listing B 上可以找到源代碼,你可以了解是如何處理的。
一旦你得知對象的類型,你能夠獲得數(shù)據(jù)里的每個部分,并開始檢查每一個部分,并確定其是否是一個16位或32位的無符號整數(shù)。在任何一種上述情況下,你都可以改變字節(jié)的排序順序,而且不會破壞數(shù)據(jù)。
注意:你不是用字符串類(string)來完成所有的事。是采用高位優(yōu)先還是低位優(yōu)先,并不會影響到字符串類。那些字段是不受翻轉(zhuǎn)代碼的影響。你也只是要注意無符號整數(shù)而已。因為,負(fù)數(shù)在不同的系統(tǒng)上,并不是使用同一種表示方式的。負(fù)數(shù)可以只用一個記號(一位字節(jié))表示,但是更常用的,卻是使用兩個記號(兩位字節(jié))表示。這使得負(fù)數(shù)在跨平臺時有些更困難。幸運的是,負(fù)數(shù)在二進(jìn)制文件中極少使用。
這只是多說幾句了,同樣的,浮點數(shù)有時并不是用標(biāo)準(zhǔn)方式表示的。盡管大多數(shù)系統(tǒng)是以IEEE格式為基礎(chǔ)來設(shè)置浮點數(shù)的,但是還是有一小部分老的系統(tǒng)使用了其它的格式來設(shè)置浮點數(shù)的。
克服困難
盡管 C# 還是有一些問題,但是你依舊能夠使用它來讀取二進(jìn)制文件。實際上,由于 C# 所使用的那種用來訪問對象的元數(shù)據(jù)(metadata)的方式,使它成為一種能夠更好讀取二進(jìn)制文件的語言。因此, C# 能夠自動解決整個數(shù)據(jù)的字節(jié)交換(byte swapping)問題。
新聞熱點
疑難解答