使用COMPOSE和UNISTR 創(chuàng)建沉音字符

2024-07-21 02:06:20

字體：大中小

供稿：網(wǎng)友

很多語(yǔ)言，包括英語(yǔ)在內(nèi)，都使用沉音字符（accented character）。因?yàn)檫@些字符不屬于 ascii 字符集，所以如果不查看 unicode 值也不使用 unicode 編輯器并將其轉(zhuǎn)成一個(gè)已知字符集，就很難編寫使用這些字符的代碼。

oracle9i 引入了 compose 函數(shù)，該函數(shù)接受一串 unicode 字符并規(guī)則化其文本。這就意味著它可以接受一個(gè)字母和一個(gè)組合標(biāo)記，比如說(shuō)‘a'（unicode 字符0097）和沉音符（unicode 字符0300），然后創(chuàng)建一個(gè)單獨(dú)的由兩個(gè)標(biāo)記組合而成的字符。compose 使用特殊的組合標(biāo)記，而沒(méi)有使用 ascii 中相應(yīng)的音節(jié)標(biāo)記，它所使用的特殊的組合標(biāo)記是 unicode 標(biāo)準(zhǔn) 的一部分。上面的例子的結(jié)果應(yīng)該是 unicode 字符00e0（有一個(gè)沉音符的小寫拉丁字母‘a'）。

在 ansi 中最常見(jiàn)的組合字符有：

· u+0300：沉音符（grave accent）( ` )

· u+0301：重音符（acute accent）( ' )

· u+0302：抑揚(yáng)音符號(hào)（circumflex accent）(^)

· u+0303：顎化符號(hào)（tilde）(~)

· u+0308：元音變音

如果沒(méi)有特殊的軟件或者鍵盤驅(qū)動(dòng)程序的話，很難在鍵盤上輸入 unicode 字符0097和0300。因此，以純 ascii 文本輸入 unicode 序列的一個(gè)方法是使用 unistr 函數(shù)。這個(gè)函數(shù)接受一個(gè) ascii 字符串然后以國(guó)家字符集（通常作為16位 unicode 或者 utf-8 字符集安裝）創(chuàng)建一個(gè) unicode 字符的序列。它使用十六進(jìn)制占位符序列映射任何非 ascii 字符，映射方式與 java 類似。

要輸入 a 后接一個(gè)沉音符組合字符的序列，可以使用 unistr(‘a/0300')，而不要試圖直接在代碼中輸入字符。這個(gè)函數(shù)在任何字符集以及任何具有基于 unicode 的國(guó)家字符集的數(shù)據(jù)庫(kù)下都可以正常運(yùn)行。可以將多個(gè)組合字符放在函數(shù)中——可以在 unistr 函數(shù)中混合使用 ascii 和 unicode 占位符。例如，可以像下面這樣使用 unistr 函數(shù)：

select compose(unistr('unless you are nai/0308ve, meet me at the cafe/0301 with
your re/0301sume/0301.')) from dual;

在將 unistr 函數(shù)的輸出與 compose 組合時(shí)，可以在不查找任何值的情況下生成一個(gè) unicode 字符。例如：

select 'it is true' if compose(unistr('a/0300')) = unistr('/00e0');

compose 函數(shù)返回一個(gè)nvarchar2 字符串，返回的nvarchar2 字符串通常是基于 unicode 的。如果是在本地使用這些字符，在結(jié)果中具有一個(gè)隱式地 to_char 時(shí)，數(shù)據(jù)庫(kù)將嘗試將 unicode 字符映射到本地字符集。不是所有的字符都可以被映射，有一些字符組合在 compose 中不能工作，因?yàn)?unicode 協(xié)會(huì)沒(méi)有在 oracle 所用的級(jí)別定義它們。

要快速地檢查字符如何在一個(gè)特定的環(huán)境下查詢，可以運(yùn)行一個(gè)與下面的腳本類似的腳本，以查看在輸出組合字符如何被映射。你可能需要確定一下nls_lang 設(shè)置以確保這些字符正確地返回：

create or replace type hexrange_tbl as table of varchar2(4);
/
show errors;

create or replace function hexrange(n1 varchar2,n2 varchar2)
return hexrange_tbl pipelined
is
begin
for i in to_number(n1,'000x') .. to_number(n2,'000x') loop
pipe row(to_char(i,'fm000x'));
end loop;
return;
end hexrange;
/
show errors;

select column_value composer,
compose(unistr('a/'||column_value)) a,
compose(unistr('c/'||column_value)) c,
compose(unistr('e/'||column_value)) e,
compose(unistr('i/'||column_value)) i,
compose(unistr('n/'||column_value)) n,
compose(unistr('o/'||column_value)) o,
compose(unistr('r/'||column_value)) r,
compose(unistr('s/'||column_value)) s,
compose(unistr('u/'||column_value)) u,
compose(unistr('y/'||column_value)) y
from table(hexrange('0300','0327')) x;

下面輕松一下，這里有一小段 pl/sql 腳本，這段腳本使用compose 和unistr 創(chuàng)建一種特殊效果，很多 sms 用戶、黑客和垃圾郵件發(fā)送者都使用這種效果使可讀英文文本難于掃描，因?yàn)樗褂米址匾舭姹镜囊粋€(gè)隨機(jī)序列。我使用dbms_random 隨機(jī)選取一個(gè)可由不同字符使用的組合字符，然后讓 sql 進(jìn)行組合并進(jìn)行反向轉(zhuǎn)換以生成 ansi/latin-1 輸出。這段腳本在代碼中使用了 emp 表的 ename 字段。

set serveroutput on;
declare
-- these combinations work under ansi, at least
a_comb nvarchar2(50) := unistr('/0300/0301/0302/0303/0308/ 030a ');
c_comb nvarchar2(50) := unistr('/0327');
e_comb nvarchar2(50) := unistr('/0300/0301/0302/0308');
i_comb nvarchar2(50) := unistr('/0300/0301/0308');
n_comb nvarchar2(50) := unistr('/0303');
o_comb nvarchar2(50) := unistr('/0300/0301/0302/0303/0308');
u_comb nvarchar2(50) := unistr('/0300/0301/0302/0308');
y_comb nvarchar2(50) := unistr('/0301/0308');
l_idx integer;
l_ename nvarchar2(50);
ch nchar;
l_junk varchar2(50);
begin
dbms_random.initialize(to_char(sysdate,'sssss'));
for row in (select ename from emp) loop
l_ename := row.ename;
l_junk := null;
for i in 1..length(l_ename) loop
ch := substr(l_ename,i,1);
case lower(ch)
when 'a' then
l_junk := l_junk || compose(ch || substr(a_comb,
mod(abs(dbms_random.random),length(a_comb)) + 1,1));
when 'c' then
l_junk := l_junk || compose(ch || substr(c_comb,
mod(abs(dbms_random.random),length(c_comb)) + 1,1));
when 'e' then
l_junk := l_junk || compose(ch || substr(e_comb,
mod(abs(dbms_random.random),length(e_comb)) + 1,1));
when 'i' then
l_junk := l_junk || compose(ch || substr(i_comb,
mod(abs(dbms_random.random),length(i_comb)) + 1,1));
when 'n' then
l_junk := l_junk || compose(ch || substr(n_comb,
mod(abs(dbms_random.random),length(n_comb)) + 1,1));
when 'o' then
l_junk := l_junk || compose(ch || substr(o_comb,
mod(abs(dbms_random.random),length(o_comb)) + 1,1));
when 'u' then
l_junk := l_junk || compose(ch || substr(u_comb,
mod(abs(dbms_random.random),length(u_comb)) + 1,1));
when 'y' then
l_junk := l_junk || compose(ch || substr(y_comb,
mod(abs(dbms_random.random),length(y_comb)) + 1,1));
else
l_junk := l_junk || ch;
end case;
end loop;
dbms_output.put_line(to_char(l_junk));
end loop;
end;
/
show errors;

上一篇：了解一下NULLs怎樣影響IN和e&#120;ists

下一篇：split命令分割分區(qū)的方法