Hedge automata: a formal model for XML schemata

ただし、翻訳の質については、何の保証もありません。あしからず(_o_))

はじめに

これは生け垣オートマトン理論のための予備知識について書いたものです。 XMLコミュニティでは、最近、この理論がXML スキーマのシンプルかつパワフルなモデルであると思われるようになってきました。とりわけ、RELAX(REgular LAnguage for XML)の設計では、この理論が直接の土台となっています。

生け垣

まず、生け垣(hedge)について説明します。おおざっぱには、生け垣は木(tree)の並び(sequence)です。 XML用語では、生け垣は文字データ(または文字データの型)を挟むことのある、要素(elements)の並びです。とりわけ、XML文書は生け垣そのものです。

有限集合Σ(シンボル(symbol) の集合)と有限集合X(変数(variable)の集合) 上の生け垣 は以下の通りです:

ε (空の生け垣),
x, これは x ∈Xである場合
a <u>, これは a∈Σで、 u が生け垣である場合 (ルートノードとしてシンボルを付加)
uv, これは u と vが生け垣である場合 (2つの生け垣の結合)

「a <ε>」「a <x>」「a<ε>b<b<ε>x>」

です。 Σの要素(すなわち aとb) が葉(leaf)ではないノードのラベルとして使われていて、 Xの要素(すなわち x ) が葉となるノードのラベルに使われているのに気づくでしょう。 a <ε>は aと省略します。よって、三番目の例は a b <b x > を表しています。

図 1. 3つの生け垣: a <ε> , a <x > , そして a <ε > b < b <ε> x >

次に、XML文書について考えてみます。 Σ = {doc, title, image, para} かつ X ={#PCDATA}とします。そうすると、

doc < title<#PCDATA> para<#PCDATA> <image/> para<#PCDATA>>

は生け垣になります。XMLの文法では、この生け垣は以下のように表すことができます:

正規生け垣文法

このセクションでは、 正規生け垣文法(regular hedge grammars) (RHGs)を紹介します。 RHG は生け垣を生成するためのメカニズムです。言い換えれば、 RHGは生け垣の集合を表現します。

XML スキーマの第一の役割は validな文書の集合を表現することであるため、 RHGはXML スキーマの形式的表現であると考えることができます。

正規生け垣文法 (RHG)は 5つの要素のタプル、 <Σ, X, N, P,r_f >からなります。各要素の詳細は以下の通りです:

Σはシンボルの有限集合
X は変数の有限集合
N は非終端記号の有限集合
P は 生成ルールの有限集合で、それぞれは以下の2つのうちのどちらかにである:
- n → x, ただしn ∈Nで、 x ∈ X
- n → a <r>, ただしn∈ Nで、 a∈Σで、 r は非終端記号を含む正規表現
r_f は非終端記号を含む正規表現

さて、RHGの 導出(derivation) について考えましょう。おおざっぱに言えば、非終端記号の並びが与えられたとき、その非終端記号を、対応する生成ルールの右側にある生け垣に、繰り返し置き換えていきます。

以下の場合、生け垣vは生け垣uから直接導出すると言います:

いくつかの生成ルール n → xに対して、 n(∈u)を Xで置き換えていけば生け垣v が得られる
いくつかの生成ルール n → a <r>に対して、 a <w>(wは非終端記号の並びでrにマッチする)でn(∈u)を置き換えていけば生け垣vが得られる

Gから生成される言語 (これはL(G)と書きます)は、 r_f にマッチする非終端記号列から導出される生け垣の集合です。

P = {n₁ → a<n₂⁺ >, n₂ → x }.

L(G) ={ε, a<x >, a<xx>, a<xxx >, ...}

つぎに、DTDを真似たRHG を構成してみましょう。例として、以下のような DTD を考えてみましょう:

この DTD は以下のようなRHG G = <Σ, X, N, P, n_d > で表わすことができます:

Σ = {doc, title, image, para},
X = { #PCDATA } ,
N = {n_d , n_t , n_p , n_i , n_# }
P = {n_d → doc <n_t (n_p | n_i )^* > ,
n_t → title <n_# >,
n_p → para <n_# >,
n_i → image <ε>,
n_# → #PCDATA }

つづいて、以下を満たすRHG G = <Σ, X, N, P, n₁ > を考えます:

Σ = {segment , para} ,
X = { #PCDATA } ,
N = { n₁ , n₂ , n_p , n_# } ,
P = {n₁ → segment <n_p^* n₂^* > ,
n₂ → segment <n_p^* > ,
n_p → para <n_# > ,
n_# → #PCDATA }

非終端記号n₁ に対するルールも n₂に対するルールも、右側にsegment があります。しかし、前者は n_p^* n₂^* の内容モデルを持っていて、後者は n_p^*の内容モデルを持っています。これは、最上位のsegmentは従属するsegmentを持てるが、従属するsegmentは、さらにその下に属するsegmentを持つことはできないことを意味しています。

DTD文法では、このRHGを正確に表現することができません。これは、全てのsegmentが同じモデルを持つことしかできないためです。このRHGをカバーする最小のDTDは以下の通りです:

このDTDはsegmentが際限なく入れ子になることを許してしまうのに気をつけてください。 DTD文法が二つの内容モデルを持つことが許されないため、このDTDはゆるい内容モデルを一つだけ使っています。

生け垣オートマトン

このセクションでは、決定的生け垣オートマトンと非決定的生け垣オートマトンを紹介します。

決定的生け垣オートマトン deterministic hedge automaton (DHA) は、以下を満たす < Σ, X, Q, α, ι, F>です:

Σはシンボルの有限集合
X は変数の有限集合
Q は状態の有限集合
α は Σ×Q^*から Q への、全て q ∈ Qと x ∈ Σに対して {q₁ q₂ ... q_k | k >= 0, α(x, q₁ q₂ ... q_k ) = q } が正規集合になるような関数
ι は X から Qへの関数
F は Q上の正規集合

図2. 決定的生け垣オートマトンの実行

次に、正規生け垣文法のセクションでの最初の例を受理するDHAを示します。 M = <a , x , { q₀, q₁, q₂ }, α, ι, q₁^? }, を以下を満たすものとしましょう:

L(G) ={ε , a<x> , a<xx> , a<xxx> , ... }

次に、非決定的生け垣オートマトンを紹介します。 非決定的生け垣オートマトン non-deterministic hedge automaton (NDHA) とは、以下の条件を満たす < Σ, X, Q, α, ι, F> です:

Qと Σと Fは、DFAの定義で指定したもの
α は Σ × Q^*から Qへの、全てのq ∈ Q と x ∈ Σに対して、 {q₀q₁...q_k | k>= 0, α(x, q₀q₁...q_k, q)} が正規文字列言語となる関係(またはΣ × Q^* から 2^Q への関数)。この関係は遷移関係と呼びます。
ιは X から Q への関係(または X から 2^Qへの関数)

定義より、DHA は同時にNDHAでもあります。一つの状態と、その状態のみを持つ一要素の集合とを同一視すればよいのです。よって、先ほどのDHAはNDHAの例にもなっています。

RHGの章での最後のRHGの例は、以下を満たす NDHA <Σ, X, Q, α, ι, F > で表現することができます。

Σ = {segment, para }
X = { #PCDATA }
Q = < q₁, q₂, q_p, q_# >
a = segment かつ u ∈ L ( q_p^* q₂^* ) )のとき、 α(a, u) は q₁を含む
a = segmentかつ u ∈ L ( q_p^* )のとき、 α(a, u) は q₂ を含む
a = para かつ u ∈ L(q_#)) のとき、 α(a, u) は q_p を含む
x = #PCDATAのとき、 ι(x ) = q_#
F = q₁

正規生け垣言語の性質

等価性

LはあるRHGより生成される
LはあるDHAに受理される
LはあるNDHAに受理される

(3) が (2)を含むことの証明は部分集合構成法によってできます。残りの証明も容易です。

ブール閉包(Boolean closure)

集合 L₁ と L₂ が、それぞれ (N)DHA M₁ と M₂ に受理されると仮定します。この場合、以下の言語を受理する(N)DHAsを実際に構成することができます。

L₁ と L₂ の共通集合 (L₁∩ L₂)
L₁ と L₂の和集合 (L₁∪ L₂)
L₁の補集合 (L₁以外の全ての生け垣からなる集合)

拡張文脈自由文法の解析木

拡張文脈自由文法の解析木の集合は 局所(local)木言語と言われます。局所木言語と正規生け垣言語の関係はよく知られています。ここではXMLに直接関連する二つの知見に触れておきます。

局所木言語は正規生け垣言語である(言い換えれば、全ての拡張文脈自由文法について、対応するDHAを構成することができる)
木のみを含む全ての正規生け垣言語について、その正規生け垣言語を含むただ一つの最小局所木言語が存在する

(1)はRHGがDTDよりも表現力が豊かであることを意味しています。また、 (2)は与えられたすべてのRHGについて、適切なDTDが構成できることを保証します。

書誌的註釈

In the theoretical computer science community, regular hedge languages were first studied by Pair et al[PQ68] and Takahashi[Tak75]. Regular hedge language can also be considered as extensions of regular tree languages [Tha67]. We borrow some concepts from these papers but adopt definitions more similar to those for regular string languages.

We define RHG's similarily to [PQ68,Tak75], but we avoid projections. Alternatively, our definition can be considered as a hedge-version of Brainerd's tree regular grammars (called "tree generating regular systems) [Bra69].

Our definitions of NDHAs and DHAs are derived from (non-)deterministic tree automata of [Tha67] except that we have extended them to hedges.

It was Kil-Ho Shin (Fuji Xerox) who first proposed to use regular hedge languages as a formal model for schemata of structured documents. His proposal dates back to November, 1991, but he never published any papers. In search of a formalism for document schemata, HIYAMA Masayuki (FAMILY Given) reached a similar formalism in 1996. Since 1993, the present author has applied regular hedge languages (and hedge monoids, which are outside the scope of this note) for schema transformation [Mur97a,Mur97b,Mur98].

The word ``hedge'' was originally proposed by Bruno Courcelle [Cou89]. Derick Wood recommended the use of this word, and it has become the standard word in the XML community after a tutorial by Paul Prescod in 1999. For more information, see the special section on hedge automata in the he SGML/XML Web Page (http://www.oasis-open.org/cover/topics.html#forestAutomata).

References

[Tha87] James W. Thatcher. Tree automata: An informal survey. In Alfred V. Aho, editor, Currents in the theory of computing, pages 143--172. Prentice-Hall, 1987.

生け垣オートマトン: XML スキーマの形式的モデル