日本語LGR提案書ドラフト(v0.15)の概要
1. はじめに
2020年10月15日に日本語生成パネル(JGP)がICANNに提出した日本語ルートゾーンLGR提案書ドラフト(v0.15)の概要を本資料に記します。
2. 本資料で使用する用語
用語 |
説明 |
ラベル |
ドメイン名を構成する文字列で、ドット「.」で区切られた各要素を指すドメイン名の中で、最右ラベルをトップレベルドメイン名、その左隣をセカンドレベルドメイン名、以降同様にサードレベルドメイン名等と呼び階層を表現する |
ルートゾーン |
トップレベルドメイン名の名前解決をするために必要なDNS情報が設定されたファイル。ICANNが維持管理し、ルートDNSサーバーがインターネット全体に提供する |
LGR |
国際化ドメイン名(Internationalized Domain Name; IDN)の登録申請文字列(申請ラベル)に関する生成ルール(Label Generation Rules)。特に本資料では、ルートゾーンに設定されるトップレベルドメイン名(TLD)の申請ラベルに関する生成ルール(ルートゾーンLGR)を指す |
レパートリー |
LGRが定義する、ラベルとして使用可能な文字の集合 |
C-LGR |
中国語(Chinese)用ルートゾーンLGR |
J-LGR |
日本語(Japanese)用ルートゾーンLGR |
K-LGR |
韓国語(Korean)用ルートゾーンLGR |
CGP |
中国語生成パネル (C-LGRを開発するチーム) |
JGP |
日本語生成パネル (J-LGRを開発するチーム) |
KGP |
韓国語生成パネル (K-LGRを開発するチーム) |
IP |
統合(Integration)パネル (各言語用LGRの整合をとり、全LGRを統合するチーム) |
3. J-LGRドラフトの検討過程と結果
3.1 J-LGRに関連する既存事実の調査
日本語IDNに関連する初期の検討は、2000年を中心にJPNIC主導で行われ、現在の主要なレジストリにおけるセカンドレベルドメイン名用日本語ドメイン名LGR(セカンドレベル日本語LGR)のベースとなっています。そのポイントは次のものです。
- レパートリーは英数字(ハイフンを含む)、漢字(一部準漢字を含む)、ひらがな、カタカナとする
- 英数字以外の文字はJIS X 0208 第一水準と第二水準の範囲内とする
- 異体字(字体は異なるが、読み・意味が同じため同じ文字とみなす文字の組)は定義しない(たとえば、「国」と「國」は全く別字とみなす)
3.2 JGPのメンバー選定
JGPのメンバーとして、IDNに関連する多様なバックグラウンドと経験を持つ専門家を7名選定しました。JGP活動開始後にさらに2名を追加選定しました。
(参考) JGPメンバー一覧
3.3 J-LGRの基本的考え方の設定
J-LGRでは、次の基本的考え方を採ることとしました。
- レパートリーは、既存のセカンドレベル日本語LGRのレパートリーから英数字とハイフン及び中点「・」を除いた6532文字とする
- J-LGR独自の異体字は定義しない
- C-LGR及びK-LGRで定義される異体字はJ-LGRでも異体字として取り入れる
この基本的考え方を決定するに際しては、次の事実を考慮しました。
- ICANNが設定したTLDのIDNレパートリーでは、英数字や記号文字を使えない
- セカンドレベル日本語LGR及び日本語ドメイン名の利用状況の調査の結果、既存のセカンドレベル日本語LGRには問題がないことがわかった
- ルートゾーンでは様々な言語のラベルが混在するため、日本語TLDであっても、同じく漢字を使う中国語TLD、韓国語TLDの登録者/利用者に混乱を与えないよう配慮すべきである
3.4 異体字に関するCGP、KGPとの調整
CGP及びKGPは、中国語、韓国語圏のドメイン名登録者/利用者の混乱を避けるために、複数の漢字を異体字と定義し同一とみなす方針をとっています。CGPとKGPは、二者間で異体字の定義を整合させる検討と調整を行いました。JGPは、その調整の結果作成された異体字定義が日本語TLD利用者にとって受け入れられるものかどうかをチェックしました。その結果、J-LGRにC-LGRとK-LGRの異体字定義を取り入れたとしても、日本語TLDに与える影響は小さいと判断し、CGPとKGPにその判断をフィードバックしました。
3.5 使用できる異体字ラベルの削減
異体字ラベルとは、申請ラベル中の文字をその文字の異体字に置き換えてできるラベルを言います。置き換える文字は複数個でも構いません。例えば「国」と「國」、「学」と「學」がそれぞれ異体字同士だとすると、「國立大學」「国立大學」「國立大学」はすべて「国立大学」の異体字ラベルとなります。ICANNが定めたTLD全体のルールでは、あるラベルの登録者は、そのラベルの異体字ラベルすべてに対する権利が与えられます。このため、TLDラベルの異体字ラベルが非常に多い場合、それら全部が使用できルートゾーンに設定されるとするとルートゾーンサイズの肥大や利用者の混乱を招きます。
従って、一つの申請ラベルに対し数多く存在する異体字ラベルの中から実際にTLDで使用可能なものを少数に絞り込む必要があります。その方法として、J-LGRでは登録者が申請したラベルは使用可能とした上で、それ以外には、異体字を持つ文字を常用漢字に置き換えた異体字ラベルだけを使用可能とする生成ルールとしました。
3.6 視覚的類似ラベルの抑制
グローバルコミュニティのコンセンサスによりJGP設立後にIDNガイドラインが更新され、その中でIDNに関するセキュリティ向上のために視覚的類似ラベルの利用の抑制が要請されています。CGP、JGP、KGPでもこれを受け入れ、他の言語用LGRと同様にこのガイドラインに従うこととし、「視覚的類似文字を異体字とみなす」策を講じることとしました。
JGPでは、具体的には、Unicode Consortiumが公表している confusable charactersリスト(錯視が起こりやすい文字)に記載されている文字対に対し、被験者を用いた実験に基づき、実際に錯視が起こりやすいことが確認された次の文字対10組を異体字として定義することとしました。
ひらがな |
カタカナ |
漢字 |
へ |
ヘ |
|
べ |
ベ |
|
ぺ |
ペ |
|
|
ニ |
二 |
|
ハ |
八 |
|
カ |
力 |
|
ト |
卜 |
|
ロ |
口 |
|
タ |
夕 |
|
エ |
工 |
- (注) Unicode Consortiumがひらがな-カタカナ-漢字間で同一視が起こりやすいとしている文字の組合せはこの表のものだけであり、またこれらすべてが錯視されやすいことが認知実験で実証された。
また、次の2組の記号文字と漢字の組についても視覚的類似性を根拠とする異体字としました。
記号文字 |
漢字 |
ー |
一 |
ヽ |
丶 |
4. J-LGRドラフトの内容
3.に記した内容を整理し、次の情報から成るJ-LGR提案書ドラフト(v0.15)を作成しました。
- JGP活動のプロセス概要と技術概要を記述した提案書本文
- J-LGRの定義(XML)
- J-LGRのテスト用文字列
- レパートリー
- 視覚的類似文字に対する認知実験レポート
提案内容を要約すると以下のとおりとなります。
- レパートリーはJIS第1水準、第2水準のひらがな・カタカナ・漢字・準漢字(中点を除き既存のセカンドレベル日本語LGRと同一)の6532文字とする
- J-LGR自体では漢字の異体字を定義しないが、C-LGRとK-LGRが定義する漢字の異体字を取り込む(それに伴い2567文字が追加され、レパートリーは計9099文字となる)
- 常用漢字を優先する生成ルールの導入により、TLDで使用可能とする異体字ラベルの数を絞り込む
- 視覚的類似性を根拠とする12組の異体字を定義する
以上