##master-page:CategoryTemplate ##master-date:Unknown-Date #format wiki #language ja #acl JGPsecretariat:read,write,delete,revert,admin JGPmember:read All:read = 日本語LGR提案書 (v0.20a)の概要 = == 1. はじめに == [[https://www.icann.org/en/public-comment/proceeding/proposal-for-japanese-script-root-zone-label-generation-rules-30-09-2021|2021年9月30日付でICANNがパブリックコメント募集を開始]]した[[https://j-gp.jp/J-LGR-v0.20a|日本語ルートゾーンLGR提案書(v0.20a)]]の概要を本資料に記します。 == 2. 本資料で使用する用語 == ||<20%>'''用語'''||'''説明'''|| ||ラベル||ドメイン名を構成する文字列で、ドット「.」で区切られた各要素を指すドメイン名の中で、最右ラベルをトップレベルドメイン名、その左隣をセカンドレベルドメイン名、以降同様にサードレベルドメイン名等と呼び階層を表現する|| ||ルートゾーン||トップレベルドメイン名の名前解決をするために必要なDNS情報が設定されたファイル。ICANNが維持管理し、ルートDNSサーバーがインターネット全体に提供する|| ||LGR||国際化ドメイン名(Internationalized Domain Name; IDN)の登録申請文字列(申請ラベル)に関する生成ルール(Label Generation Rules)。特に本資料では、ルートゾーンに設定されるトップレベルドメイン名(TLD)の申請ラベルに関する生成ルール(ルートゾーンLGR)を指す|| ||レパートリー||LGRが定義する、ラベルの構成要素として使用可能な文字の集合|| ||C-LGR||中国語(Chinese)用ルートゾーンLGR|| ||J-LGR||日本語(Japanese)用ルートゾーンLGR|| ||K-LGR||韓国語(Korean)用ルートゾーンLGR|| ||CGP||中国語生成パネル (C-LGRを開発するチーム)|| ||JGP||日本語生成パネル (J-LGRを開発するチーム)|| ||KGP||韓国語生成パネル (K-LGRを開発するチーム)|| ||IP||統合(Integration)パネル (各言語用LGRの整合をとり、全LGRを統合するチーム)|| == 3. J-LGRドラフトの検討過程と結果 == === 3.1 J-LGRに関連する既存事実の調査 === 日本語IDNに関連する初期の検討は、2000年を中心にJPNIC主導で行われ、現在の主要なレジストリにおけるセカンドレベルドメイン名用日本語ドメイン名LGR(セカンドレベル日本語LGR)のベースとなっています。そのポイントは次のものです。 * レパートリーは英数字(ハイフンを含む)、漢字(一部準漢字を含む)、ひらがな、カタカナとする * 英数字以外の文字はJIS X 0208 第一水準と第二水準の範囲内とする * 異体字(字体は異なるが、読み・意味が同じため同じ文字とみなす文字の組)は定義しない(たとえば、「国」と「國」は全く別字とみなす) === 3.2 JGPのメンバー選定 === JGPのメンバーとして、IDNに関連する多様なバックグラウンドと経験を持つ専門家を9名選定しました。(JGP活動開始当初は7名) (参考) [[メンバー一覧|JGPメンバー一覧]] === 3.3 J-LGRの基本的考え方の設定 === J-LGRでは、次の基本的考え方を採ることとしました。 * レパートリーは、既存のセカンドレベル日本語LGRのレパートリーから英数字・ハイフン・漢数字ゼロ「〇」及び中点「・」を除いた6532文字とする * 読み・意味が同じであることを根拠とするJ-LGR独自の異体字は定義しない * 視覚的類似性により混乱を起こしやすいレパートリー内の文字同士は異体字とする * C-LGR及びK-LGRで定義される異体字はJ-LGRでも異体字として取り入れる この基本的考え方を決定するに際しては、次の事実を考慮しました。 * ICANNが設定したTLDのIDNレパートリーでは、英数字や英字記号文字を使えない * セカンドレベル日本語LGR及び日本語ドメイン名の利用状況の調査の結果、既存のセカンドレベル日本語LGRには問題がないことがわかった * ルートゾーンでは様々な言語のラベルが混在するため、日本語TLDであっても、同じく漢字を使う中国語TLD、韓国語TLDの登録者/利用者に混乱を与えないよう配慮すべきである === 3.4 異体字に関するCGP、KGPとの調整 === CGP及びKGPは、中国語、韓国語圏のドメイン名登録者/利用者の混乱を避けるために、読み・意味が同じであることを根拠として複数の漢字同士を異体字と定義し同一とみなす方針をとっています。CGPとKGPは、二者間で異体字の定義を整合させる検討と調整を行いました。JGPは、その調整の結果作成された異体字定義が日本語TLD利用者にとって受け入れられるものかどうかをチェックしました。その結果、J-LGRにC-LGRとK-LGRの異体字定義を取り入れたとしても、日本語TLDに与える影響は小さいと判断し、CGPとKGPにその判断をフィードバックしました。 === 3.5 使用できる異体字ラベルの削減 === 異体字ラベルとは、申請ラベル中の文字をその文字の異体字に置き換えてできるラベルを言います。置き換える文字は複数個でも構いません。例えば「国」と「國」、「学」と「學」がそれぞれ異体字同士だとすると、「國立大學」「国立大學」「國立大学」はすべて「国立大学」の異体字ラベルとなります。ICANNが定めたTLD全体のルールでは、あるラベルの登録者は、そのラベルの異体字ラベルすべてに対する権利が与えられます。このため、TLDラベルの異体字ラベルが非常に多い場合、それら全部が使用できルートゾーンに設定されるとするとルートゾーンサイズの肥大や利用者の混乱を招きます。 従って、一つの申請ラベルに対し数多く存在する異体字ラベルの中から実際にTLDで使用可能なものをごく少数に絞り込む必要があります。その方法として、J-LGRでは登録者が申請したラベルだけを使用可能とすることとしました。 === 3.6 視覚的類似ラベルの抑制 === グローバルコミュニティのコンセンサスによりJGP設立後にIDNガイドラインが更新され、その中でIDNに関するセキュリティ向上のために視覚的類似ラベルの利用の抑制が要請されています。CGP、JGP、KGPでもこれを受け入れ、他の言語用LGRと同様にこのガイドラインに従うこととし、「視覚的類似文字を異体字とみなす」策を講じることとしました。 JGPでは、具体的には、Unicode Consortiumが公表している confusable charactersリスト(錯視が起こりやすい文字)に記載されている文字対に対し、被験者を用いた実験に基づき、実際に錯視が起こりやすいことが確認された次の文字対10組を異体字として定義することとしました。 ||'''ひらがな'''||'''カタカナ'''||'''漢字 '''|| ||<:>へ||<:>ヘ|||| ||<:>べ||<:>ベ|||| ||<:>ぺ||<:>ペ|||| ||<:> ||<:>ニ||<:>二|| ||<:> ||<:>ハ||<:>八|| ||<:> ||<:>カ||<:>力|| ||<:> ||<:>ト||<:>卜|| ||<:> ||<:>ロ||<:>口|| ||<:> ||<:>タ||<:>夕|| ||<:> ||<:>エ||<:>工|| (注) Unicode Consortiumがひらがな-カタカナ-漢字間で同一視が起こりやすいとしている文字の組合せはこの表のものだけであり、またこれらすべてが錯視されやすいことが認知実験で実証された。 また、次の2組の記号文字と漢字の組についても視覚的類似性を根拠とする異体字としました。 ||'''記号文字 '''||'''漢字 '''|| ||<:>ー||<:>一|| ||<:>ヽ||<:>丶|| == 4. J-LGRの内容 == 3.に記した内容を整理し、次の情報から成るJ-LGR提案書 (v0.20a)を作成しました。 * JGP活動のプロセス概要と技術概要を記述した提案書本文 * J-LGRの定義(XML) * J-LGRのテスト用文字列 * レパートリー * 視覚的類似文字に対する認知実験レポート(2件) 提案内容を要約すると以下のとおりとなります。 * レパートリーはJIS第1水準、第2水準のひらがな・カタカナ・漢字・準漢字(漢数字ゼロ及び中点を除き既存のセカンドレベル日本語LGRと同一)の6532文字とする * J-LGR自体では漢字の異体字を定義しないが、C-LGRとK-LGRが定義する漢字の異体字を取り込む * 使用可能なTLDは申請されたラベルのみとし、異体字ラベルは使用できないこととする * 視覚的類似性を根拠とする12組の異体字を定義する * 捨て仮名(「っ」「ォ」などの小さい仮名)・繰り返し文字(「々」「ヾ」など)・長音記号(「ー」)はラベルの先頭に使えない == 以上 == ---- == 【参考】日本語LGR提案書ドラフト(v0.15)との差異 == 2020年10月15日にJGPのWebページにて紹介した[[https://j-gp.jp/topics/20201015-01|日本語LGR提案書ドラフト(v0.15)]]に対し、IPと議論しつつ検討を深め、v0.20aにて主に次の変更を施しました。 I. 異体字ラベルを使用可能にするいくつかの方法の検討とそれらの長所・短所の検討を重ね、申請ラベル以外の異体字ラベルは使用不可とすることとした I. 視覚的類似ラベルの定義をさらに広げる必要がないことを、フィールドサーベイに基づき確認した(Appendix C) I. 通常の日本語文字使用と同様に、捨て仮名((「っ」「ォ」などの小さい仮名)・繰り返し文字(「々」「ヾ」など)・長音記号(「ー」)はラベルの先頭に使えないこととした <>