くすのきツリーバンク – 現代日本語の統語解析情報付きコーパス

フロントページ

かいのきツリーバンクは、手作業により構造分析を行ったおよそ150万語の現代日本語コーパスです。 以下のような特徴を持っています:

さらに、解析結果から得られた—依存関係グラフ—を検索インターフェイスで見ることができます。

関連リソース

くすのきツリーバンクには、かいのきツリーバンクという関連リソースがあります。 くすのきツリーバンクの統語レベルのアノテーションは、かいのきツリーバンクと基本的に同じですが、形態レベルでのアノテーションをローマ字化したテキストを基に行った点で異なっています。 くすのきツリーバンクの現在のデータ量はかいのきツリーバンクのおよそ3分の1です。

検索インターフェイス

かいのきツリーバンクは、アノテーションのほぼすべての側面を利用することのできる強力な検索インターフェースがあります。 検索結果は、アノテーションされた情報の付いたデータとしてダウンロードすることができます。 検索インターフェースが利用するソースデータは、定期的に修正・アップデートされます。

ご利用にあたって

『くすのきツリーバンク』を利用した研究成果を発表される際は、必ず下記の情報を明記して下さい。(バージョンやアクセス年月日は適宜置き換えて下さい。)

Kainoki, Ed (2022) “The Kusunoki Treebank – a parsed corpus of contemporary Japanese” https://jptrees.github.io (accessed 9 January 2022).

利用条件

この作品はクリエイティブ・コモンズ・ライセンスの下でライセンスされています: Creative Commons Attribution 4.0 International License.

Creative Commons License