かいのきツリーバンクは、手作業により構造分析を行ったおよそ150万語の現代日本語コーパスです。 以下のような特徴を持っています:
さらに、解析結果から得られた—依存関係グラフ—を検索インターフェイスで見ることができます。
くすのきツリーバンクには、かいのきツリーバンクという関連リソースがあります。 くすのきツリーバンクの統語レベルのアノテーションは、かいのきツリーバンクと基本的に同じですが、形態レベルでのアノテーションをローマ字化したテキストを基に行った点で異なっています。 くすのきツリーバンクの現在のデータ量はかいのきツリーバンクのおよそ3分の1です。
かいのきツリーバンクは、アノテーションのほぼすべての側面を利用することのできる強力な検索インターフェースがあります。 検索結果は、アノテーションされた情報の付いたデータとしてダウンロードすることができます。 検索インターフェースが利用するソースデータは、定期的に修正・アップデートされます。
『くすのきツリーバンク』を利用した研究成果を発表される際は、必ず下記の情報を明記して下さい。(バージョンやアクセス年月日は適宜置き換えて下さい。)
Kainoki, Ed (2022) “The Kusunoki Treebank – a parsed corpus of contemporary Japanese” https://jptrees.github.io (accessed 9 January 2022).
この作品はクリエイティブ・コモンズ・ライセンスの下でライセンスされています: Creative Commons Attribution 4.0 International License.