WordnetJapan
日本語 WordNet を Active Record で検索できます
Installation
Install the gem and add to the application's Gemfile by executing:
$ bundle add wordnet_japan
If bundler is not being used to manage dependencies, install the gem by executing:
$ gem install wordnet_japan
Usage
事前に、日本語 WordNet (1.1) 最新版 Japanese Wordnet and English WordNet in an sqlite3 database をダウンロードしてください
require 'wordnet_japan'
WordnetJapan::Database.connect(database: 'tmp/wnjpn.db')
word = WordnetJapan::Word.find_by(lemma: 'キャンプ', pos: 'n')
p word
# =>
# #<WordnetJapan::Word wordid: 234565, lang: "jpn", lemma: "キャンプ", pron: nil, pos: "noun">
p word.synsets
# =>
# #<ActiveRecord::Associations::CollectionProxy [#<WordnetJapan::Synset synset: "05649960-n", pos: "n", name: "camp", src: "eng30">, #<WordnetJapan::Synset synset: "04411264-n", pos: "n", name: "collapsible_shelter", src: "eng30">, #<WordnetJapan::Synset synset: "02945813-n", pos: "n", name: "camp", src: "eng30">, #<WordnetJapan::Synset synset: "02945594-n", pos: "n", name: "summer_camp", src: "eng30">, #<WordnetJapan::Synset synset: "02945379-n", pos: "n", name: "camp", src: "eng30">, #<WordnetJapan::Synset synset: "01055165-n", pos: "n", name: "bivouacking", src: "eng30">, #<WordnetJapan::Synset synset: "02944826-n", pos: "n", name: "cantonment", src: "eng30">, #<WordnetJapan::Synset synset: "02945161-n", pos: "n", name: "camp", src: "eng30">]>
※ 日本語 WordNet について
公式サイト から抜粋します
日本語ワードネットは日本語の概念辞書です。個々の概念はそれぞれ「synset」という単位にまとめられており、それらが他のsynsetと意味的に結びついています。
本辞書は、英語ワードネットをもとに構築されました。
...
日本語ワードネットに収録されたsynset数や単語数、語義数は次のとおりです。
57,238 概念 (synset数) 93,834 words 語 158058 語義 (synsetと単語のペア) 135,692 定義文 48,276 例文
各テーブルの概要
- synset
- 概念の基本情報
- synset(synset番号)
- pos(品詞情報)
- name(名称)
- ...
- 概念の基本情報
- synset_def
- 概念の定義
- synset(synset番号)
- lang(言語)
- def(定義内容)
- ...
- 概念の定義
- synlink
- 概念間の関係性
- synset * 2(synset番号)
- link(関係性)
- ...
- 概念間の関係性
- link_def
- 関係性の定義
- link(関係性)
- lang(言語)
- def(定義内容)
-
大方の説明(一部ない)
- ※ 品詞によって、関係性が分類されているよう(参考: Wikipedia)
- Hype(上位語=当該synsetが相手synsetに包含される)
- Hypo(下位語=当該synsetが相手synsetを包含する)
- Inst(当該synsetは相手synsetの例である)
- Hasi(当該synsetは相手synsetを例として持つ)
- ...
-
大方の説明(一部ない)
- ...
- 関係性の定義
- sense
- 概念と単語の関連
- synset(synset番号)
- wordid(単語ID)
- lang(言語)
- ...
- 概念と単語の関連
- word
- 単語
- wordid(単語ID)
- lang(言語)
- lemma(内容)
- pos(品詞)
- ...
- 単語
- pos_def
- 品詞の定義
- pos(品詞)
- lang(言語)
- def(定義内容)
- 品詞の定義
- その他(よく分からない)
- ancestor
- 名前からして概念間の関係性を示していそう?
- synset_ex
- 概念の定義が入っている?
- variant
- 空、、
- xlink
- カテゴリ的なものが入っている?(例. サッカー→スポーツ)
- ancestor
例. 「トカゲ」の上位語・下位語を取得する
SELECT
w1.lemma, sl.link, w2.lemma
from synlink as sl
INNER JOIN synset as sy1 on sy1.synset = sl.synset1
INNER JOIN synset as sy2 on sy2.synset = sl.synset2
INNER JOIN sense as se1 on se1.synset = sy1.synset
INNER JOIN sense as se2 on se2.synset = sy2.synset
INNER JOIN word as w1 on w1.wordid = se1.wordid
INNER JOIN word as w2 on w2.wordid = se2.wordid
where w1.lemma = 'トカゲ' and sl.link in ('hype', 'hypo')
and se1.lang = 'jpn' and w1.lang = 'jpn' and se2.lang = 'jpn' and w2.lang = 'jpn'
=>
lemma link lemma
トカゲ hype 蜥蜴類
トカゲ hypo ヤモリ
トカゲ hypo 毒トカゲ
トカゲ hypo カメレオン
ライセンス表示
Development
After checking out the repo, run bin/setup
to install dependencies. Then, run rake spec
to run the tests. You can also run bin/console
for an interactive prompt that will allow you to experiment.
To install this gem onto your local machine, run bundle exec rake install
. To release a new version, update the version number in version.rb
, and then run bundle exec rake release
, which will create a git tag for the version, push git commits and the created tag, and push the .gem
file to rubygems.org.
Contributing
Bug reports and pull requests are welcome on GitHub at https://github.com/[USERNAME]/wordnet_japan. This project is intended to be a safe, welcoming space for collaboration, and contributors are expected to adhere to the code of conduct.
License
The gem is available as open source under the terms of the MIT License.
Code of Conduct
Everyone interacting in the WordnetJapan project's codebases, issue trackers, chat rooms and mailing lists is expected to follow the code of conduct.