0.0
The project is in a healthy, maintained state
日本語 WordNet を Active Record 経由で検索できる
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
 Dependencies

Runtime

~> 7.0.4
~> 1.5.4
 Project Readme

WordnetJapan

日本語 WordNet を Active Record で検索できます

Installation

Install the gem and add to the application's Gemfile by executing:

$ bundle add wordnet_japan

If bundler is not being used to manage dependencies, install the gem by executing:

$ gem install wordnet_japan

Usage

事前に、日本語 WordNet (1.1) 最新版 Japanese Wordnet and English WordNet in an sqlite3 database をダウンロードしてください

require 'wordnet_japan'

WordnetJapan::Database.connect(database: 'tmp/wnjpn.db')

word = WordnetJapan::Word.find_by(lemma: 'キャンプ', pos: 'n')

p word
# =>
# #<WordnetJapan::Word wordid: 234565, lang: "jpn", lemma: "キャンプ", pron: nil, pos: "noun">

p word.synsets
# =>
# #<ActiveRecord::Associations::CollectionProxy [#<WordnetJapan::Synset synset: "05649960-n", pos: "n", name: "camp", src: "eng30">, #<WordnetJapan::Synset synset: "04411264-n", pos: "n", name: "collapsible_shelter", src: "eng30">, #<WordnetJapan::Synset synset: "02945813-n", pos: "n", name: "camp", src: "eng30">, #<WordnetJapan::Synset synset: "02945594-n", pos: "n", name: "summer_camp", src: "eng30">, #<WordnetJapan::Synset synset: "02945379-n", pos: "n", name: "camp", src: "eng30">, #<WordnetJapan::Synset synset: "01055165-n", pos: "n", name: "bivouacking", src: "eng30">, #<WordnetJapan::Synset synset: "02944826-n", pos: "n", name: "cantonment", src: "eng30">, #<WordnetJapan::Synset synset: "02945161-n", pos: "n", name: "camp", src: "eng30">]>

※ 日本語 WordNet について

公式サイト から抜粋します

日本語ワードネットは日本語の概念辞書です。個々の概念はそれぞれ「synset」という単位にまとめられており、それらが他のsynsetと意味的に結びついています。

本辞書は、英語ワードネットをもとに構築されました。

...

日本語ワードネットに収録されたsynset数や単語数、語義数は次のとおりです。

57,238 概念 (synset数) 93,834 words 語 158058 語義 (synsetと単語のペア) 135,692 定義文 48,276 例文

各テーブルの概要

wordnet_japan2

  • synset
    • 概念の基本情報
      • synset(synset番号
      • pos(品詞情報)
      • name(名称)
      • ...
  • synset_def
    • 概念の定義
      • synset(synset番号
      • lang(言語)
      • def(定義内容)
      • ...
  • synlink
    • 概念間の関係性
  • link_def
    • 関係性の定義
      • link(関係性)
      • lang(言語)
      • def(定義内容)
        • 大方の説明(一部ない)
          • ※ 品詞によって、関係性が分類されているよう(参考: Wikipedia
          • Hype(上位語=当該synsetが相手synsetに包含される)
          • Hypo(下位語=当該synsetが相手synsetを包含する)
          • Inst(当該synsetは相手synsetの例である)
          • Hasi(当該synsetは相手synsetを例として持つ)
          • ...
      • ...
  • sense
    • 概念と単語の関連
      • synset(synset番号
      • wordid(単語ID)
      • lang(言語)
      • ...
  • word
    • 単語
      • wordid(単語ID)
      • lang(言語)
      • lemma(内容)
      • pos(品詞)
      • ...
  • pos_def
    • 品詞の定義
      • pos(品詞)
      • lang(言語)
      • def(定義内容)
  • その他(よく分からない)
    • ancestor
      • 名前からして概念間の関係性を示していそう?
    • synset_ex
      • 概念の定義が入っている?
    • variant
      • 空、、
    • xlink
      • カテゴリ的なものが入っている?(例. サッカー→スポーツ)

例. 「トカゲ」の上位語・下位語を取得する

SELECT
  w1.lemma, sl.link, w2.lemma
from synlink as sl
INNER JOIN synset as sy1 on sy1.synset = sl.synset1
INNER JOIN synset as sy2 on sy2.synset = sl.synset2
INNER JOIN sense as se1 on se1.synset = sy1.synset
INNER JOIN sense as se2 on se2.synset = sy2.synset
INNER JOIN word as w1 on w1.wordid = se1.wordid
INNER JOIN word as w2 on w2.wordid = se2.wordid
where w1.lemma = 'トカゲ' and sl.link in ('hype', 'hypo')
and se1.lang = 'jpn' and w1.lang = 'jpn' and se2.lang = 'jpn' and w2.lang = 'jpn'
=>
lemma	link	lemma
トカゲ	hype	蜥蜴類
トカゲ	hypo	ヤモリ
トカゲ	hypo	毒トカゲ
トカゲ	hypo	カメレオン

ライセンス表示

利用している旨明記する必要があります

Development

After checking out the repo, run bin/setup to install dependencies. Then, run rake spec to run the tests. You can also run bin/console for an interactive prompt that will allow you to experiment.

To install this gem onto your local machine, run bundle exec rake install. To release a new version, update the version number in version.rb, and then run bundle exec rake release, which will create a git tag for the version, push git commits and the created tag, and push the .gem file to rubygems.org.

Contributing

Bug reports and pull requests are welcome on GitHub at https://github.com/[USERNAME]/wordnet_japan. This project is intended to be a safe, welcoming space for collaboration, and contributors are expected to adhere to the code of conduct.

License

The gem is available as open source under the terms of the MIT License.

Code of Conduct

Everyone interacting in the WordnetJapan project's codebases, issue trackers, chat rooms and mailing lists is expected to follow the code of conduct.