tfidf_ja¶ ↑
tfidf_jaは与えられた単語の配列の TF-IDF を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。
特徴¶ ↑
tfidf_jaには以下の特徴があります。
-
IDF辞書
-
IPADIC辞書に収録されている日本語の形態素(約32万語)を使用し、TF値をYahoo!のインデックス数としてあらかじめ算出。
-
算出したTF値からIDF値を算出し、IDF辞書としてライブラリに包含し、ライブラリ使用時の算出コストを減らしています。
-
-
形態素解析
-
igo-rubyを使用した形態素解析を行なった上で、TF-IDFを算出することをおすすめします。
-
インストール方法¶ ↑
コマンドプロンプトより以下を実行してください。
$ gem install tfidf_ja
サンプル¶ ↑
単語の配列からTF-IDFを取得¶ ↑
require 'rubygems' require 'tfidf_ja' ti = TfIdf::Ja.new p ti.tfidf(['この', '文章', 'から', 'TFIDF', '値', 'を', '取得', 'する'])
インスタンスを使い回し¶ ↑
インスタンスを使い回すことにより、TF-IDF値は加算されていきます。複数のテキストから連続して算出する場合に便利です。
付録¶ ↑
公開場所¶ ↑
Copyright¶ ↑
Copyright © 2011 K.Nishi. See LICENSE.txt for further details.