Project

tfidf_ja

0.01
No commit activity in last 3 years
No release in over 3 years
tfidf_ja computes TF-IDF with a dictionary. This gem include a Japanese IDF dictionary that were prepared in Yahoo! API.
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022
2023
2024
 Dependencies

Development

~> 1.0.0
~> 1.5.1
>= 0
~> 2.1.0
 Project Readme

tfidf_ja¶ ↑

tfidf_jaは与えられた単語の配列の TF-IDF を算出し、単語をキー、TF-IDF値をバリューとするハッシュテーブルを返却するライブラリです。

特徴¶ ↑

tfidf_jaには以下の特徴があります。

  • IDF辞書

    • IPADIC辞書に収録されている日本語の形態素(約32万語)を使用し、TF値をYahoo!のインデックス数としてあらかじめ算出。

    • 算出したTF値からIDF値を算出し、IDF辞書としてライブラリに包含し、ライブラリ使用時の算出コストを減らしています。

  • 形態素解析

    • igo-rubyを使用した形態素解析を行なった上で、TF-IDFを算出することをおすすめします。

インストール方法¶ ↑

コマンドプロンプトより以下を実行してください。

$ gem install tfidf_ja

サンプル¶ ↑

単語の配列からTF-IDFを取得¶ ↑

require 'rubygems'
require 'tfidf_ja'

ti = TfIdf::Ja.new
p ti.tfidf(['この', '文章', 'から', 'TFIDF', '値', 'を', '取得', 'する'])

インスタンスを使い回し¶ ↑

インスタンスを使い回すことにより、TF-IDF値は加算されていきます。複数のテキストから連続して算出する場合に便利です。

付録¶ ↑

公開場所¶ ↑

Copyright © 2011 K.Nishi. See LICENSE.txt for further details.