fastTextがすごそう ~とりあえず使ってみた編~
Facebookから公開されたfastTextというライブラリがすごそうなので使ってみようと思います。
このライブラリは大量の文章を読み込んで、単語をベクトル表現できるようにするものです。
そうすることで、似ている単語や単語同士の関連性などを知ることができます。さらには単語の分類やレコメンドにも利用できるというものです。
もっとくわしく機能や凄さを紹介している記事はこちら
使ってみて面白い結果が出てきたら、ここのブログかQiitaの方にでもまとめようと思いますが、「とりあえず適当にデータ突っ込んでみた」結果からもすごさの片鱗が見られたので紹介しておきます。
まず学習のためのデータは、自作のニュースまとめサイト「ITニュースのお漬物(β)」でせっせと集めているニュースの記事を使います。
とりあえずライブラリのパラメータはデフォルト値を使って何も考えずに処理を流してみました。そして特定の単語と近いと判断された単語をまとめてみます。
このあたりの作業手順とかはきれいにしてから別途まとめる、、、予定。
(これで、IT系の話題検出とか関連ニュースのレコメンドとかを将来的にはやりたい。。。)
試してみた単語はIT系で何かと話題の”分析”、”機械学習”、”AI”、ついでに”ポケモン”です。
単語→ ↓順位 |
ポケモン | 分析 | 機械学習 | AI |
1 | トレーナー | 分析技術 | 機械学習技術 | bot |
2 | トレーナーレベル | 蓄積 | 機械学習機能 | Nauto |
3 | メダル | 分析結果 | 深層学習 | SAIKAWA |
4 | トレーニングバトル | 誤検知 | 学習 | WISE |
5 | Pokemon | 人手 | 人工知能技術 | ABEJA |
6 | タマゴ | 把握 | 強化学習 | Artificial |
7 | ポケストップ | 欠品回避 | 異種混合学習技術 | Einstein |
8 | ゲットホリックケース | 収集 | 自然言語処理 | COTOHA |
9 | モンスターボール | 規則性 | 膨大 | TIS |
10 | トレース | 脅威情報 | 自動生成 | Institute |
これはなかなかすごい結果ではないでしょうか。
もちろん単語によってはよくわからない結果だったりもしましたが、上の結果はだいぶ妥当性がある気がします。
まだまだいろんなことができそうなので引き続き遊んでみよう。