MacにMeCabを入れてみたので良い点悪い点合わせてメモ残しとく

ごきげんよう

今回はMeCabを入れてみました。
仕事柄馴染みのあるものなんですが、今の自宅で使うMacには入れていなかったので入れまする。
前のLinux機には入れていたような。

そもそもMeCabとはなんぞや

記事のタイトルに吸い寄せられる人の多くは知っているだろうけど、念のため簡単に説明しておく。

オープンソースの形態素解析エンジンで入力文を分かち書きや品詞分割という処理を行う事で日本語文を形態素に分割するもの。
形態素とは意味を持つ最小単位である。
MeCabの他にChasenやJUMANなどがあります。商用でも色々と。
他にもありますけど。とりあえず簡単に入れられて有名なのでこちらを。
こいつは、日本語をコンピュータが理解するには大切なエンジンで、文を解析して単語を抜き出すとかその品詞を選定するとか。
テキストマイニングとか文章要約とかもっと高度な処理を行う影の立役者だと思っている。私が勝手に思っているだけだが。

私の環境とインストールしたMeCab

Mac OSX 10.9.5
MaCab:mecab-0.996.
IPA辞書:mecab-ipadic-2.7.0-20070801
※相当更新されていないような気がする。

インストールコマンド


とりあえずMeCabとIPA辞書はsource1からダウンロードしなければ始まらない。
バージョンと日付はxxxxにしておく。

まずはMeCabさんをいれませう。

[bash]
$tar zxfv mecab-xxxx.tar.gz
$cd mecab-xxxx
$./configure
$make
$make check
$sudo make install
[/bash]

すぐさま次にIPA辞書を入れませう。これが入らないとそもそも動かないよ。

[bash]
$tar zxfv mecab-ipadic-xxxx-xxxxxxxxx.tar.gz
$cd mecab-ipadic-xxxx-xxxxxxxxx
$./configure –with-charset=utf8
$make
$sudo make install
[/bash]
※必ずconfigureの時に文字コードutf8を指定しましょう。そうしないと文字コードの違いで残念な結果が待っています。
※もし、文字コードを指定しないで行った場合はmake cleanがお役に立てます。configureからやり直しましょう。

上記、特にエラーもなく実行完了したらMeCabさんがあなたのMacにインしましたよ。
さて、実行してみませう。

[bash]
$mecab
こんにちは世界
こんにちは 感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
世界 名詞,一般,*,*,*,*,世界,セカイ,セカイ
EOS
Hello world
Hello 名詞,固有名詞,組織,*,*,*,*
world 名詞,一般,*,*,*,*,*
EOS
[/bash]

こんな感じです。
Helloが組織になるあたりがドジっ子っぷりを発揮しています。

良く使うオプションを書こうと思ったけどEOS形式にしてファイル出力だけなので書かない。
代わりにsource2に良く確認するサイトを記載しとく。

MeCabの現在感じている良い点と悪い点


ちょこちょこMeCabを使っているので分かっている範囲での良い点悪い点を出しておく。
間違っている部分もあるかもなので正しい知識を持っている方は助言頂きたいところ。

良い点

1.硬い日本語文からある程度口語的な日本語文も正しく解析出来る点
※これは品詞同士の繋がりを設定するパターンが大量に記録されており、数値化して優先度をつけているため
 MeCabでは二列に品詞が記載されていてそれぞれのパターンが数値によって制御されているっぽい。

2.辞書になくても名詞としてとりあえず認識しようとする

悪い点

1.辞書に無いカタカナは全て繋げて一つの語彙として認識してしまうようだ
 これの残念さといったらどうしようもない。
 例 スマップチケットを買いたい
 これだと「スマップチケット」がひとつで認識される。

2.固有名詞に弱い
これは上記の項目にもつながる。
はっきり言って辞書が更新されていないからなんだけど。

3.とりあえず認識しようとするので間違う事はやっぱりある。方言を含む。

 例 ダイの大冒険だい
 「だい」が名詞になる。
 例 これはあかんやつや
 「あかん」を認識しない。

最後に

MeCabインストールから色々と言ってきましたが、私の属する業界では良く話に上がる形態素解析エンジンなので、
色々と現状見つかっている事を書いてみました。
なんかMeCabの悪口を言いつつ自分にも言い聞かせている気がする。

ビッグデータとか最近話題になったが、日本語テキストのビッグデータをどう認識するかとか。
「その文章って何言っているの?」を解決する必要は今後も出てくると思う。
パターンマッチや類似度で行けるだろうか。MeCabが使用する辞書に豊富な語彙が登録されていれば良いのだろうか。
まだまだ、考える事はある。

それでは ごきげんよう

source:
1
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

2
MeCabのコマンドライン引数一覧とその実行例 | mwSoft

http://www.mwsoft.jp/programming/munou/mecab_command.html#output-format-type

RSS/feedlyはこちら

follow us in feedly


にほんブログ村読者登録はこちら

あすへん! 〜薙月の明日への変化〜 - にほんブログ村

Twitterアカウントはこちら