MacにMeCabを入れてみたので良い点悪い点合わせてメモ残しとく


今日の人気記事

  1. SMART ICOCAを発行して使ってみたので良い点悪い点をまとめてみた
  2. イモトのWi-Fiとイモトのケータイ イモトさん大人気ですね
  3. 道の駅ましこで購入できるとろたまプリンを食べてみた
  4. 大手携帯キャリア(docomo/au/SoftBank)のデータ容量くりこし仕様について比較してみた
  5. セブン&アイ限定の三ツ矢100%ホワイトグレープを飲んでみた
  6. 円錐形ドリッパーを買ってみたので台形(扇形)ドリッパーとの違いをまとめてみた
  7. マウスからトラックボール(親指型/人差し指型)に変えて感じたメリットとデメリット
  8. SMART ICOCAの退会(払いもどし)をしてみたので注意すべきことをまとめておく
  9. LinuxでGoogleドライブを使えるようにしてみたのでメモ残しておく
  10. LG Watch Urbaneを買ってみたので使用感や注意点をまとめておく
この記事の読了時間: 56

ごきげんよう

今回はMeCabを入れてみました。
仕事柄馴染みのあるものなんですが、今の自宅で使うMacには入れていなかったので入れまする。
前のLinux機には入れていたような。

そもそもMeCabとはなんぞや

記事のタイトルに吸い寄せられる人の多くは知っているだろうけど、念のため簡単に説明しておく。

オープンソースの形態素解析エンジンで入力文を分かち書きや品詞分割という処理を行う事で日本語文を形態素に分割するもの。
形態素とは意味を持つ最小単位である。
MeCabの他にChasenやJUMANなどがあります。商用でも色々と。
他にもありますけど。とりあえず簡単に入れられて有名なのでこちらを。
こいつは、日本語をコンピュータが理解するには大切なエンジンで、文を解析して単語を抜き出すとかその品詞を選定するとか。
テキストマイニングとか文章要約とかもっと高度な処理を行う影の立役者だと思っている。私が勝手に思っているだけだが。

私の環境とインストールしたMeCab

Mac OSX 10.9.5
MaCab:mecab-0.996.
IPA辞書:mecab-ipadic-2.7.0-20070801
※相当更新されていないような気がする。

インストールコマンド


とりあえずMeCabとIPA辞書はsource1からダウンロードしなければ始まらない。
バージョンと日付はxxxxにしておく。

まずはMeCabさんをいれませう。

$tar zxfv mecab-xxxx.tar.gz
$cd mecab-xxxx
$./configure
$make
$make check
$sudo make install

すぐさま次にIPA辞書を入れませう。これが入らないとそもそも動かないよ。

$tar zxfv mecab-ipadic-xxxx-xxxxxxxxx.tar.gz
$cd mecab-ipadic-xxxx-xxxxxxxxx
$./configure --with-charset=utf8
$make
$sudo make install 

※必ずconfigureの時に文字コードutf8を指定しましょう。そうしないと文字コードの違いで残念な結果が待っています。
※もし、文字コードを指定しないで行った場合はmake cleanがお役に立てます。configureからやり直しましょう。

上記、特にエラーもなく実行完了したらMeCabさんがあなたのMacにインしましたよ。
さて、実行してみませう。

$mecab
こんにちは世界
こんにちは	感動詞,*,*,*,*,*,こんにちは,コンニチハ,コンニチワ
世界	名詞,一般,*,*,*,*,世界,セカイ,セカイ
EOS
Hello world 
Hello	名詞,固有名詞,組織,*,*,*,*
world	名詞,一般,*,*,*,*,*
EOS

こんな感じです。
Helloが組織になるあたりがドジっ子っぷりを発揮しています。

良く使うオプションを書こうと思ったけどEOS形式にしてファイル出力だけなので書かない。
代わりにsource2に良く確認するサイトを記載しとく。

MeCabの現在感じている良い点と悪い点


ちょこちょこMeCabを使っているので分かっている範囲での良い点悪い点を出しておく。
間違っている部分もあるかもなので正しい知識を持っている方は助言頂きたいところ。

良い点

1.硬い日本語文からある程度口語的な日本語文も正しく解析出来る点
※これは品詞同士の繋がりを設定するパターンが大量に記録されており、数値化して優先度をつけているため
 MeCabでは二列に品詞が記載されていてそれぞれのパターンが数値によって制御されているっぽい。

2.辞書になくても名詞としてとりあえず認識しようとする

悪い点

1.辞書に無いカタカナは全て繋げて一つの語彙として認識してしまうようだ
 これの残念さといったらどうしようもない。
 例 スマップチケットを買いたい
 これだと「スマップチケット」がひとつで認識される。

2.固有名詞に弱い
これは上記の項目にもつながる。
はっきり言って辞書が更新されていないからなんだけど。

3.とりあえず認識しようとするので間違う事はやっぱりある。方言を含む。

 例 ダイの大冒険だい
 「だい」が名詞になる。
 例 これはあかんやつや
 「あかん」を認識しない。

最後に

MeCabインストールから色々と言ってきましたが、私の属する業界では良く話に上がる形態素解析エンジンなので、
色々と現状見つかっている事を書いてみました。
なんかMeCabの悪口を言いつつ自分にも言い聞かせている気がする。

ビッグデータとか最近話題になったが、日本語テキストのビッグデータをどう認識するかとか。
「その文章って何言っているの?」を解決する必要は今後も出てくると思う。
パターンマッチや類似度で行けるだろうか。MeCabが使用する辞書に豊富な語彙が登録されていれば良いのだろうか。
まだまだ、考える事はある。

それでは ごきげんよう

source:
1
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

2
MeCabのコマンドライン引数一覧とその実行例 | mwSoft

http://www.mwsoft.jp/programming/munou/mecab_command.html#output-format-type

RSS/feedlyはこちら

follow us in feedly


プッシュ通知受信はこちら



Twitterアカウントはこちら



コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

Time limit is exhausted. Please reload CAPTCHA.

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>