ごきげんよう
今回は、PHPで使える文章要約を作ってリリースしたので情報を残しておく。
あと、今後は現実の名が露出するかもしれない。大丈夫、2つは共存している。
それが二重人格かどうかは本人も定かではない。
さて、始めようか。
1. 文章要約をしたい
文章要約というと議事録を要約をして、重要そうな文だけ抜き出して表示したり、コールセンターの会話からいらない言葉を除去して単語だけ抜き出して要約って言ったり便利な言葉である。
しばらく案として持っていたものが機会があったので作ってみたというもの。
そして、なぜかPHPで文章要約をするというもの。
単純にPHPであんまりやっていないイメージなので表示だけでなく計算処理までPHPで作ってみた。
2. 出来上がったもの
さて、こちらでバージョンv0.1.0をリリースした。
OSSとしてライセンスも決めてある。
MeCab以外はPHPでできていて、ほぼPHPってことで良いと思う。
ちなみに当初Igo-phpも試したけど環境にLaradockを使っていて、インストール方法があったのでMeCabに心惹かれてしまった。
もちろんその筋の人間なのでmecab-ipadic-NEologdを使う。
いくつか環境準備は必要だし、モデルという名の事前データが必要なので面倒かもしれないけど、コマンドラインからもブラウザからも実行して試せる。
アルゴリズム部分は、自分で独自で考えて実装。
ちなみにモデル生成は、テキストの量によってメモリいっぱい使うから気をつけよう。
3.文章要約時にタイトルは必要か
文章要約をしているとニュース記事ならタイトルがあるし、ちょっとした長めの記事もタイトルがある。
タイトルを用いた要約をすべきかどうかは今後どうするか考えている。
入力の数が「本文+出力文の数」の2つから3つに増えるので追加でどう要約するかアルゴリズムも変わるし、その機能を持ったままバージョン上げていって良いのかなとかある。
まあ、タイトルあったら考慮するよって形で作れば良いか。
4. その他のこと
あと、ここまで書いてなんだけど。
設計が先にあって、それを実装するって感じなので、がっつり実装派ではない。
なのでコードきれいにしたりする人がいると助かるなー。スターくれるとモチベーション維持できるなー。
複数人で実装になったら、設計をWikiに書かないとだめか。まあ整理しよう。
5. 最後に
今回は、PHPで使える文章要約を作ってリリースしたので情報を残しておいた。
まあ、まだ始まったばかりだし、徐々に作っていきたい。
それでは ごきげんよう