ごきげんよう
今回は、PHPで使える文章要約のバージョン1.0.0をリリースしたので情報を残しておく。
1. PHPで使える文章要約とは
既に初回リリースの記事があるのでそちらも一緒に確認を。
今回は、上記記事のあとにバージョン1.0.0まで進んだので情報を残しておきます。
これで一旦の区切り。
2. php-text-summarization v1.0.0ができた
GitHub – TatsuyaUshioda/php-text-summarization at v1.0.0
さて、README.mdを含めて色々変わってます。
せっかくなのでv0.2.0からそれぞれコメントを書いておこう。
長いので飛ばしても良い。変更内容はGitHub上に記載のもの。
v0.2.0
変更内容は下記の通り
1. 数値を含む文章を優先するよう変更
2. 分割のpatternから句点を除去
3. 要約を出力文章の数から要約対象の文に対する割合に変更(20%など)
1は、数値情報が文章上重要かなと思い、優先度を上げた。
2は、文章の分割パターンでは句点だと分割しすぎなので除外。これは対象によって変わるけどニュース記事では分割しすぎだと思う。
3は、要約で出力される文章を数から割合に変更。要約対象の文章が長くても、そのうち20%の文章を抜き出したいってときに使える。
v0.4.0
変更内容は下記の通り。大きめの変更を加えているのでv0.3.0も含まれている。
1. 使用している全ての分かち書き処理を原型使用(存在しない場合は表層使用)に変更
2. 出力文の計算方法変更
3. モデルパスを記載するconfigファイルをリネーム
4. コマンドライン実行用のプログラムを追加
5. 要約処理の判定変更
6. 分かち書き前に正規化処理を追加
7. その他リファクタリング
1は、元々モデル生成・解析両方で表層形を使っていたところを、原型使用(存在しない場合は表層使用)に変更。MeCab本体なのかphp-mecabなのかわからないけど原型を直接取得するものがなかったのでこれ用にPHPで作った。これ単体でv0.3.0で上げたかったぐらい。
2は、確かバグで要約対象の文章の割合を計算していたら0.xみたいな小数点の値が入ってきて0文出力になるという。なんだこれ。
3から7は細かいのでv0.2.0との差分を見たほうが早い。
v1.0.0
変更内容は下記の通り。
1. 要約出力パターンを要約割合または要約文数で選択できるように変更
2. コマンドライン用/ブラウザ用のコードを修正
3. READMEの修正
今回の修正はすべて、v0.2.0で変更した要約出力パターン(要約割合なのか要約文の数なのか)をどちらも指定できるよう変更したもの。
文章要約はv0.4.0でそれっぽい品質になったので周辺のコードを修正。
3. 最後に
今回は、PHPで使える文章要約のバージョン1.0.0をリリースしたので情報を残してみました。
複雑にしようと思えばいくらでも出来るけど、最小の労力で最大の効果を上げるという考えなのでこのぐらいかな。
それでは ごきげんよう