PersonalToolProject 2024/01/12 01:42

DOM:Alphaの次回アップデート(Ver2.1.4)の開発進展報告

少し遅くなりましたが、開けましておめでとうございます。

次のアップデートに向けて順調に開発は進んでいますが、チェックリストが多すぎて
この辺で中間報告をさせていただきたいと思います。

次のアップデートのVer2.1.4では次のアップデートが予定されています。
1.各作品のテキストファイルのエンコーディングを自動追跡
2.各作品のテキストファイルをスキャンし、形態素解析機能追加
3.2で分析した形態素をデータベース化及び登録済みの作品のマイグレーション。
4.分析した形態素の中で使用者にとって要らない単語を排除したるするハンドリング機能
5.各サークル、声優さん、タグにサブタグとして形態素の割り当て
6.サブタグの統計ページ開発

この記事を残している現在3番までは開発は終わりました。
ですが4番からの作業がかなり手が込む内容ばかりなので完成までは相当時間がかかると思います。

まず、3番までの機能を簡単に紹介しますと、
1番のエンコーディングを自動追跡機能はあくまで形態素解析機能を完成させるための内部機能的のオプションに過ぎなかったですが、思ったより精密度がまぁまぁよかっやのでUI レベルに引き出しました。
Ver2.1.4からはマニュアルでエンコードを設定する必要がなくなります。

2番は外部の日本語形態素解析ライブラリーを導入しました。精密度が優れていますがその分ブログラムの容量が増えてしまいました。
増えても100mbを超えることはないと思います。

3番は今までの登録済みの作品を全体的にスキャンしてテキストファイルを見つけ出し、それを形態素解析処理とデータベース化するマイグレーション機能です。
処理速度は「50作品/約40分」ぐらいです。
勿論各作品に添付されている台本の数や内容の長さによって大きな差はあります。

作業は終わるとこのようにTokenizeDB.sqlite というファイルが作られここに分析が終わった単語を管理する形となります。

4番からかなり長い作業になると思いますので次のバージョンを期待していらっしゃる方々の為にこの辺で中間報告をさせて頂きました。
是非気長に待って頂ければ幸いです。

いつもありがとうございます!

記事のタグから探す

月別アーカイブ

限定特典から探す

記事を検索