膨大なメールを深層学習して運用効率化ツールを作る3

前川敦史

2019年04月24日

インフラやアプリのシステム運用を主の業務としております前川敦史です。

「膨大なメールを深層学習して運用効率化ツールを作る2」の方法紹介の続きとなります。
※ 1つ目の記事「膨大なメールを深層学習して運用効率化ツールを作る1」はこちら

その前に今回も小話を挟みますが、友人との宴会の最中に突然会場が暗くなり、誕生日を祝う曲と共に以下のモノが私の前に置かれました。

周りのお客さんからも「まえかわたかしさんおめでとう」と拍手をいただきました。
ドリカムさんの「HAPPY HAPPY BIRTHDAY」が心地よかったこともあり、名前を訂正するタイミングを逃しました。

さて、前回はプログラムを動かす為の環境構築を行いましたが、今回は膨大なメールから深層学習を行う方法「学習編」を始めたいと思います。

上記が本プログラムの全ての動きを表す図となりますが、今回の記事では図で”学習”と書かれているところを行います（Outlook, MeCab, doc2vec word2vec, pickle と書かれている部分です）。次回で”可視化”の部分を紹介します。

ソースコードの中身について細かく解説したいところですが、今回は私が作成したソースコードをそのまま実行していただき、解説は次回以降で行いたいと思います。

当社のご提供する「機械学習導入支援サービス」資料請求・お問い合わせはこちら

1. Python ソースコード取得

a. ソースファイルダウンロード

こちらのファイルよりソースコードのダウンロードをお願いします。
sbt_outlook_doc2vec.zip

ダウンロードしたファイルを解凍していただき、コマンドプロンプトで解凍後のディレクトリ「sbt_outlook_doc2vec」に移動してください。

b. pip のアップグレード

コマンドプロンプトより以下のコマンドを入力してください。
python -m pip install --upgrade pip
※ Python のパッケージ管理ツールである pip そのものがアップグレードされます。

c. 必要パッケージのインストール

さらにコマンドプロンプトより以下のコマンドを入力してください。
pip install -r requirements.txt
※ requirements.txt に記載された Python のパッケージがインストールされます。

requirements.txt に記載されているパッケージ

pypiwin32
mecab-python-windows
numpy
scipy
gensim
scikit-learn
tensorflow
wordcloud
Flask

2. 学習させる

Outlook からメールを取得して学習させ、学習データを保存するところまでを行います。

a. Python から学習

Outlook を起動させた状態で
ディレクトリ:sbt_outlook_doc2vec から以下のコマンドを叩いてください。
python learning.py

起動中の Outlook の受信トレイから1,000件のメールの取得が始まります。
他のフォルダのメールを取得したいという方は以下を書き加えてください。

learning.py 変更前

def make_sentence_from_outlook():
    outlook_mapi = win32com.client.Dispatch("Outlook.Application").GetNamespace("MAPI")  # Outlook API読み込み
    outlook_folder = outlook_mapi.GetDefaultFolder(6)  # inboxのフォルダを取得

earning.py 変更後

def make_sentence_from_outlook():
    outlook_mapi = win32com.client.Dispatch("Outlook.Application").GetNamespace("MAPI")  # Outlook API読み込み
    outlook_folder = outlook_mapi.GetDefaultFolder(6)  # inboxのフォルダを取得
    outlook_folder = outlook_folder.Folders('既読').Folders('重要') # ここを追加

こちらは初期フォルダ配下の既読というフォルダのさらに下にある重要というフォルダを設定したという例になります。

また、Outlookメール取得の際、お使いの環境によって以下のようにセキュリティの問題で取得時にメッセージが表示される事があります。

1通開く度に"許可"を押す必要がありますので手間となります。

その際は Outlook → オプション→セキュリティセンターから以下の設定をご確認ください。
ウィルス対策ソフトウェアが無効であるか最新でない場合に、不審な動作に関する警告を表示する(推薦) を選択して OKを押しますとこちらの警告は出なくなります。

b. DLL load failed が出ている場合

以下のエラーが出た方は、”Visual Studio 2017 用 Microsoft Visual C++ 再頒布可能パッケージ” のインストールをお試しください。

ImportError: DLL load failed: 指定されたモジュールが見つかりません。

以下ページの x64: vc_redist.x64.exe のリンクよりダウンロード可能です。
https://support.microsoft.com/ja-jp/help/2977003/the-latest-supported-visual-c-downloads

c. 実行中の警告について

「detected Windows; aliasing chunkize to chunkize_serial」という警告が出ますが気にせず実行してください。
※ Windows だとパフォーマンスが遅いので、一部機能を変換しているという意味となります。

d. 学習完了

以下のように「終了」と表示されていれば学習データの生成が完了となります。

作成されるファイル

data フォルダ中身

左右にスクロールしてご覧ください。

model（から始まる全てのファイル）	Doc2Vec が生成したファイルとなります。類似した単語や文章を計算する際に使用します。
subjects.pickle	Outlook の件名リストを格納しています。
model_l2norm_list.pickle	類似判定の結果表示スピードを向上させるため、あらかじめ途中まで計算を行った数値を格納しています。
word_tensor.tsv.gz word_metadata.tsv.gz doc_tensor.tsv.gz doc_metadata.tsv.gz	次回使用する予定の TensorBoard（embedding-projector）用のファイルとなります。学習したデータを資格的に確認することができます。

outlook_cache 中身
Outlook のメール情報が保存されています。
mailid（EntryId）がファイル名になっています。

3. 学習データの動作を確認

a. 単語の類似性を確認

1000件のデータで学習した内容について精度を確認します。
以下のコマンドを入力してください。任意の文字は自分の名前などを入れてください。
python word2vec_test.py "任意の文字"

類似した単語が10件表示されます。
左に単語、右に類似度を表す数値（1に近いほど類似性が高い）が出力されます。