モデルの再訓練に関する推奨事項 | モデルのデプロイ

再訓練について

機械学習や統計ツールは未来のパフォーマンスを保証するものではありませんが、簡単なガイドラインに従うことでパフォーマンスの結果を改善し、新たなモデルを作成する試みから生じる可能性のある混乱を減らすことができます。以下のセクションでは、訓練済みモデルとデプロイ済みモデルの再訓練に関する一般的なガイドラインとベストプラクティスを提供します。

モデルの再訓練方法については、モデルの再訓練を参照してください。

必要な訓練回数の推定

モデルが必要とする訓練の回数を推定することは、科学よりも機械学習の芸術の一部です。モデルの微調整には複数回の訓練（通常は1から3回）と、除外する属性の調整が必要です。モデルが劣化し始めると、再訓練は最初はより良い結果をもたらしますが、時間が経つにつれて再びゆっくりと劣化し始めます。通常、モデルの訓練バージョンごとに、訓練の日付範囲が長くなると劣化するまでの時間が長くなります。

劣化したモデルの特定

モデルの劣化に寄与する主な要素は2つあります：最後の訓練からの経過時間と、モデルが受け取る新しいデータの量です。訓練中のモデルはスナップショットであり、デプロイされたモデルはライブです。デプロイされたモデルのスコアが訓練されたモデルのスコアよりも低い場合、これはモデルが劣化して再訓練が必要であることを示しています。

スコアが高い新たに訓練されたバージョンのデプロイ

現在デプロイされているモデルのパフォーマンススコアが低く、それを再訓練してスコアが高い新しいバージョンを作成した場合、再訓練されたバージョンをデプロイして、モデルの最良のバージョンがデプロイされるようにします。

スコアを高めるために、同様の2つ目のモデルを作成することは推奨されません。2つ目のモデルは追加の利益をもたらす可能性が低く、実装に混乱をもたらす可能性があります。

再訓練されたバージョンのスコアが低い場合

デプロイされたモデルのスコアが下がると、モデルが劣化し始めてパフォーマンスを改善するために再訓練が必要であることが明らかになります。しかし、劣化し始めたモデルが再訓練されると、新たに訓練されたモデルのスコアがデプロイされたモデルのスコアよりも低くなることがあります。

このシナリオでは、新たに訓練されたモデルは現在のモデルの代わりにデプロイされるべきではありません。調整と再訓練を続け、再訓練されたモデルのスコアが初期の劣化したモデルのスコアよりも高くなるまで続けます。スコアが高くなったときにのみ、新しいモデルをデプロイすべきです。

F1スコアが低く、急速に劣化する場合

モデルが訓練された後にF1スコアが低く、急速に劣化する場合、以下の問題の一つまたは両方が存在する可能性があります：

データの不一致
訪問の行動が変化しているか、モデルの訓練に使用された時間枠内で現在と比較して不一致です。
データの不完全性
訪問の行動のより完全なビューには、追加の訪問属性が必要かもしれません。

再訓練の頻度

モデルの再訓練の必要性は、Tealium Predict製品に特有のものではなく、機械学習全般に関連しています。再訓練の頻度はあなたのデータに依存し、ビジネス間で大きく異なります。一般的に、訓練の日付範囲が長いほど、モデルはよりゆっくりと劣化します。再訓練は通常、モデルの品質があなたの組織が許容する予定のスコア以下に劣化したときに必要となります。

再訓練と削除

モデルを削除する前に再訓練を検討してください。モデルを削除すると、訓練の履歴が失われます。再訓練すると、各訓練は時間枠、除外される属性、時間経過とともに追加されるデータの点で異なる構成を持つことができます。その後、バージョン（個々の訓練）間の違いを確認し、どのバージョンをデプロイするかを決定できます。

モデル訓練への外部からの影響

世界、ビジネス、訪問の行動が急速に変化すると、通常は数ヶ月かかるモデルが予想以上に急速に劣化することがあります。以下の外部の問題がモデルの訓練と結果に影響を及ぼす可能性があります。

グローバルな問題

市場に影響を及ぼすグローバルな問題、例えば2020年のCOVID-19パンデミックは、ある程度モデルに影響を及ぼします。これらの種類の問題は訪問の行動の明確なイメージを得ることを難しくすることがありますが、新しいバージョンを再訓練し、それを手間のかかるエンジニアリングやデータスタッフのリソースを使って何度も再チューニングすることなくシームレスにデプロイすることは容易です。

マーケティングキャンペーン

モデルは時々、他の活動、例えば広告キャンペーン、大きな祝日、季節外れの暑さ、大規模な暴動、政治的な動揺と同時に訓練されます。

活動が停止したり、もはや適用されなくなったりすると、現在のモデルは訓練中に機能したほどうまく機能しないかもしれません。モデルの再訓練に加えて、これらのイベントを表す属性をモデルに含めることができます。

データ分布の考慮事項

モデルが正確に予測するためには、予測の基礎となるデータは、モデルが訓練されたデータと同様の分布を持つ必要があります。データ分布が時間とともに変化すると、モデルのデプロイは一度きりのタスクではなく、継続的なプロセスとなります。入力データを継続的に監視し、データ分布が元の訓練データ分布から逸脱したことを知ったときに新しいデータでモデルを再訓練することがベストプラクティスです。データ分布の変化を検出するためのデータ監視が高いオーバーヘッドを持つ場合、単にモデルを定期的に再訓練することができます。例えば、毎日、毎週、または毎月です。