マルチアームバンディットとは？探索と活用の最適化手法を解説

マルチアームバンディットとは

マルチアームバンディット（Multi-Armed Bandit, MAB）は、複数の選択肢（アーム）の中から逐次的に選択を繰り返し、累積報酬を最大化する意思決定フレームワークです。名前の由来は、カジノに並ぶ複数のスロットマシン（片腕の盗賊）のどれを引くかという問題に由来します。

MABの本質は「探索（Exploration）と活用（Exploitation）のトレードオフ」にあります。これまでの最良の選択肢を引き続き選ぶか（活用）、未知の選択肢を試して情報を得るか（探索）の判断を、動的に最適化します。従来のA/Bテストが実験終了後に結論を出すのに対し、MABはリアルタイムに割り当てを調整できる点が大きな違いです。

構成要素

基本フレームワーク

要素	説明	例
アーム（Arm）	選択可能なオプション	Webページのデザインバリエーション
報酬（Reward）	各選択から得られる成果	クリック率、コンバージョン
方策（Policy）	アーム選択のルール	Epsilon-Greedy、UCBなど
リグレット（Regret）	最適戦略との累積差	逸失利益の総額

主要アルゴリズム

Epsilon-Greedy: 確率εでランダム探索、1-εで最善を活用するシンプルな方策です
UCB（Upper Confidence Bound）: 各アームの報酬推定値に不確実性ボーナスを加え、上限信頼値が最大のアームを選びます
Thompson Sampling: 各アームの報酬分布をベイズ的に更新し、事後分布からのサンプルが最大のアームを選択します
Exp3: 敵対的環境にも対応する指数重み付き方策です

実践的な使い方

ステップ1: 問題をMABに定式化する

アーム（選択肢）、報酬（成果指標）、時間軸（試行回数やユーザー数）を定義します。報酬が二値（クリック/非クリック）かどうかで適切なアルゴリズムが変わります。

ステップ2: アルゴリズムを選択する

初心者にはThompson Samplingが推奨されます。ベイズ的に報酬分布を更新するため、事前知識を組み込みやすく、収束も速い傾向があります。シンプルさを重視するならEpsilon-Greedyが適しています。

ステップ3: コンテキストの導入を検討する

ユーザー属性やページ種別に応じてアームの成績が変わる場合は、コンテキスト付きバンディット（Contextual Bandit）への拡張を検討します。LinUCBやNeural Banditが代表的な手法です。

ステップ4: モニタリングと停止判定

累積リグレットの推移をモニタリングし、アーム間の差が統計的に明確になった時点で最良アームに固定します。ベイズ的手法なら事後分布の重なり具合で判断できます。

活用場面

Webサイト最適化: ランディングページやCTAボタンの最適なデザインをリアルタイムに発見します
レコメンデーション: ニュース記事や商品の推薦において、新しいコンテンツの探索と人気コンテンツの活用を両立します
広告配信最適化: 複数の広告クリエイティブの中からCTRが高いものを自動的に配信比率を高めます
臨床試験の適応的設計: 有望な治療群への割り当てを動的に増やし、倫理的にも効率的にも優れた実験設計を実現します
価格最適化: 複数の価格帯を試行し、収益を最大化する価格を逐次的に探索します

注意点

定常性の仮定

多くのMABアルゴリズムは報酬分布が時間的に安定していることを前提とします。季節性やトレンドがある場合は、割引率付きのバンディットや変化点検出の仕組みが必要です。

サンプルサイズの過小評価

MABは従来のA/Bテストより早く収束しますが、十分なデータ量がないと誤った結論に至ります。特にコンバージョン率が低い場面では注意が必要です。

統計的厳密性との違い

MABは累積報酬の最大化が目的であり、p値や信頼区間の厳密な保証は目的としていません。統計的有意性を求める場面では、従来のA/Bテストとの併用を検討します。

遅延報酬の問題

報酬のフィードバックに時間がかかる場合（購入までのリードタイムが長いなど）、アルゴリズムの更新が遅れ、探索の効率が低下します。

まとめ

マルチアームバンディットは、探索と活用のバランスを自動化することで、限られたリソースの中で最大の成果を引き出す手法です。従来のA/Bテストが「まず学び、その後活用する」のに対し、MABは「学びながら活用する」アプローチといえます。ビジネスにおいて機会損失を最小化したい場面で特に威力を発揮しますが、統計的検定との目的の違いを理解した上で適用することが重要です。

マルチアームバンディットとは？探索と活用の最適化手法を解説