研究テーマ

松島研究室では、大規模データ分析のための機械学習基盤の研究を行っています。

概念図:機械学習の基礎理論「統計的学習理論」と実践的応用「データマイニング・大規模データ解析」の両輪を支える大規模データのためのアルゴリズム

 

現在の社会では、都市のインフラや地球環境に関するデータ、医療・健康関連データ、マーケティングデータ、材料・物性に関するデータなど多種多様なデータが日々生成されています。これらの大規模データを分析・活用することは、新たな社会システムやサービスを生み出す情報基盤技術の発展に不可欠です。
本研究室では、機械学習の基礎理論「統計的学習理論」と、実践的応用の「データマイニング」の両輪を支える、大規模データのためのアルゴリズムの研究開発を行っています。


学習基盤の研究

機械学習の最適化を図るアルゴリズムの研究開発を行っています。

Dual Cached Loops

非同期マルチプロセススキーム Cached Loops の概念図

Dual Cached Loops(DCL)は、2つのスレッドを非同期的に動作させることで機械学習の最適化を図るアルゴリズムです。Writer thread とよばれるスレッドはハードディスクに連続アクセスし、繰り返しデータをRAMへ読み込みます。一方の Training Thread とよばれるスレッドは、高速かつ継続的にパラメータを更新します。これを用いることで、メモリ容量を超えるデータの高速な処理が可能になり、テラバイトスケールの問題を単一のマシンで学習できることを明らかにしました。

同時分解性を用いた分散最適化

Distributed Stochastic Optimization

知識発見の際にも現れる正則化つき経験リスク最小化問題において、単一マシンでは扱うことができないほど大規模なデータを分散環境で扱う場合、確率的最適化法が多く利用されます。確率的最適化法を分散環境で行う場合、パラメータを頻繁に同期させる必要があり、これが計算時間のボトルネックになっています。
Distributed Stochastic Optimization(DSO)では経験リスク最小化問題と同値な鞍点問題を扱うことにより、パラメータの同期を軽減させる手法を確立しました。


データ駆動型機械学習

機械学習が関わるデータ分析は、タスク志向型とデータ駆動型の2つに大別されます。
タスク志向型では、解決すべきタスクに基づいてデータを収集・整形し、分析基盤を通じて予測器を実装します。一方のデータ駆動型分析は、複雑なデータの全体像を把握し、知識を発見・可視化するものです。
当研究室ではデータ駆動型機械学習に着目し、交通データやウェブマーケティングデータを用いたデータマイニングの研究に取り組んでいます。また、非同期的スキームを用いたデータ駆動型の大規模データ分析基盤の構築を目指す研究を行っています。

過去の卒業生の研究

「二変数間の相互作用を考慮した一般化加法モデルとその効率的な学習」
「半順序集合上の対数線形モデルのための座標降下法」

「数理最適化の観点から行うDirect LiNGAMの改善アルゴリズムの提案」

多くの科学の分野では、起きている現象の背後にある因果構造を把握することを目的にして実験や研究がおこなわれることが多いです。因果構造を正確に把握するためには介入を行った際に得られるデータが必要となりますが、そのようなデータが得られることは稀で、通常は観測データのみから因果構造を推定する必要があります。
その推定に関する既存手法のうちのLiNGAMの1つのアプローチであるShimizu et al. (2011)のDirect LiNGAMに対して、数理最適化を活用することで因果推論を行うZheng et al. (2018)によるNO TEARSと同様に、グラフに関する特殊な知識を要しないような目的関数の定式化を行い、その目的関数に対して厳密な最適化を行うことで、従来のDirect LiNGAMの精度を上回ることを示しました。

「半順序集合上の対数線形モデルのための加速座標降下法」
半順序集合上の対数線形モデルは, 対数線形モデルのデータ空間を線形空間から半順序集合に拡張させた離散確率モデルである. このモデルの利点は, 高次元の交互作用項も考慮できること, 様々な有名なモデルを包含することが挙げられる. しかし, 最適化アルゴリズムを単純に適用した場合, 1イタレーションが半順序集合の要素数に比例し莫大な計算量を必要となる. 先行研究では, この問題を回避し, 反復計算量がO(ε^{-1})となるアルゴリズムを提案した。本研究では, この問題を回避しつつO(ε^{-0.5})となる加速座標降下法を提案した.