研究テーマ

松島研究室では、大規模データ分析のための機械学習基盤の研究を行っています。

概念図:機械学習の基礎理論「統計的学習理論」と実践的応用「データマイニング・大規模データ解析」の両輪を支える大規模データのためのアルゴリズム

 

現在の社会では、都市のインフラや地球環境に関するデータ、医療・健康関連データ、マーケティングデータ、材料・物性に関するデータなど多種多様なデータが日々生成されています。これらの大規模データを分析・活用することは、新たな社会システムやサービスを生み出す情報基盤技術の発展に不可欠です。
本研究室では、機械学習の基礎理論「統計的学習理論」と、実践的応用の「データマイニング」の両輪を支える、大規模データのためのアルゴリズムの研究開発を行っています。


学習基盤の研究

機械学習の最適化を図るアルゴリズムの研究開発を行っています。

Dual Cached Loops

非同期マルチプロセススキーム Cached Loops の概念図

Dual Cached Loops(DCL)は、2つのスレッドを非同期的に動作させることで機械学習の最適化を図るアルゴリズムです。Writer thread とよばれるスレッドはハードディスクに連続アクセスし、繰り返しデータをRAMへ読み込みます。一方の Training Thread とよばれるスレッドは、高速かつ継続的にパラメータを更新します。これを用いることで、メモリ容量を超えるデータの高速な処理が可能になり、テラバイトスケールの問題を単一のマシンで学習できることを明らかにしました。

同時分解性を用いた分散最適化

Distributed Stochastic Optimization

知識発見の際にも現れる正則化つき経験リスク最小化問題において、単一マシンでは扱うことができないほど大規模なデータを分散環境で扱う場合、確率的最適化法が多く利用されます。確率的最適化法を分散環境で行う場合、パラメータを頻繁に同期させる必要があり、これが計算時間のボトルネックになっています。
Distributed Stochastic Optimization(DSO)では経験リスク最小化問題と同値な鞍点問題を扱うことにより、パラメータの同期を軽減させる手法を確立しました。


データ駆動型機械学習

機械学習が関わるデータ分析は、タスク志向型とデータ駆動型の2つに大別されます。
タスク志向型では、解決すべきタスクに基づいてデータを収集・整形し、分析基盤を通じて予測器を実装します。一方のデータ駆動型分析は、複雑なデータの全体像を把握し、知識を発見・可視化するものです。
当研究室ではデータ駆動型機械学習に着目し、交通データやウェブマーケティングデータを用いたデータマイニングの研究に取り組んでいます。また、非同期的スキームを用いたデータ駆動型の大規模データ分析基盤の構築を目指す研究を行っています。