データ分析チーム
(hackathon_analysing_data)
役割:
既存または新規の店舗データの整理、加工、分析を行うチームを想定
機能:
・データの整理、加工、分析
・時系列モデルを使用した予測
2026年4月3日
By データ & AI 事業部 石部紗羽、横田幸士、谷川美優、山本杏奈、山本絢子
2026年1月に参加したDataiku主催の「 AI エージェント ハッカソン」において、弊社チームは 2位入賞という大変光栄な結果をいただきました。本記事では、ハッカソンの参加を通じて得られた知見や、実際に構築した AI エージェントの技術的ポイントを中心に解説していきます。
Dataiku(データイク)は、データの準備から機械学習モデルの構築、運用(MLOps)、そして生成AIの活用までを統合管理できるプラットフォームです。データサイエンティスト、データエンジニアといった専門家だけでなく、ビジネスアナリストなどの非専門家も同じ環境で協業できるのが最大の特徴です。
主な特徴とメリット
今回のハッカソンで注目されるのは、Dataikuの最新バージョンで強化されたAgent Hubです。Agent Hubは、AIエージェント(特定のタスクを実行するAI)の「作成・共有・管理」を一元化する共同作業スペースです。これまでの「チャットボットを作って終わり」という段階を超え、組織全体でAIエージェントを資産として活用するための基盤となります。「データ分析の結果を、現場のユーザーがチャット形式で手軽に引き出せるようにする」インターフェースとしてAgent Hubは非常に強力です。
Agent Hubでできること
今回のハッカソンでは、私たちは「飲食系フランチャイズ企業における店舗一元管理と新規店舗開拓」をテーマとして取り組みました。多拠点を抱える企業では、店舗データの分散や意思決定の属人化が大きな課題となります。そこで私たちは、Dataiku の持つ柔軟なデータ活用基盤を生かし、店舗運営と拡大戦略を同時に支援する「実用的なAIエージェント」の構築を目指しました。
ソリューション設計にあたっては、Dataiku の 6S フレームワーク(Search / Stitch / Science / Synthesize / Show / Share) を軸に据えることで、データの再利用性・説明可能性・拡張性を兼ね備えたアーキテクチャを実現しています。このソリューションをどのように設計し、どのような技術的アプローチで形にしていったかを詳しく解説していきます。
ユースケースをフランチャイズ企業の飲食店店舗一元管理と新規開拓として以下の3つの機能を実装しました。
飲食店のフランチャイズ企業に属する3つの部署を仮定し、各部署に専用ワークスペースを用意し、アクセス可能なWebappやダッシュボードを管理しています。
これにより、他部署のエージェントや分析を再利用可能とし、工数削減に貢献することができます。
ここからは各部署のワークスペースの機能を、技術的側面からそれぞれ解説していきます。
店舗情報の統計結果やデータ分析の結果の可視化、さらには分析結果を社内他部署に提供することを想定しています。
実際のデータには様々な関係が存在します。収集したデータについて、これらの関係が適切に構築されているか、また大きな外れ値が存在していないかを確認する際、Dataikuを使用すると簡単に見分けることができます。
以下は今回のハッカソンで私たちが作成したデータにおいて、設定どおりに関係性が反映されているかを確認した際の結果です。今回は世田谷区・千代田区・江東区・渋谷区・練馬区の5つの区に均等に店舗が分配されるように設定しました。
Dataikuでデータの分布を確認することができます。また、20%ずつきれいに5等分されていることがわかります。
このように、Dataikuを用いてデータ分析を行うことで、使用するデータについて詳しく知ることができます。
今回はこの手法を用いて、以下の変数の分布を確認しました。
これらの変数が適切に分布しているか確認することで、データの信頼度を判断し、予測モデルに使用すべきかの判断基準としました。
Dataikuではデータ予測に多種多様なアルゴリズムを使用することができます。複数のアルゴリズムを用いて同じデータを分析し、その予測結果から使用するアルゴリズムを選択することができます。
今回、私たちが予測モデルを作成する際に比較した主なアルゴリズムは以下の4つです。
以下の表はこれらの4つのアルゴリズムについて、性能や特性を観点別に比較したものです。
各アルゴリズムの右側に表示されている数値はMAPEの値です。アルゴリズムの精度を見る指標として、MAPE(Mean Absolute Percentage Error:平均絶対パーセント誤差)があり、値が低いほど予測精度が高いことを意味します。この評価指標は設定により変更することが可能です。
今回のハッカソンでは「短時間で予測可能」「学習コストが低い」という条件を重視したため、精度と実行速度のバランスが良かったNPTSを採用しました。
このようにDataikuでは、目的や要件に合わせてさまざまなアルゴリズムを柔軟に使い分けることができます。複数のアルゴリズムを一つのデータセットに適用し、その結果を比較して最適なモデルを選択することが可能です。
※データ数や選択したアルゴリズムによっては、処理時間やCPU使用率に影響が出る可能性があります。
今回のDataikuハッカソンに際して、Dataikuの機能を活用しデータ分析するためダミーデータを作成しました。
今回作成したダミーデータは、ファーストフードチェーン店を想定したもので、以下の5種類です。
※ここでいう「ダミーデータ」とは、実際に取得されたデータではなく人工的に作られたデータのことです。
※店舗情報は店舗そのもののステータスデータ、店舗情報詳細は日次データとして分割しました。
ダミーデータを作成するうえで最も重要なのは、「データ間の相関が現実的であること」です。例えば、オフィス街では独立店舗よりビルイン店舗が多かったり、フードコートはファミリー層が中心だったりと、実際のデータには明確な傾向があります。相関の設定が現実とかけ離れていると、予測モデルの結果も本番データとは異なってしまう可能性があります。
そのため今回はAIを使用してPythonを組み、データ同士が因果関係を持つダミーデータを作成しました。
各店舗の管理にあたり、売上・費用管理改善を対話ベースで行うことを想定しています。
中心となるのはAgent Hubで、複数のAIエージェントを統合し、店舗IDをキーに一貫した対話を実現しました。
※AIエージェントの作成方法はこちらを参考にしました。【Dataiku】エージェントの基本的な作り方
店舗管理チームが使用するAgentを束ねるメインのAgent Hubになります。今回は以下のような設定で使用しています。
① starter_agent |
|
| ② profitability_calculator |
|
| ③ comparing_branch |
|
| ④ utility_calculator |
|
| ⑤ manage_target_amount |
|
| ⑥ saving_idea |
|
①1_starter_agent
すべてのエージェントに接続しているエージェントで、初めての方に対してこのAgent Hubが持つ機能の説明を行います。
④3_utility_calculator
1か月の光熱費を計算してくれるエージェントです。
⑤3_manage_target_amount
店舗ごとの目標光熱費金額を設定できるエージェント
(2) 格納時刻、店舗IDとともにデータセットに格納。
光熱費目標データのDataset Append結果
(3) Dataset Lookupは最上のデータから取得するため、Sortレシピで格納時刻を昇順に並び替え。
Scenarioによる格納時刻順ソート処理
(SortレシピはScenarioにてDataset Appendのデータセット更新をトリガーにして実行している)
ScenarioによるSortレシピ自動実行設定
(4) dataset Lookupでデータを取得し、エージェントが過去の会話を記憶しているかのように振る舞うことができる。また、設定した目標をもとに実際の光熱費の評価を行うことができる。
目標値を考慮した光熱費評価結果の表示例
⑥4_saving_idea
節約方法提案エージェント
※ Google Search Toolの設定方法
(1) Google Searchプラグインツールをインストール。
(2) cx idとAPI Keyを取得し入力する。
※取得方法はこちらを参照:Google Custom Search API を使ってGoogle検索を自動化
新規出店予定地についての情報をもとに、既存店舗との比較を基にした分析、予測を行うことを想定しています。
分析、予測にあたっては既存店舗のクラスタリングモデルに新規出店予定地の情報を入力として与え、ラベリングした結果をもとに、特徴の似た店舗の情報を活用しています。
ここではDataikuのAgentから「Model Prediction」ツールでサポートされていない機械学習モデルをAgent ToolとしてAgentから呼び出して予測を行うための手順を示します。(本来であればDataiku上のAPI Nodeを利用するべきですが、諸事情により使用できなかったため、遠回りしています。)
設定の全体像
AWS側:
デプロイに関わるサービスに関する必要なポリシーをDataikuとのSTS Assume Roleにアタッチします。
Dataiku DSS から Amazon SageMaker にモデルをデプロイする際には、
に関連するIAMポリシーの設定が必要になります。
Dataiku側:
クラスタモデルを作成したモデルでの分析結果をもとにクラスタリングによるラベル付けが完了しているデータセットに対してDataset Lookupツールを使用できるような形でエージェントを作成すると、以下のように使用できることが分かります。
クラスタリング結果を用いた新規出店分析の実行例