Dataikuで日本酒アプリ『さけのわ』データ分析:データ加工編
  • タグ画像

    Dataiku

2023-07-20

目次

はじめに

こんにちは、株式会社 Village AI 取締役 松本 祐輝です。
本シリーズでは、日本酒アプリ「さけのわ」のデータをDataikuで分析してみたいと思います。
今回は、データを取得して加工するところまでやります。

さけのわデータとは

日本酒アプリ「さけのわ」が保有するフレーバーを数値化したデータや人気銘柄情報を公開するプロジェクトです。
利用規約の範囲内で誰でも無料で利用することができ、ECサイトでデータを表示したり、アプリやサービスを作ったり、データ解析を行ったりすることができます。

Dataikuとは

Dataikuは、データサイエンスと機械学習のためのエンドツーエンドプラットフォームです。
データの準備からモデルの展開までをサポートし、効率的なチームコラボレーションが実現できます。

ビジネスユーザーやデータサイエンティストは、異種のデータソースからのデータ統合やモデル構築を簡素化できます。
豊富なデータ可視化機能やセキュリティ対策も特長です。

さけのわデータ分析:データ加工編

データの取得
さけのわではユーザーの感想コメントを解析してフレーバーを数値化しており、このデータに加えてランキング情報を含む以下のデータが公開されています。

・銘柄ごとのフレーバーを華やか、芳醇、重厚、穏やか、軽快、ドライの6つの観点で数値化したもの
・銘柄ごとのフレーバーの詳細をタグ化したもの (フレーバータグ)
・さけのわでの人気銘柄ランキング
・その他、銘柄の基本情報
DataikuのAPI Connectプラグインを使って読み込みます。

データの加工

銘柄に対してフレーバーの数値があるので、分析して、今後の日本酒を注文する際の参考にしようと思います。
具体的には、フレーバーの数値をもとにクラスタリングを行い、各クラスタの特徴を確認します。

データの結合

まず、バラバラになっているデータを結合します。

flavor-chartsで繋がってるPrepareレシピは、カラム名がf1〜f6となっていたのを、華やか、芳醇、重厚、穏やか、軽快、ドライに変更する処理、結合後のPrepareレシピは不要なカラムの削除を行っています。

ランキングトップ10は、こんな感じでした。

おわりに

今回は、DataikuのAPI Connectを使って、日本酒アプリ「さけのわ」のAPIからデータを読み込み、結合するところまで実行しました。

次回は、データの可視化とクラスタリングをやってみたいと思います!