エンジニアリングとお金の話

都内で働くエンジニアの日記です。

【技術】データ分析コンテスト(The 2nd Big Data Analysis Contest)への参加について

【SPONSORED LINK】

以前からデータ分析について勉強したいと思っていたが中々勉強する意欲が湧かず放置していた。そんな中、経済産業省がThe 2nd Big Data Analysis Contestなるものを主催するとの事でデータ分析を勉強する切っ掛けになればと思い参加してみた。

The 2nd Big Data Analysis Contest

コンテストの内容としてはローソンの過去データの内容を基に2016年6月時点での各商品について売上予測を立て、その内容の精度を争うものである。売上データ以外にもSNSへの投稿回数のデータや栄養素データ等も提供されており色々組み合わせて分析を行う事が出来る様になっている。

今回のコンテストに取り組むにあたり機械学習についても取り組んでみたいと思っていた。ちょうどそのころAzure Machine Learningの本を読んでいたこともあり、早速今回のコンテストに活用してみた。

さわってわかる機械学習 Azure Macine Learning 実践ガイド

さわってわかる機械学習 Azure Macine Learning 実践ガイド

試した内容としては提供されているトレーニングデータを用いて教師データを作成し、後は線形回帰を実施した。よく分からないので参考書に記載されている事をそのまま実施した感じである。Azure Machine Learningは本当に良く出来ていて、データを投入した後は提供されているモジュールをGUIにて配置するだけで簡単に機会学習を行う事が出来る。機会学習と言うと難しいイメージから躊躇しがちだがこれなら誰でも使う事が出来ると思う。

ちなみに、Azure Machine Learningにて算出する事が出来たデータをコンテストに投稿してみるとベンチマークを遥かに下回る結果となった。Azure Machine Learning自体は非常に素晴らしいのだが、自分の機会学習に関する知識が無に等しい事もありこれ以上のチューニングも難しいと判断し今回はこの方法での分析は断念した。

他に何か簡単にいい方法が無いかとネットで検索しているとエクセルで統計を用いて売上を予想する方法がヒットした。色々探してみるとこの本が良さげとのことだったので早速amazonで注文し実践してみた。

EXCELビジネス統計分析 [ビジテク] 第2版 2013/2010/2007/2003対応

EXCELビジネス統計分析 [ビジテク] 第2版 2013/2010/2007/2003対応

この本は全く分析経験の無い自分にとってはまさに当たりの本であった。データの可視化から相関分析、回帰分析や検定など自分に不足している知識を多数得る事が出来た。また日頃活用しているエクセルでの分析である為、RやPythonでの分析に比べて敷居が低い事も良かった。

本の内容を基に回帰分析にて売上数量の予測を立てる事にした。回帰分析は目的変数と説明変数の2つの変数を準備する事が必要との事だったので説明変数を何にするか検討した。その結果気温と売上数量との相関が0.7程度あった為、各月の気温データを説明変数として回帰分析を実施する事とした。

エクセルでの回帰分析はアドオンで提供されている機能での分析と関数で提供されている機能での分析の2種類にて可能である。今回は大量の商品について回帰分析を行う必要があった為、VBAにて関数を使用して求める事とした。回帰分析を行う上で必要な知識であるT検定やP値、決定係数などについても今回学ぶ事が出来た。検定についてはいまいち理解が進まない部分があったが、今後知識を深めていく様にしたい。

エクセルの分析にて算出した結果については、ベンチマークを上回る結果を出す事が出来た。ただ、どう頑張っても現在の知識だけでは上を目指すのは難しく、精度の向上については次への課題へとする事にした。

今回のコンテスト参加により、ただ参考書を読むだけより非常に濃い知識を得る事が出来た。今後も色々なコンテストに参加してスキルを身に付けていきたい。