2億PV/日を支えるgloopsのビッグデータ分析　に参加してきました。

先日、2億PV/日を支えるgloopsのビッグデータ分析というセミナーに参加してきました。ビッグデータやら統計を始めた者に関しては、非常に興味深い内容でした。ただ、参加者の多くは20代の若手が多く、若干アウェー感がありました。関係ないけど。

分析のステップ

お客様を特徴別に分類
ターゲットを決める
ターゲットの行動を見る
行動から離脱要因について仮説をたてる
仮設を統計的に検証する

1.お客様を特徴別に分類

ゲーム会社なので、ゲームに関するデータの分析です。ゲームプレイヤーには、神と呼ばれるようなヘビープレイヤーもいますし、初心者も居ます。また、ゲームに対する楽しみ方も人それぞれ、感じ方が異なります。これらをまず、特徴別に分類する必要があります。この分類を行うにあたり、BU/FU分析とい手法を用いています。 DAUを過去30日のログイン日数で分類これをさらにLight,Middle,Heavyに分類

ログイン日数が多い＝BU（BaseUser）（L,M,H）
ログイン日数が少ない＝FU（FollowUser）（L,M,H）
新規

合計７つに分類する。ただし、これは時間が経つに連れ、「ユーザの成長度合い」に差が生じてきてログイン日数だけでは分類できなくなっていく。この軸に、キャラクターのステータス（LVなど？）を追加し、

ログイン頻度
ゲームの使用度

において、２軸として表現することにしたそうです。この２軸で大まかな分類を行います。この時、k-means法というクラスター分析手法を用い、ユーザをセグメンテーション化しております。ログイン日数（高、少）、ステータス（高、低）の４通りです。

ターゲットを決める

このユーザ層の中で問題となりそうなログイン日数：少、ステータス：高のユーザをターゲットとしてます。

この時、最近ログイン日数が低いというのは、

元お得意様
新規の猛烈にログインしているお客

のパターンがあります。こちらの分類も行うため、実際にはもう少しパラメータを増やしているそうです。

ターゲットの行動を見る

このターゲットがゲーム内で何をしているのか、ビジュアライゼーションし、解決方法を検討します。まずこのターゲット層の行動ログを採取してきます。この行動ログは Microsoft SQLServerやHadoopにインプットされ、そこである程度前処理を行い、Rを用いて統計解析されております。そのアウトプット（相関係数）を用いて、ゲーム内でどこが問題なのかを分析しています。ゲームでは、バトル、クエスト、ガチャ、合成というフローがあります。このターゲット層の場合、「バトル」で遊んでいるユーザが少なかったそうです。

　┘ さらに「Sankey Diagram」を利用し、ユーザの行動の流れをグラフィカルに表現してました。 Google Analyticsでよく見るグラフです。ビジュアライゼーションを行うことにより、直感的に問題点がわかってきます。今回の場合、バトル周りに問題があるようだと。そう考えられるわけです。

4.行動から離脱要因について仮説をたてる

離脱の原因を考え、仮説をたてます。仮設１．俺TUEEE感がない自分が強くなると対戦相手も強くなる仕様で、いくらがんばっても、「自分が強くなった」という体験を得ることができないのではないか。仮設２．アイテムが不足して離脱課金ありきのバランスになっている。いくらログイン数を増やしても、課金ユーザにはかなわない仕様となっているのではないか。という２つの仮説をたてる。これらを統計学的に検証を行いどちらが正しいのか定量的に分析しておりました。

5.仮設を統計的に検証する

統計モデルとして、「ロジスティック回帰モデル」を用いておりました。離脱する確率を以下の変数①と変数②で説明 log(pi/1-pi) = b0 + b1① + b2② bi = 継続に影響を与えている度合いこれにより、説明変数が目的変数にどれだけ影響を与えているのかが分かるとのことです。これにデータを入れることで、仮設１→影響が大きい仮設２→影響が小さいという結果を得られ、ここからユーザ同士のマッチングロジックを変更したとのことです。

分析は提案までが仕事

データ分析は、きちんと提案まですることが重要とのこと。具体的には以下のDMAICというワークフローを回しているとのことです。 DMAIC 問題提起　→　計測　→　分析　→　改善　→　管理 DFINE　MEASURE　ANALYZE　IMPROVE　CONTROL GMやDEL、東芝、SONYで実施されているカイゼンの手法。大事なところは、改善Iと管理Cとのことです。今回の事例では、 DEFINE：チュートリアル後にすぐに離脱してしまうお客様が多数（ここの導線に問題があるのか） MEASURE：クエストに参加しているお客様は継続している（クエストへ誘導できれば継続率があがる） ANALYZE： IMPROVE:チュートリアルの終了画面にクエストへ誘導するボタンを追加 CONTROL：クエストｈｗ参加するお客様が増え、継続率が向上といった流れでした。この改善前と改善後のユーザ導線をSankey Diagramで表現することで、行動パターンの変化がよくわかる。

QAで出てきた内容

Rは大規模データが無理なのでなるべくHadoopで作って、作ったものを読み込ませる。
データ分析を早く→数時間単位。処理によっては半日かかる処理もある。
Gloopsでは分析しやすいフォーマットになっている。
文化自体が会社に馴染んでないと手間がかかるかもしれない。
データ分析は専属？：各コンテンツに１つ
提案：随時　気づけばすぐに提案をする。
心理学的なアプローチ：考慮している。現在進行形。社会心理学。行動経済学。データの見える部分は限られている。どうしてその人がそのような動きにしたのか。なぜここでお金を使ったのか。こういうのはデータからでてこない。
収益面の責任：数字に対しては別の部門が判断。予測される数値を下回らないか。

まとめ

かなりのボリュームのある内容でした。ビッグデータを分析すると今までできなかったことが実現できる！という謳い文句はよく聞くのですが、実際なにできるんだよ！というのがいまの私の状況です。 gloopsさんではかなり具体的な分析の手法、効果について公演されており、とても有意義でした。また、講演会後の懇親会では、分析方面を担当されている方とのお話もでき、とても良い講演会であったと思います。

Just Do It

やれるうちにやっておく