0. はじめに

前提：大した記事でもないのに分けてしまいましたが、モデリング編の続きです。
主旨：テストデータを使って予測し、モデルの検証までのプロセスを紹介します。数学的な細かいところなどはすっ飛ばします。（Kaggle上で検証することが大前提）
環境：Kaggle Kernel Notebook

4. 予測する

前回の記事で作成したモデルで、テストデータを使って生存したかどうかを予測します。

4.1. テストデータ準備

まずは、テストデータを準備します。
実際のデータ解析時には、元のデータから訓練データとテストデータを分ける必要がありますが、
Kaggleでは分けてくれているので、Competitionページからテストデータ(test.csv)をダウンロードします。

test_csv=pd.read_csv('../input/titanic/test.csv',sep=',')test_csv.head()

念のため、テストデータの概要も確認しておきます。

# 次元の確認
test_csv.shape# 出力結果
(418,11)# 欠損データ数の確認
test_csv.isnull().sum()# 出力結果
PassengerId0Pclass0Name0Sex0Age86SibSp0Parch0Ticket0Fare1Cabin327Embarked0dtype:int64

訓練データではFareの欠損値はありませんでしが、テストデータでは1件だけあるようです。
モデリング時のAgeと同様に、欠損値は平均値で埋めることにします。

テストデータに対しても、訓練データ同様にデータ整形をしていきます。

# 不要な列を取り除く
test=test_csv.drop(['Name','SibSp','Ticket','Cabin'],axis=1)# 女性ダミーを作る
test['Female']=test['Sex'].map(lambdax:0ifx=='male'else1).astype(int)# Parchが0とそれ以上でダミーを作る
test['Parch_d']=test['Parch'].map(lambdax:0ifx==0else1).astype(int)# EmbarkedがSとそれ以外でダミーを作る
test['Embarked_S']=test['Embarked'].map(lambdax:1ifx=='S'else0).astype(int)# Ageの欠損値を埋める
test['Age'].fillna(test['Age'].mean(),inplace=True)# Fareの欠損値を埋める
test['Fare'].fillna(test['Fare'].mean(),inplace=True)

4.2. 予測する

それでは、前回作成したモデルを使って予測していきましょう。

# 予測する
predict=model.predict(test_x)predict[:10]# 出力結果
array([0,0,0,0,1,0,1,0,1,0])

出力はNumpy配列のarrayで返ってくることに注意してください。

5. 評価

5.1. 予測結果データの提出

それでは、作成したモデルがどのくらいいいのかを検証していきたいと思います。
Kaggle上では、予測した結果を提出するとScoreが返ってきて、その値によって評価します。
そのため、提出用のデータを作成します。

submit_csv=pd.concat([test['PassengerId'],pd.Series(predict)],axis=1)submit_csv.columns=['PassengerId','Survived']submit_csv.to_csv('./submition.csv',index=False)

こんな感じのデータを作って、Competitionのページから提出します。
結果は、こんな感じでした。

5.2. 予測結果の評価

Kaggleでは正解データを入手できなかったので、正解データがあった場合の評価としてAccuracyを紹介します。

Accuracyは予測結果がどのくらい実際のデータと合っていたのかを示します。
Accuracy = （正しく予測できたサンプル数）/（全体のサンプル数）
として計算されます。

このうち、正しく予測できたサンプル数とは、1のサンプルは1、0のサンプルは0と予測できたものです。
仮に、先ほどのsubmit_csvに'Survived_test'という実際に生存したかどうかのデータが入っているとします。

pd.crosstab(submit_csv['Survived'],submit_csv['Survived_test'])# 出力結果(想定)
Survived_test01Survived0ab1cd

上記のような出力結果になるはずですので、
Accuracy = a + d / (a + b + c + d)
で求められます。

モデルの評価指標は他にもあって、モデルの用途などによって使い分けていきます。

6. 終わりに

途中でミスってEmbarked_Sを抜きでモデリング・評価していたのですが、そちらの方が結果は良かったです
今回はお試しなので直感的にではありますが、仮説を持ってモデリングしていきました
次回はロジスティック回帰の解説をしたいと思います

Kaggleのハローワールド、タイタニック号の生存者をロジスティック回帰で予測してみるー予測・評価編ー

0. はじめに

4. 予測する

4.1. テストデータ準備

4.2. 予測する

5. 評価

5.1. 予測結果データの提出

5.2. 予測結果の評価

6. 終わりに

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？