学習記録（１５日目）

勉強開始：１２／７（土）〜

教材等：
・大重美幸『詳細！ Python3 入門ノート』(ソーテック社、２０１７年)：１２／１９（木）読了
・Progate Python講座（全５コース）：１２／２１（土）終了
・Andreas C. Müller、Sarah Guido『（邦題）Pythonではじめる機械学習』（オライリージャパン、２０１７年）：１２月２３日（土）読了

Kaggle初参加

参加コンペ：Real or Not? NLP with Disaster Tweets　１２／２４（火）〜

ツイートのうち、災害に関する情報を示したものとそうでないものを仕分けするという問題です。
分野としては自然言語処理に当たります。

開催期間は来年の３月までですが、遅くとも本日から約２週間後の１月１０日（金）までを目安として一度submitしたいと考えています。

今お世話になっている某大学の研究室の方々と幸運にもチームを組むことができたため、非常に心強い状況ではありますが、頼りきりにならないようしっかりとアウトプットしていきます。

データ前処理

・head(), shape, describe() でデータの概要を把握
・訓練データの欠損値及びその数を把握
・drop('データラベル名', axis=1) で不必要（と思われる）箇所をカット
・df["データラベル名"] で該当するテキスト部分を抽出し、tolist() でリスト化

データ抽出・コーパス作成

・ストップワードを定義し(and や or)、split() で分割
・lower() で全て小文字に、さらに for構文でsplitを使用し単語に分割
・pprint()で出力（pprintだと要素毎に改行が入り見やすくなる。）
・単語の出現回数をカウントし、指定回数以下のものを除外
・完成した単語列を gensimのcorpora.dictionary()を用いて辞書化（コーパス完成）
・LDAモデルに変換

ここまででベクトル化には成功したものの、ただ変換しただけなので次元数が数千に至っており、かつ、災害に関する情報かそうでないかを示すtargetと抜き出した情報が結びついていないことに気が付きました。

今の所、結びつける方法について検討も付きませんが、また明日引き続き挑戦します。

学習記録その１１（１５日目） Kaggle参加

学習記録（１５日目）

Kaggle初参加

データ前処理

データ抽出・コーパス作成

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？