大学院での授業-機械学習とデータ解析 COM00145M

授業雑感

この授業では機械学習を適用したデータ解析やデータベース設計を行なった。

機械学習では主にロジスティック回帰、SVM、決定木分類、ベイズの分類器など割と昔からあるアルゴリズムが中心になる。

これらのアルゴリズムは基本的にPythonのライブラリやJava製のwekaパッケージ経由で簡単に扱えるので、実装というよりはどのようなアルゴリズムなのかを重点的に学習する感じだった。

あとは特徴量の抽出について学んだり、データの変換、バイアスとの向き合い方などを色々手を動かしながらやった。

課題でarff形式の巨大なデータを使って分析する課題があったが、意外とこれが大変だった。
まず、明らかなバイアスがかかっているデータや、あるデータ列で大量の欠損値が含まれているなど、かなり意地の悪い形式で渡されたので大変だったのを記憶している。
この中でも苦労したのが外れ値である。いたずらに外れ値を除去すると統計的な正当性が損なわれるし、かといって含めるとモデルの精度が悪化するので、ここは神経をかなり使った。

機械学習の後は関係性データベースとNoSQLの設計手法が中心で、ここら辺は昔とった杵柄という感じでさくさくと進められた。

機械学習を使ったデータ分析は割と面白かったので、ぼんやりとだが修士論文の題材の中で使用しても良さそうだと感じた。

Back To Top