1.1 なぜ機械学習なのか

  • if〜then〜のエキスパートシステムには限界がある。
    • ロジックがドメイン固有のものになり、タスクが変化したら作り直さないといけない。
    • 人間のエキスパートの思考に対する深い理解が必要。
    • 顔認識とかはちょっと無理。

1.1.1 機械学習で解決可能な問題

世の中には教師のある学習と教師のない学習がある。

  • 教師あり学習
    • 入力と出力のペアを与えてアルゴリズムを学習させる。
    • 未知の入力に対する出力を予測する。
    • データセットを集めることが大変な場合もある。
  • 教師なし学習
    • 出力のないデータセットでアルゴリズムを学習させる。
    • トピック解析やクラスタリング、異常検知など。

サンプルと特徴量。

  • サンプル
    • 個々のエンティティまたは量。
  • 特徴量
    • エンティティの持つ特性を表現する列。

情報量のないデータからは学習できないことを覚えておくこと。

1.1.2 タスクを知り、データを知る

  • よくデータを理解すること
    • そのデータでそもそも問題を解決できるのか?
    • どんな機械学習の問題に置き換えるべきか?
    • データの数は十分か?

アルゴリズムは問題の一部にすぎない。全体を心に留めておくこと。