R による日本語テキスト前処理 (形態素解析を中心に)はじめに誰?著書(共著)今日の話パッケージ名だけでも覚えて帰ってくださいねテキストマイニングの全体像テキストデータの解析(引用)テキストデータ特有の処理パッケージ的には?テキストデータのモデリングR パッケージ的には?僕らがまず目指すところ単語がスペースで区切られてる状態(分かち書き)分かち書きされていれば、たいていのことはできてしまいます。 (ただし日本語は注意が必要)例: Bag of Words例: Bag of Words例: ストップワードの除去例: TF-IDF例: 機械学習モデル形態素解析について(日本語の)形態素解析の要素形態素解析の仕組み(ざっくり)形態素解析の仕組み(図解)コストの求め方と辞書の性能で形態素解析の精度が決まるこのへんをいい感じにやってくれるのが形態素解析器形態素解析器(有名なもの)MeCabJUMAN++Kytea形態素解析 (R 編)使える形態素解析器RMeCab パッケージ使ってみる単純な形態素解析余談どういうことかリストの状態ではアクセス方法が違うunlist()しちゃえば同じunlist()しちゃえば同じ話を戻してできた!!データフレームに適用したいrowwise()をかませますRMeCab は他にもいろいろできるrjumanpp パッケージ作者は私です使ってみる分かち書きの関数、ありますmecab_wakatiと比較JUMAN++独自の機能データフレーム欠点サーバーモードってやるのは面倒くさいですよね?関数を用意しましたちょっと速くなる時間を比較サーバーは解析が終わったら閉じるまとめパッケージの使い分けこのスライドについてEnjoy !!