ブログ解析
概要
2020/1 ~ 2020/6 現在までのブログについて、感情分析と頻出ワード解析をしました。
インプットとなるブログ投稿は、Blogger API を使って取得します。
感情分析は COTOAH API 、頻出ワードは、MeCab + mecab-ipadic-NEologd を使いました。
オープンソース, 無料で使わせてもらえる サービスに 感謝です。
感情分析
COTOAH API からは、感情を”Positive”, “Neutral”, “Negative”に分類した結果と各スコア(信頼度)が返ってきます。以下は Scoreが 0.2 より大きく、 “Positive”, “Negative”を抜粋したものです。
外出自粛で”Negative”要素が強く表れているものもありますが “Positive” な投稿も多かったようです。
———————————————————————-
😄(Positive) score:0.21 「挑戦:育児」(投稿:2020-02-21)
😄(Positive) score:0.22 「テレワークで運動不足が捗ってます」(投稿:2020-04-09)
😄(Positive) score:0.23 「挑戦」(投稿:2020-01-17)
😄(Positive) score:0.26 「テーマ:挑戦」(投稿:2020-01-24)
😄(Positive) score:0.27 「筋肉痛」(投稿:2020-01-14)
😄(Positive) score:0.27 「煮卵がうまい」(投稿:2020-05-13)
😄(Positive) score:0.29 「漫画を買いまくり」(投稿:2020-03-19)
😄(Positive) score:0.32 「結婚式」(投稿:2020-03-03)
😢(Negative) score:0.32 「運動不足」(投稿:2020-04-02)
😢(Negative) score:0.34 「健康診断」(投稿:2020-02-04)
😢(Negative) score:0.37 「趣味について」(投稿:2020-01-15)
😢(Negative) score:0.43 「自粛」(投稿:2020-04-21)
😢(Negative) score:0.49 「いつになるやら・・・」(投稿:2020-05-19)
😢(Negative) score:0.55 「肉離れ」(投稿:2020-03-11)
———————————————————————-
(※”Neutral”とスコアが低いものを除外したので、対象期間の投稿数からみると抜粋は少数となりました。なお、閾値とした0.2 としたのは ‘Positive’ な投稿をある程度結果に含めたかったためであり一般的な根拠はありません。)
頻出ワード
MeCab(辞書は mecab-ipadic-NEologd )で形態素解析した結果を「Word Cloud」で可視化しました。頻出ワードは文字が大きくなります。
2つの言葉に別れましたが「在宅 勤務」が頻出ワードなのは納得です。「布マスク」も1単語として判別できるのか。概ねここ数か月を映す結果になっていると思います。
「筋トレ」は流行ってるのかな??