TF-IDF ってのを使うと単語の重要度がわかるよって聞いたので調べた

   技術的な話題    trashbox /

TF-IDF は文章における、単語の重みづけを行うもの。 処理した文章中のうち、ある単語はどの程度重要なものか、出現度合いから重み付けを計算する。 プログラム、機械からは文章の分析っていってもよくわからないので、そのよく… Read more »

形態素解析した後に結合処理をしてあげると良いかもね

   技術的な話題    trashbox /

こんにちは、ごみばこです。 MeCab や Kuromoji などで行える形態素解析、すごいですよねー。ただ新しい語が増えたり、なんだりーってしたときに、辞書を更新しないとちょっとだけ直感的ではない分割のされ方になります… Read more »

sentencepiece ニューラルネット時代における新しいトークナイザ

   技術的な話題    trashbox /

こんにちは、ごみばこです。 自然言語処理をするとき n-gram や形態素解析などの処理をし、文章から語にすることがよくあると思います。 n-gram はシンプルですが、分け具合、分け方によって情報量がなくなってしまうこ… Read more »