NLPerが覚えておくといいかもしれない数値データ集

2021/05/28

自然言語処理

t f B! P L

NLPerが覚えておくといいかもしれない数値データ集

さくっと言えるとNLPに詳しい感を醸し出せるデータ集。
数字を覚えるだけ!費用対効果高!

私はにわかなので、気になるデータについては読者様ご自身にて再確認されたほうが良いかもしれません。

同じ会議に上級識者が出席しており、数値のミスを指摘されたときは微妙な空気になること間違いナシです。そのへんは注意して使いましょう。

日本在住日本人が自然言語処理するときは、ターゲット言語は大半のケースで日本語か英語だと思います。本データ集も日本語が中心。英語の場合は注をつけています。

随時追加予定。

文字の数

ひらがな、カタカナ

99%の日本人はひらがなの数をぱっと答えられません。

50音とかいいつつ、や行(−2)わ行(−3)に抜けがあり、はみ出ている「ん」も足す(+1)と清音だけで46文字です。

濁音は、が行ざ行だ行ば行で20文字。
半濁音は、ぱ行のみで5文字。

カタカナも基本的に一緒ですが、「う」に濁点がついた「ヴ」を入れるか入れないかという問題はある。

常用漢字

2136文字(2010年改定時の数値)
「だいたい2000個くらい」という言い方をすることが多い。

読む速さ

平均的な大人の母語話者
日本語: 600文字/分
英語: 300単語/分(wpm)

文の長さ

文字数と単語数がありますが、単文 or 複文、話し言葉 or 書き言葉、文章のジャンルによってかなり変動します。

形態素辞書

単語数の計測では、形態素解析を行い、分かち書きされた形態素数=単語数としてカウントします。
そのため形態素辞書の影響も受けます。

以下は、各辞書の形態素の長さの目安(主観)です。
Unidic、SudachiDict(A単位)<ipadic、naist-jdic、SudachiDict(B単位)<jumandic<SudachiDict(C単位)、ipadic-NEologd

Unidicは短単位主義
jumandicは活用語尾も形態素に含めるためやや長め
新語を含むipadic-NEologdは長め
何だかんだでipadicとその弟naist-jdicが中くらいの長さ
後発のSudachiDictはそれぞれ3つの単位を使用可能
という感じです。

文字数

例として、livedoor ニュースコーパスでカウントしました。
ちゃんと文ぽいもの(ニュース記事本文の句点で終わっている行)を、さらに句点で分割して集計。

平均50文字

「例えば、ウェブニュース記事だと、平均50文字くらいですが、文のジャンルによってかなり異なるのでちゃんと数えましょう」と言えれば良さそうです。

単語数

データは同じ。形態素解析にSudachiDictのB単位を使用。

平均29単語

てことは、1形態素の長さは平均1.7くらい。
1文字の助詞が頻出だし、句読点も入ってるのでこんなものかと。

有名タスクの精度

論文等で報告されている有名タスクの精度。

よく聞かれる数字のトップ2が
「データは何件ぐらい必要なの?」と
「どのくらい精度がでるの?」。
これもぱっと答えられるとよい。

一般に実務で使うデータは、研究用のデータに比べて精度が出ないので、下記数値を「極めて理想的なケースの上限値」として伝えられるとベストでしょう。

形態素解析

日本語新聞データに対して99%

構文解析

日本語新聞データに対して90%
ただし、形態素解析と構文解析の精度を聞かれることはほぼない笑

テキスト分類

日本語では、livedoor ニュースコーパスがベンチマークになる。
9カテゴリーでデータ数100件台/カテゴリーというお手頃サイズ。
一時期、日本語版BERTのベンチマークにも使われていた印象。

実際、私もそのgitレポジトリのうちの1つを確認しながら書いている。
https://github.com/yoheikikuta/bert-japanese#finetuning-with-bert-japanese

F値にて、BERTレベルのモデルでは0.97以上、sklearnのGradient Boostingでも0.90以上は出ている。
ニュース記事の分類なので元の難易度はかなり低いが、1000件台のデータで、sklearnの付属のモデルでもF値0.9以上は心強い。

ちなみに手元のナイーブベイズでやったら0.8だったけど…。
コーパスのタイトル行をカットして、4行目以降の本文のみで分類したからだろうか(上記レポジトリではデータにタイトル行も含めている)。

キーワード抽出

一般キーワード抽出。TextRank等で行う教師なしキーワード抽出。
主に英語データにて、モデルとデータセットによるがF値で0.1~0.3程度

固有表現認識

ニューラルネットベースの系列ラベリングモデルで行う教師あり固有表現認識。
主に英語データにて、モデルとデータセットによるがF値で0.7~0.9程度

ラベル

QooQ