OOV 问题是NLP中常见的一个问题,其全称是Out-Of-Vocabulary,下面简要的说了一下OOV:
Out-Of-Vocabulary
下面说一下Bert中是怎么解决OOV问题,如果一个单词不在词表中,则按照subword的方式逐个拆分token,如果连逐个token都找不到,则直接分配为[unknown]
[unknown]