令牌化

令牌化是自然语言处理中一项基本但是非常重要的步骤,它更令人为所熟知的名字是分句和分词。 在EduNLP中我们将令牌化分为不同的粒度,为避免歧义,我们定义如下:

  • 词/字级别:分词

  • 句级别:分句

  • 资源级别:令牌化

分词

分句

令牌化

我们提供了多种已经封装好的令牌化器供用户便捷调用,下面是一个示例

通过 可以查看更多令牌化器,下面是一个完整的令牌化器列表