基于PySpark的大规模短语挖掘

使用数据驱动方法检测大量文本中的常用短语。 发现的短语的大小可以是任意的。 可以用于英语以外的语言

相关的项目 - 更多比较

469 10k 3.6k

G Gensim是一个Python库,用于主题建模,文档索引和大型语料库的相似性检索。 目标受众是自然语言处理(NLP)和信息检索(IR)社区。
 
10.0 3.0
  8天前
566 9.3k 1.7k

Z 专门针对自然语言处理(NLP)的精选资源列表
 
10.0 0.8
  5天前