词法分析
基于大数据和用户行为的分词、词性标注、命名实体识别,定位基本语言元素,
消除歧义,支撑自然语言的准确理解
功能分析
珍岛词法分析向用户提供分词、词性标注、命名实体识别三大功能。该服务能够识别出文本串中的基本词汇
(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体,珍岛词法分析的
算法效果大幅领先已公开的主流中文词法分析模型
中文分词是将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列的过程
中文分词
命名实体识别(Named Entity Recognition 简称NER),即"专名识别",是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期等
专有名词
词性标注(Part-of-Speech tagging 或POS tagging)是指为自然语言文本中的每个词汇赋予一个词性的过程
词性标注
应用场景
以分词和词性标注为基础,分析语音命令中的关键名词、动词、数量、时间等,准确理解命令的含义,提高用户体验
语音指令分析
通过专名识别定位多轮对话中的核心实体,自动判断后续对话中对该实体的进一步信息需求
多轮交互式搜索
通过挖掘实体之间、实体与关键词之间的关联,构建实体信息(如人物、机构)数据库
实体数据库构建
技术特色
模型既保证了基本词汇的原子性,又保证了大粒度词汇,对领域新词、专有名词的识别尤其有效
精度更灵活
海量训练样本,百亿级的点击反馈,提高了算法在复杂多变的应用场景下的效果稳定性和适配性
海量数据建模
可根据需求自主干预和定制分词效果,自由定制专名实体类目,打造个性化的分词和专名识别系统