【Java】汉字/拼音/简繁转换,文字分割,关键字提取,人名,地名识别等

汉字/拼音/简繁转换,文字分割,关键字提取,人名,地名识别等

pinyin4j

首先下载pinyin4j-2.5.0包,http://pinyin4j.sourceforge.net/ Pinyin4j是一种流行的Java库,支持中国的文字和最流行的拼音系统之间的皈依。拼音输出格式可以定制。 Pinyin4j发表至今,已经下载了55000次,每星期仍couting200+!

参考网友文献:http://www.open-open.com/lib/view/open1392087364364.html

http://wister.iteye.com/blog/334562

http://blog.csdn.net/ssrc0604hx/article/details/41725355

http://blog.csdn.net/foamflower/article/details/6209552

HanLP

拼音声母韵母转换提取.png最近HanLP希望支持拼音与繁体功能,所以学习了几个开源的Java实现,优化后集成进来。

下载地址:hanlp-portable-1.1.5.jar

文档:http://hanlp.linrunsoft.com/doc/_build/html/util.html

开源项目地址:https://github.com/hankcs/HanLP

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能:

  • 中文分词 

    • 最短路分词

    • N-最短路分词

    • CRF分词

    • 索引分词

    • 极速词典分词

    • 用户自定义词典

  • 词性标注

  • 命名实体识别 

    • 中国人名识别

    • 音译人名识别

    • 日本人名识别

    • 地名识别

    • 实体机构名识别

  • 关键词提取 

    • TextRank关键词提取

  • 自动摘要 

    • TextRank自动摘要

  • 短语提取 

    • 基于互信息和左右信息熵的短语提取

  • 拼音转换 

    • 多音字

    • 声母

    • 韵母

    • 声调

  • 简繁转换 

    • 繁体中文分词

    • 简繁分歧词

  • 文本推荐 

    • 语义推荐

    • 拼音推荐

    • 字词推荐

  • 依存句法分析 

    • 基于神经网络的高性能依存句法分析器

    • MaxEnt依存句法分析

    • CRF依存句法分析

  • 语料库工具 

    • 分词语料预处理

    • 词频词性词典制作

    • BiGram统计

    • 词共现统计

    • CoNLL语料预处理

    • CoNLL UA/LA/DA评测工具

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。

参考大牛文献:http://www.hankcs.com/nlp/java-chinese-characters-to-pinyin-and-simplified-conversion-realization.html

https://github.com/hankcs/HanLP


未经允许请勿转载:程序喵 » 【Java】汉字/拼音/简繁转换,文字分割,关键字提取,人名,地名识别等

点  赞 (0) 打  赏
分享到: