您的位置:金沙手机版下载 > 金沙手机版下载 > 日本語単語割り切れツール

日本語単語割り切れツール

2019-10-18 04:45

条件:对日开荒语言管理

务求:分析词语,将词语中的斯洛伐克语单词分割,转变格局。

分析:

  任务1:词语拆分

  任务2:调换方式

金沙手机版下载, 

罗马尼亚语的款式调换能够用kanavetor去贯彻 特别轻便直接调用Kana类的convert方法就能够,在Kana的官互连网得以看见用法(固然看不懂介绍,见到管网的表格应该也就一览无余了~)。

根本在于词语的拆分上:

用语拆分使用了Kuromoji,Kuromoji是一款蛮好用的土耳其共和国(Türkiye Cumhuriyeti)语分词工具,况且,分解后的词是足以自行将汉字,平假名等调换来カタカナ的,有邻近要求的能够一向用这些而不用再去搜索别的工具了。Kuromoji笔者找到了多少个版本,一个是kuromoji,0.7.7本子,官方网站络说捐赠给了apache,内置在Lucene的4.0,5.0版本里,由于忘记Lucene的用法,一时半刻不考虑。此外三个本子是kuromoji-ipadic,这么些东东和kuromoji都是一个百货店出的,然而略有差异,稍微研究了瞬间,kuromoji在应用的时候是只好找到jar包,找不到源代码文件的,通过maven下载能够,可是gradle是引进不了的。而kuromoji-ipadic则是gradlle也得以援引,并且引进之后方可见到源码。此外kuromoji毕竟是在此之前的api,还恐怕有一点细微的败笔。

kuromoji官网:

Kuromoji-ipadic官网:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "t" + );

4 }

↑↑↑那些api对克罗地亚语汉字的识别率不比下边包车型客车api(有个别简体德语汉字和特意生分的辨别不出来,毕竟是老版本),并且蒙受不认得的方块字时token调用get方法会获得null。。。不建议接纳。

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是用new爆发发生实例的,所以要是您的工具或体系要求转移一大波词汇,要静心不要做太多的new操作,不然会比相当的慢异常慢相当慢,此时得以定义成静态常量大概单例格局。

迎接我们斟酌和求教。

 

本文由金沙手机版下载发布于金沙手机版下载,转载请注明出处:日本語単語割り切れツール

关键词: