看淘网-高情商聊天恋爱宝典!| 下载蜜小助-恋爱聊天话术

当前位置: 首页> 文章

在一起感动的话

发布时间:2019-07-30 17:11:59 作者:xhs 阅读:915
在一起感动的话:('在前一篇文章中,作者建议将单词和字符分开,并使用不同的分词器建立索引,以解决汉语中的匹配短语或句子匹配问题。有关详细信息,请参阅上一篇文章:\n超链接ES中文分词器的下一个短语匹配(解决了不完全匹配短语匹配的问题):什么时候编写自己的分词器?\楼主要一种分词器,分词器完全按照字典分词,只要是字典里的一些词,分词器就必须分开。测试了两个词分隔符,即ik和mmseg,它们无法根据建筑物所有者的要求进行分词。\nmmseg考虑了词的频率。即使使用mmseg_max_word,也无法根据字典精确分段。\nik理论上根据字典进行分词,但测试发现了一些问题。例如,“一群穆斯林聚集在一起”,单词“穆斯林”可以单独用这句话隔开,但单词“穆斯林”不能用这句话隔开在一篇文章中。\nik和standard用来比较命中率发现不一致,导出不一致的数据,只发现是问题(ik和mmseg都修改了源代码,过滤掉了中文之间的特殊符号,所以中间没有单词的特殊符号标准可以分离,ik不能由不一致造成)。\ni忍不住。自己写一个。\n自定义分词器\n因为ES使用了果汁依赖项注入,所以我们实现了工厂类和提供程序类。\nPublic Class Testanalyzer Provider扩展了AbstractIndexAnalyzerProvider\n\nPublic Testanalyzer Provider(IndexSettings IndexSettings,Environmentment,string name,settings settings)\nsuper(indexsettings,name,settings);\n \n\npublic static analyzerprovider<?扩展analyzer>getmaxword(indexsettings,environment,string s,settings settings)\n返回新的tesanalyzer provider(indexsettings,environment,s,settings);\n \n\nverride public infosecanalyzer get()\n返回新的infosecanalyzer();\n \n\n公共类testTokenizerFactory扩展abstracttokenizerfactory \n \npublic testkenizerfactory(indexsettings indexsettings,environment,string name,settings)\nsuper(indexsettings,name,settings);\n \n \npublic static tokenizerfactory getmaxword(indexsettings indexsettings,environment environment,string name,settings settings设置)s)\n返回新的testTokenizerFactory(indexsettings、环境、名称、设置)。\n \n \n@override \n public tokenizer the create()\n返回新的testTokenizor();\n \n \n \n下一步编写您自己的插件配置类:\n public class analysiststestplugin扩展插件实现analysisplugin \n \npublic static string plugin_name=“analysis test;\n \n@override \npublic map>gettokenizers()\nmap>extra=new hashmap<>();\n \nextra.Put(“test_max_word testtokenizerfactory::getmaxword);\n\nreturn extra;\n \n\n@override\npublic map>getanalyzer()\nmap>>extra=new hashmap<>();\n\nextra。put(“test_max_word tesanalyzer provider::getmaxword);\n \nreturn extra;\n \n \n \n因为我们只需要使用字典分词,所以这里只有一个最大分词模式,test_max_word。下一个是analyzer和tokenizer。\n公共类tesanalyzer扩展analyzer \n \n公共测试analyzer()\n子类();\n \n@override \n受保护的tokenstreamcomponents createComponents(stri)、5bf0d58d2d3559f、'jfevqk9zwuun5tidt9wt7x2xkgx2z2uv',1,'ng fieldname)\ntokenizer \u testtokenizer=new testtokenizor();\n返回新的tokenstreamcomponents(_testtokenizer);\n \n \n \n公共类testtokenizor扩展tokenizer \n//词汇文本属性\n private final chartermattribute termatt;\n//词汇移位属性\n private final offsetattribute offsetatt;\nyuan//词汇类别属性Y(属性分类参考组织。WLTEA。分析仪。核心。lexeme常量的分类\n private final typeattribute typeatt;\n//记录最后一个单词的结束位置\n private int end position;\n \n private testspegmenter test=null;\n \n公共信息部门标识符()\n子标识符();\noffsetatt=addattribute(offsetattribute)。class);\ntermat=addattribute(charterAttribute)。class);\ntypeatt=addattribute(类型属性)。class);\n \n test=new testsSegmenter(input);\n \n \n@override \npublic boolean incrementtoken()throws IOException \nclearAttributes();\n word word=test。getnext();\nif(字!=空)\ntematt。CopyBuffer(字GetSen(),字。GetWordOffset(),字。getlength());\noffsetatt。setoffset(字GetStartOffset(),字。GetEndOffset());\n类型。设置类型(字。getType());\n返回true;\n else \n结尾();\n返回false;\n \n \n\n第n行IOException public void reset()引发IOException \n子。reset();\nsetreader自动调用,并自动设置输入。\n测试。重置(input);\n \n \n \n自定义分词器的主要操作是incrementtoken方法,每次从testssegmenter中取出一个词。如果单词存在,则设置单词change的token属性并返回true,也就是说,还有另一个token。如果单词不存在,则返回false以指示没有剩余数据。\n自定义分词的详细信息\n因为代码太多,而不是此处的文章,只需介绍算法的概念。\n匹配类型\n1)不匹配\n2)前缀\n3)匹配\n4)匹配和前缀\n\n算法首先,将数据分类并组合成句子,然后由句子处理器将其分成多个单词,存储在队列中,然后通过increatetoken()方法依次取出。\n依次对句子进行汇编,并将类似的数据组合成句子。例如,“你好,哈233节快乐!233dad“,如果第一个字符是中文,它将继续向下扫描直到“2”,如果“2”不是中文,由“hello ha”组成的句子将被移交给句子处理器进行处理,处理结果将被放入队列。继续扫描,遍历到“section”,发现“section”不是数组,所以将“233”放入一个单词并放入队列。为了与标准比较,我过滤了代码中的所有中文符号,忽略了“,”,继续扫描,并在句子中连续存储了“快”和“乐”。稍后可以进行类似的处理。\n内容分段\n依次扫描句子,如果相邻的数据可以组合成一个单词,则将其放入队列,然后转到下一个。”节日快乐”,例如,当单词第一次扫描“节”时,在字典中查询“节”,发现“节”是一个前缀,继续扫描“日”,发现“节”是一个单词匹配,并且是一个前缀,将“节”放在队列中,继续扫描“节”,发现“节”是一个p重新安装,继续扫描“节日快乐”,发现“节日快乐”只是一个词匹配,将“节日快乐”排在队列中,从“一天”结束开始扫描。按照上述方法从“day”开始扫描。依次完成每个句子。\n字典\n使用树结构,如“节日快乐”、“节日快乐”和“好运”。\n\n\n\n \n \n字典结构\n \n在搜索时,记录前缀上次匹配的dicsegment,并直接查找当前扫描的内容。前缀dicsegment中的ed字符以加快匹配速度。\n例如,如果您已经匹配了假日段,请在假日段中查找它,这样您就不必再匹配假日段了。\n在测试过程中也发现了一些问题,例如:\n changbai山\n changbai 1长白山2长白山3白山4山5 \nchangbai山\ntest-particibian1长白山2白山3 \n \n在“长白山”查询中可以看到该分词,但不能看到“长白山”。问题在于匹配短语的局限性。长白山的分词顺序在原文的索引中是不一样的,中间有一个额外的“长白山”。使用最小的粒度来解决问题。这意味着只有长度为2和3的单词。没有长度为4的单词,因此长度为3的单词不会与原始文本中的以下数据组合。当一个单词的长度为2时,它可以与最后一个单词匹配,形成一个长度为3的单词。根据我们的分词规则,它是一个先分为两个词,然后再分为三个词的词。因此,可以匹配两个单词中的一个单词。'、'5bf0d58d2d4559f'、'jfevqk9zwuun5tidt9wt7xxxkgx2z2uv',1)在一起感动的话

上一篇:一句感动的话

下一篇:一句感动的话

相关文章
猜您喜欢
怎么试探前女友想不想复合?

女人是一种让男人捉摸不透的生物,特别是在分手后,就算有复合的想法,表面也会表现的很平静。所以需要男人根据情况自己判断。那到底该怎么去试探前女友想不想复合呢?

2024-02-21

狮子座女生的10个特点,追她之前摸透她的心

狮子座女生可不是那么好追的女生,看上去她平易近人、热情开朗,其实内心却有着自己的小傲娇,狮子座女生的10个特点,追她之前先了解一下吧!

2024-02-21

大街上怎么要女生微信不尴尬,这样要女生乖乖给你

很多时候男生就算在大街上遇到自己喜欢的女生类型,也不敢上来问女生微信,只能看着自己心仪的女生慢慢走远。下面给大家分享大街上怎么要女生微信不尴尬,这样要女生乖乖给你。

2024-02-20

用一个问题测试她喜欢你的方法,女生喜欢你就去追

想知道女生是不是喜欢你,教用一个问题测试她喜欢你的方法:你可以对她说一句话:你好像长胖了一点?(看看女生是什么反应。不过如果男生问出这个问题,可能让女生觉得你情商低,就算女生喜欢你也有一定的风险性)

2024-02-20

女生说心累怎么回复安慰她?分享正确回复方法

女生会在什么情况下说心累呢?可能是她工作上面遇到问题不好解决,让她觉得心累;可能是你对于女生的暗示无动于衷,女生觉得你不落教感到心累。那女生说心累应该怎么回复安慰她呢?

2024-02-19

惹女朋友生气检讨书1000字,哄她不再生你的气

如果男生犯了错惹女朋友生气,那就一定要想办法哄好她,因为是你错了呀。而想要哄好生气的女朋友,那你一定要认识到自己的错误,下面给大家分享惹女朋友生气检讨书1000字,希望能够帮助你哄好你的女朋友。

2024-02-19

婚姻恢复——维持感情让家庭重归平静

婚姻中有幸福的时候,也有不幸福的时候,夫妻应该做到维持好感情,才能顺利让婚姻恢复到幸福的时候,让家庭重归平静。

2024-02-19

怎么追巨蟹座女生?追巨蟹座女生怎么聊天

和巨蟹座女生谈过恋爱之后,就会知道她的内心真的很纯真,不过她性格上的复杂性则是让许多男生疑惑的关键,怎么追巨蟹座女生?追巨蟹座女生的时候要如何聊天呢?

2024-02-18

女朋友说分手后做朋友是什么意思?是真的做朋友么

如果女朋友说分手后做朋友是什么意思呢?如果是还爱着对方那就不应该选择分手,如果是不爱了那大家就应该彻底断了联系,真正深爱过的人是不可能在分手后做朋友的。下面就来分析女朋友的心理。

2024-02-18

暗恋一个人能有多难受?虐心回答句句戳心

暗恋是幸福的,却又是痛苦的,更是难受的,可遇而不可求的爱始终会令人感到绝望,那就是暗恋一个人所体会的难受,明明没有机会却又不想放手真的很痛苦。

2024-02-18

脱单神器
脱单神器
安卓版蜜小助APP 脱单神器
iOS版蜜小助APP 脱单神器

20W+可复制撩妹话术

实战案例+话术+视频+教程

热门文章
口述:公公在梳妆台上给我数次高潮
口述:公公在梳妆台上给我数次高潮
2013-11-11 1069065
二宮琴美、東熱出操翻白眼昏死
二宮琴美、東熱出操翻白眼昏死
2015-03-14 78328
那个午夜 禽兽继父将我压在身下
那个午夜 禽兽继父将我压在身下
2014-04-08 78054
韩国美女主播”钟淑”高清视频精品合集9部 115网盘在线观看
韩国美女主播”钟淑”高清视频精品合集9部 115网盘在线观看
2015-03-11 77288
店长推荐作品 EMP-001 EMPIRE Vol.1 50 波多野结衣 50连发泼溅中 2012年
店长推荐作品 EMP-001 EMPIRE Vol.1 50 波多野结衣 50连发泼溅中 2012年
2015-03-19 75774
留守女人和禽兽公公的不伦性事
留守女人和禽兽公公的不伦性事
2013-12-28 74937
美国男人让我一夜高潮五次
美国男人让我一夜高潮五次
2014-04-29 69845
关牧村与前夫王星军离婚真正原因 关牧村前夫王星军照片家庭背景及个人资料
关牧村与前夫王星军离婚真正原因 关牧村前夫王星军照片家庭背景及个人资料
2014-08-15 64941
公公的精湛床技让我死去活来
公公的精湛床技让我死去活来
2014-04-08 56763
我和小姨子在车上疯狂嘿咻
我和小姨子在车上疯狂嘿咻
2013-12-28 56566