万象词库 2026 年中更新纪要:重塑输入体验的底层基建
随着 2026 年进程过半,万象词库进行一次年中汇报,旨在阐述清楚:万象词库为什么好。万象词库不是简单的堆砌,而是一场针对中文输入法底层逻辑的外科手术式重构。
本次年中更新,我们对标了公共语料库的维护规范,引入了模型分类思想,从词性结构、数据降噪、词频重算到层级分发,全面升级了万象词库的“净度”、“准度”与“广度”。
一、 核心升级维度
1. 词性结构与高频口语的精准降维覆盖
传统输入法词库往往只收录“标准名词”,导致用户在输入日常口语时频繁遭遇切词错误。本次更新,我们针对现代汉语的特殊词法结构进行了系统性增补:
-
高频离合词与动宾结构封装:海量引入了
[动词] + 的 + [名词]结构(如:出的门、吃的饭、结的账 等)。彻底解决了原生 Rime 引擎在遇到此类结构时引发的“多音字切分灾难”,实现口语化表达的盲打级流畅。 -
时空限定与量词前缀矩阵:针对高频工作与生活场景,批量构建了
[限定词] + [数/量词] + [名词]矩阵(如:某几层、下一包)。通过词条绑定,消除用户的停顿感。
2. 用词用字修正和引导:抵抗“劣币驱逐良币”的输入本能
在极速打字的场景下,绝大多数人只追求“把音敲对、意思传达到位”,根本没精力去考究字词的绝对规范。久而久之,真实的互联网语料中沉积了海量的“高频错别字”——如果我们单纯迷信算法和统计学去跑词频,输入法就会被这些高频错误绑架,沦为错别字的“搬运工”。
在万象词库的更新中,我们充当了一回“语法警察”,对这类高频误用进行了强制纠偏和规范引导:
-
“的地得”的秩序重建: 在日常输入中,极少有人会为了打出“冷静地分析”而刻意去选“地”,绝大多数人按出来的都是“冷静的分析”。但在万象词库的逻辑里,我们针对副词修饰动词的结构进行了强制的权重拨乱反正。当你敲下
leng jing de时,首选必须是规范的 “冷静地”;同理,xun su de引导为 “迅速地”,gao xing de引导为 “高兴地”。 -
同音易混词的精准定向: 真实语料中,“带口罩”、“反应情况”、“做为”的出现频次常常高得惊人。但万象在底层切断了这种错误关联,将权重绝对倾斜给正确的 “戴口罩”、“反映情况” 和 “作为”。
-
正用词提权: 在长期的使用中,好多成语、固定组合都出现了偏离 “出了叉子”、“出了岔子” 修正为 “出了岔子”。“经验老道” 修正为 “经验老到”。等等,有的是修正,有的则是提权,比如:“蒜薹” “蒜苔”, 这类型的词汇将会将 “蒜薹” 放在首选,次选中依然提供 “蒜苔” 写法,但在大于三个字的构词中,一律使用正确的词汇如:“炒蒜薹”
【万象解读:为什么我们要在这个细节上较真?】
很多输入法为了讨好用户,选择向“大众习惯(哪怕是错的)”妥协,觉得只要用户打字爽就行。但万象的理念不同:输入法不仅是表达的通道,更是文字输出的“第一道品控防线”。 用户在发微信、写报告、做企划时,可能意识不到自己用了错别字,如果输入法也跟着“装糊涂”,那就是在无形中拉低用户文档的专业度。万象的用字引导逻辑是:你只管凭着本能去敲拼音,不必纠结语法,万象会在底层悄无声息地替你把关,把最规范、最得体的那个字眼,稳稳地端到你的候选框首位。 这不是说教,而是工具对使用者最深层次的保护。
3. 深度清洗:截断词与信息噪音的物理销毁
一个优秀的词库,其价值不仅在于“有什么”,更在于“没什么”。本次更新执行了极其严苛的“净身”标准:
-
语义残缺词清理(截断词斩杀):果断移除了无法形成语义闭环的孤立前缀(如:彻底删除无意义的
折耳,将其精准收束于折耳猫、折耳根)。 -
强依附性缩写合并:针对数字化时代的品牌延伸词进行合并吞噬。例如,将无独立搜索意图的
浙里予以删除或极度降权,全面让位于高频专有名词浙里办,确保候选项首屏的绝对纯净。
4. 公共资料级校准:同音异形与规范化清洗
引入了学术界与公共语料库的校对规范,彻底终结了“同音错别字”在候选框内的内部消耗:
-
学术与地缘名词的唯一化:遵循文献压倒性优势原则,将地质学名词统一规范为
土伦阶/期;在庞杂的外来语译名中,基于通用频次大刀阔斧地砍掉冷门异译(如剔除纳瓦荷、纳瓦布),仅保留纳瓦罗、纳瓦霍等核心高频实体。 -
生活俗语的标准化兼容:对于如
啫喱与啫哩、哭号与哭嚎这类规范词与流行俗写,采用“首选规范、兼容异体”或“依语境留存”的策略,既尊重语言学词典的严肃性,又拥抱网络文学与大众表达的生命力。
5. 算法赋能:词频重算与模型化数据分发
摒弃了传统的“一锅端”词库管理模式,采用了更具智慧的数据分层路由机制:
-
全局词频重算(Weight Rebalancing):打破原有杂乱的权重体系,基于 2026 年真实语料分布进行重算。确保顶级日常词汇(如
这里weight: 5000)永远压制专有名词(如浙里办weight: 3000),而长尾词被有效折叠。万象词库在维护的过程中希望依赖rime语法模型来构建更丰富的使用场景,从算法层面上,如果词库的词频波动特别大,在对数层就会出现模型无法干预,或者好坏参半,当使用幂次压缩词频后,放在较小的范围内,减小词组之间的差距,这样模型的连续性加权就能轻易地让正确的词条越权从而出现正确的组合。这样我们过程中使用了好久赢得了很多好评。但还有很多使用者存在认知问题,他们觉得模型200M等于卡,等号就此画上,当不使用模型的时候由于我们压低了词频,这导致最优路径算法2+1+2可能无法逾越3+2,这个过程中出现了词库能力下降的感觉,也被很多没有好用维护模型的词库拿来对比,因此在年中我们也恢复了最初的波峰词频,这就需要我们对模型进行二次适配和优化。光靠词频就敢说好,这个我们也接得住。但是由于同音序列输入的习惯,会导致我们只能有一个最优解,在我们增加声调和辅助码的时候才会让后面的可能性出现。同样是因为同音序列的增加,词库的丰富也会干扰句子的组成,因此我们只能达到一个平衡点。 -
基于模型的词库隔离:借助分类思想,将海量词条拆分至合适的归属地。将高频刚需固化于
核心词库,将常规词汇组成的专业词汇下放至语法模型依赖语法模型可以让这些短语很好的输出,因为语法模型的作用就是根据连续性将词库中排序不靠前的词组提权组合到一起,且基于c的mmap前缀树扫描效率极高,我们只需要维护的时候注重词库中分词片段的收集,让模型有词可提。
二、 万象词库:好在哪里?
在开源输入法生态中,众多词库往往陷入“越大越好”的盲目堆砌陷阱,最终导致候选词臃肿、联想混乱。万象词库的卓越之处,正是源于对输入哲学的深刻理解:
-
极简与极丰的统一(净与广)
万象不是一个“字纸篓”,而是一个“精密齿轮箱”。它剔除了毫无意义的截断词和低频干扰项(净),却又在现代离合词、互联网热梗和行业标准名词上做到了像素级的细致覆盖(广)(但我们对梗的质量把控严格不轻易加入)我们推崇的是2-4字的“正常话”完全覆盖,属于必须全面收集的范畴,以往其他类型的词汇多为拼凑,打字过程中大量依赖翻页选字,从而形成了“养词库”的说法,其本质,就是用户在语句流输入过程中往往不能规范的两个字两个字的打,特别是在找一个字的时候更是翻到怀疑人生,在输入法中我们看的是输入的结构,例如:“做的事”这是一个完整的短语,任何分离的打发都会破坏语感,然,这是极高频,其实属于肌肉记忆的的范畴,其实还有很多高频人们也是按这个习惯来使用的,结果是没有结果,只能靠翻页造词。万象要做的事情是把合理的片段最大限度地长期维护到词库中。
-
符合直觉的肌肉记忆(准)
得益于精密的词频重算与场景化结构(如三字动宾结构)的引入,万象词库极其符合中国人的“连拼肌肉记忆”。你不需要为了躲避错别字而小心翼翼地切分音节,输入即所得。
-
评估小组 万象词库的维护非我一人之功,而是有一个10来人的小组成员,我们会针对遇到的问题进行探讨,根据规范、根据词典、根据出处全方案决策哪些靠前、哪个词需要删除等等,我们最初为了先有,通过分词语料拿了特别多的词条,但也引入了很多垃圾,这是没办法的事情,做事就需要有阵痛,也感谢大家的持续反馈,才加速了它的干净,时至今日,基本可以放心的说,他是一个很干净的词库了。工作我们会继续。
三、 总结
万象词库自 2024 立项以来基本保持着每日更新的节奏,这样的节奏,不是被动需求,而是主动发现,不是够用就好,而是主动建设。从当年的有口吃的就行,到如今吃口好的,我们对任何事物的追求都是在进步的。也希望更多的人参与进来。