【更新】对不起大家qwq之前的正则表达式提取汉字和删人名的部分有点问题!!!现在已经修复过来了!!!口语语料库总有效字数10***62字!中国人说的“是”字最多。
不是“的”也不是“了”。
“的”仅仅排第三,“了”字甚至没有进前十。
这个问题不能直接照搬现有的字频数据啦。
既然题主问的是“中国人 说哪个字最多”,那么我们不能统计书面语语料,必须统计口语语料,甚至使用聊天记录都会有一定的偏差,因为我们打下的字不一定…。
上家公司用 GitLab,上上家公司用 Gitea,刚好我负...
前天,开车回家路上,看到一个电动车倒在路边,骑车人手在抽搐。...
自荐一个数据构建小工具: pydantic-resolve,...
我这里有一个。 后端基于:go,go-kratos,wir...
肯定会啊。 比如这个人 他的人设是一个黑客,那么他屏幕上...
我这里想到了三个坑: 报考专业坑:特别是一些换皮专业,以及“...