蓝瘦香菇视频 周星驰:在哪里能够查到英文字母及其组合的频率统计?

来源:百度文库 编辑:高考问答 时间:2024/04/25 07:06:02
比如,我们都知道,字母组合“zy”出现的频率肯定要比字母组合“ze”的频率要高,还有,字母J一般不和y搭配而是和ay搭配。
想问问,哪里能够查得到,英文里面所有能够搭配的字母组合的频率分布?越多越好
只要是元音和辅音搭配的就好了,辅音之间的搭配不需要。

两个字母组合出现频率如下表(前10名):
第一列为字母组合:
第二列为参考频数
第三列为出现频率
er 3706 0.02223
in 3306 0.01983
on 2915 0.01748
ti 2862 0.01716
at 2633 0.01579
re 2633 0.01579
te 2583 0.01549
en 2508 0.01504
le 2207 0.01324
an 2168 0.01300

统计上来说,这应该是由大数定理保证的。但是实际上应该并不成立,除非所统计的文章,使用的词汇相对固定。
例子:
1)举例来说,数学论文中极少用到人称代词"I", "he", "she"等(但是"we"比较常见),但是如果是阅读新闻或者小说,则可以观察到大量代词,如果分别统计学术论文和小说的话,得到的频度应该是有区别的。

2)再举一例,不同作者的写作风格也会影响到词汇(进而影响到字母)使用的频度。事实上统计中有很多工作就是通过频度比对来鉴别作者的,《红楼梦》后40回与前80回的作者是否一人的问题,在统计上也有人用相同的方法研究过。

回到统计上来,大数定理要求所有观测样本独立同分布,或至少是独立,但是实际生活中,这一点很难保证。

大家对该丛书《LOVEORMON?EY》部分进行统计,计算26个字母的出现频率,然后制成图表。从收集的数据比较中得出结论,出现频率较高的9个英文字母分别是:A、E、H、I、N、O、R、S、T,出现频率较低的8个字母分别是:B、F、J、K、Q、V、X、Z。

通过打字实验,他们发现出现频率较高的字母并没有被安排在最灵敏的食指和中指容易触摸到的位置,一些出现频率较低的字母反而霸占了键盘上的“风水宝地”。由此可以得出结论:现在通用的电脑键盘字母排列不科学,看起来似乎是微不足道的缺陷,却浪费了我们有效工作时间。

四位中学生随即萌发了重新设计键盘、优化字母排列的想法。

在前面的研究基础上,大家展开更大规模的统计工作。先是文学艺术类书籍中的世界文学名著《呼啸山庄》,然后是自然科学读物和英文报纸。

通过对不同类型的英语文献进行对比统计,他们发现各类文献的字母出现频率基本一致。按照字母的频率高低和食指优先、右手优先、中档键优先的原则,他们重新排列出键盘字母:从左至右上行Q、K、C、S、G、M、R、L、B、J,中行V、W、N、T、O、A、E、I、P,下行Z、X、U、D、Y、F、H。为了验证新键盘的优越性,四位中学生进行模拟操作,实验证明按字母频率高低重新排列后的新键盘优越性十分明显,手指移动次数减少了一半。

他们的研究成果《电脑键盘字母的优化排列》不久前获得今年深圳市科技创新大赛一等奖,专家对中学生这种敢于挑战传统、追求真理的行为给予肯定。

大家对该丛书《LOVEORMON?EY》部分进行统计,计算26个字母的出现频率,然后制成图表。从收集的数据比较中得出结论,出现频率较高的9个英文字母分别是:A、E、H、I、N、O、R、S、T,出现频率较低的8个字母分别是:B、F、J、K、Q、V、X、Z。

通过打字实验,他们发现出现频率较高的字母并没有被安排在最灵敏的食指和中指容易触摸到的位置,一些出现频率较低的字母反而霸占了键盘上的“风水宝地”。由此可以得出结论:现在通用的电脑键盘字母排列不科学,看起来似乎是微不足道的缺陷,却浪费了我们有效工作时间。

四位中学生随即萌发了重新设计键盘、优化字母排列的想法。

在前面的研究基础上,大家展开更大规模的统计工作。先是文学艺术类书籍中的世界文学名著《呼啸山庄》,然后是自然科学读物和英文报纸。

通过对不同类型的英语文献进行对比统计,他们发现各类文献的字母出现频率基本一致。按照字母的频率高低和食指优先、右手优先、中档键优先的原则,他们重新排列出键盘字母:从左至右上行Q、K、C、S、G、M、R、L、B、J,中行V、W、N、T、O、A、E、I、P,下行Z、X、U、D、Y、F、H。为了验证新键盘的优越性,四位中学生进行模拟操作,实验证明按字母频率高低重新排列后的新键盘优越性十分明显,手指移动次数减少了一半。

他们的研究成果《电脑键盘字母的优化排列》不久前获得今年深圳市科技创新大赛一等奖,专家对中学生这种敢于挑战传统、追求真理的行为给予肯定。

通常对于字母及其组合的统计都是人工智能软件的参考数据资料,一般的自动翻译软件会把这类资料作为商业机密;而要是国家的重点扶持开发项目,更是不会把这类资料公诸于众。建议提问者,假如你也是一个开发人员,那么这些数据统计就是项目开发组应作的筹备工作;假如你只是想了解一下,那么,基本上,这个,很难实现。