退休人员解聘通知书:google站点是用什么语言编写的,求详细答案

来源:百度文库 编辑:高考问答 时间:2024/04/29 16:47:09
求详细准确答案,要有答案的依据和来源,谢谢
最佳答案再追加加分数

dyluck的答案是哪里来的?英文看不是很懂,能翻译一下吗?

用金山翻译 dyluck
系统剖析
首先,我们将会提供建筑学的高水准的 讨论。 然后,有重要的数据结构的一些深入的描述。 最后,主要的申请: 爬行,索引,而且搜索将会被在深度方面调查。

图 1. 高水准的 Google 建筑学

4.1 Google 建筑学概观
在这个区段中,我们将会给整个的系统如何工作如图 1 所画的高水准的 概观。 进一步的区段将会讨论不被在这个区段中提到的申请和数据结构。 大多数的 Google 在 C 或 C 中被实现++ 为效率而且能在 Solaris 或 Linux 中跑。
在 Google 中,网爬行 (网页的下载) 被一些被分配的搜索器做。 有送网址的目录被接来到搜索器的 URLserver 。 被接来的网页然后被送到 storeserver 。 storeserver 然后压缩而且储存网页进一个容器之内。 每个网页有一个联合的身份证数字叫做了被分配的 docID ,每当一个新的网址由一个网页被剖析。 索引功能被运行被那编入索引中和从事分类的人。 那编入索引中运行许多的功能。 它读容器 , uncompresses 文件, 而且剖析他们。 每份文件被转换成称为点击数的一组字发生。 点击数记录字,在文件中放置,字型的一个近似值大小 , 和资本化。 那编入索引中分配这些点击数进一组 "桶" 之内, 创造一部份地分类向前的索引。 那编入索引中运行另外的重要功能。 它剖析出在每个网页中的所有联编而且剖析在一个锚中的商店关於~的重要资讯~他们申请。 这个文件包含充足的数据决定每个联编指出哪里从和到, 和联编的本文。

URLresolver 读锚依次 进入 docIDs 之内申请而且把比较的网址转换成 absolute 网址而且转换。 它将锚本文放入向前的索引, 被 docID 联合锚指出到。 它也产生是 docIDs 的双联编的一个数据库。 联编数据库用来为所有的文件计算 PageRanks 。

从事分类的人带桶, 被 docID(这是一个单一化,看见第 4.2.5 节) 分类, 而且诉诸他们藉着 wordID 产生被反转的索引。 这在地方中被做以便 小的暂时空间是对~的需要操作。 从事分类的人也生产一连串的 wordIDs 和抵销进被反转的索引之内。 一个称为 DumpLexicon 的计画和被生产的辞典一起带这本目录被那编入索引中并且产生一个新的辞典被搜索者用。 搜索者被一个网伺候器管理而且使用和被反转的索引和 PageRanks 一起被 DumpLexicon 建造回答疑问的辞典。

4.2 主要的数据构成
Google's 数据结构被最佳化以便 一个大的文件收集能与~一起爬行,编入索引,和搜寻小的费用。 虽然,处理器和大小输入输出率有这些年以来戏剧地改良,磁盘片找寻仍然大约需要 10 ms 完成。 Google 被设计避免磁盘片找寻每当可能的,而且这有对~有一相当的影响力数据结构的设计。
4.2.1 BigFiles
BigFiles 是虚拟的文件跨越多样的文件系统并且藉着 64个一点点完整的事物是可设定位址的。 配置在多样的文件系统之中被自动地处理。BigFiles 包裹也处理文件记述件的配置和 deallocation,自那以后操作系统不 提供足够给我们的需要。 BigFiles 也支援根本的压缩选项。
4.2.2 容器

图 2. 容器数据结构
容器包含每个网页的完整 HTML 。 每页被压缩使用 zlib 。 (看见 RFC1950) 压缩技术的选择在速度和压缩比之间是 tradeoff 。 我们在被 bzip 提供的压缩中选择 zlib's 关於重要的进步速度。 bzip 的压缩率是大约 4 到 1 在容器上当做比拟为对 1个压缩的 zlib's 3。 在容器中,文件被相继地 储存并且被 docID ,长度和网址前缀当能在图 2 中被看到之时. 容器没有需要其他的数据结构被用为了要存取它。 这由于数据一致性帮助并且使发展比较容易的很多;我们能再建来自只有容器和一个列出搜索器错误的文件所有的另一个数据结构。
4.2.3 文件索引
文件索引每个维持关於~的资讯文件。 它是一个固定的宽度 ISAM(索引继续的通路模态) 索引,被 docID 命令。 数据在每个进入中储存包括现在的文件状态,进入容器,一个文件核对和和各种不同的统计学之内的一个指针。如果文件有被爬行,它也包含一个指针进一个称为包含它的网址和名称的 docinfo 的可变宽度文件之内。 否则进入只是包含网址的 URLlist 之内的指针点。设计决定被使被欲望让一适度地紧凑的数据构成,而且在一个磁盘片中接来一笔记录的能力在搜寻期间寻求
附加的,有一个用来把网址转换成 docIDs 的文件。 它是有他们的对应 docIDs 的一连串的网址核对和并且被核对和分类。 为了要找特别的网址 docID, 网址的核对和被计算,而且二进位的搜寻在核对和上被运行申请找它的 docID。 网址藉由对这个文件做合并可能在一届中被转换成 docIDs 。 这是 URLresolver 使用将网址变成 docIDs 的技术。 因为否则我们一定为每个联编运行找寻傲慢的一个磁盘片为我们的?货???κ窾个联编数据组会花超过 一月 , 所以更新的这个一届模态是决定性的。

4.2.4 辞典
辞典有一些不同的表格。 来自比较早的系统重要的变化是辞典能为合理的价格在记忆中适合。 在现在的落实方面我们能在一部机器上用 主要的记忆 256 万位元组把辞典留在记忆中。 现在的辞典包含???κ窾个字。 (虽然一些稀罕的字不被增加到辞典) 它在二个部份中被实现 -- 一连串的字 ( 一起如锁链般连续但是被零分开) 和指针的一张混杂桌子。 对於各种不同的功能,字的目录有一些附加的数据是超过这张纸的范围完全解释。
4.2.5 杀害名单
在一份特别的文件中一个杀害名单符合一个特别的字一连串的发生包括位置,字型和资本化数据。 杀害名单解释被用的大部份空间在两者都那向前的和被反转的指标。 因为这,它是重要尽可能有效率的表现他们的。 我们为 encoding 位置,字型和资本化考虑了一些替代方案 -- 简单的 encoding(完整的事物一个三倍之数) ,紧凑的 encoding(一只手将了一点点的配置最佳化) 和 Huffman 欺骗。在结束中,我们选择自它以后被将紧凑的 encoding 最佳化的一只手为必需的甚远地少隔开胜於简单的 encoding ,而且远的比较少量咬了处理胜於 Huffman 欺骗。 点击数的细节在图 3 中被显示。
为每个击中的我们小型房车 encoding 使用二个位元组。 有点击数的二类型: 想像的点击数和平原点击数。 想像力点击数包括点击数在网址,名称中发生,锚本文 , 或 meta 标签。 平原点击数包括其他每件事物。 在一份文件中一个简单的击中由~所组成字位置的一资本化一点点,字型大小和 12 一点点。 ( 所有的位置比 4095 高被将 4096 分类) 字型大小对正在使用三一点点的文件其馀者被表现亲戚。 ( 只有 7 价值被实际上用因为 111 是向一个想像的击中作信号的旗子) 一个想像的击中由~所组成一资本化一点点, 字型大小设定到 7 指示它是一个想像的击中,改为暗码想像的击中类型, 和改为暗码 8 一点点的位置 4 一点点。因为锚击中,位置的 8 一点点进入 4 一点点之内为锚发生在 docID 的一个混杂在锚和 4 一点点中为位置被分离。 这给我们一些限制片语寻找只要为一个特别的字没有那个许多锚。 我们预期更新方式锚点击数被储存在位置和 docIDhash 领域中考虑到比较很棒的决议。我们使用关於~的字型大小其馀者那证明因为当寻找的时候,你不 想要不同的否则排列同一的文件仅仅因为文件之一是在一个比较大的字型中。

图 3. 向前的和相反索引和辞典

杀害名单的长度被储存在点击数之前他们自己。 为了要解救空间, 杀害名单的长度在向前的索引中与~一起联合 wordID 和在被反转的索引中联合 docID。 这个极限它到 8 和 5 一点点分别地.( 有一些诡计允许来自 wordID 的要借 8 一点点) 如果长度比会在许多一点点适合长,一个逃亡密码在那些被用咬,而且下个二位元组包含真实的长度。

4.2.6 转寄索引
向前的索引是实际上已经部份地分类。 它被储存在许多的桶中。 ( 我们使用过的 64) 每个桶支撑 wordID's 的范围。 如果一份文件包含字秋天进入一特别的桶之内, docID 进入桶之内被记录,一连串的 wordID's 用~跟随符合的 hitlists 那些字。这个方案需要为一个合理的桶子数字些微地较多的储藏因为复制 docIDs 但是那不同非常是小的而且节省相当的时间和在最后的索引中欺骗复杂逐步运行被从事分类的人做。 此外,而不是储存真实的 wordID's ,我们储存每 wordID 如来自掉入 wordID 是的桶最小的 wordID 的一种比较的不同在。 这样,我们能在 unsorted 桶中使用只是 24 一点点作为 wordID's,为杀害名单长度留下 8 一点点。
4.2.7 反转了索引
被反转的索引由~所组成如同向前的索引一般的桶,除了他们有被从事分类的人处理以外。 对於每有效的 wordID ,辞典包含一个指针进 wordID 掉入的桶之内。 它和他们的对应击中目录一起指出到 docID's 的 doclist 。 doclist 在所有的文件中表现那个字的所有发生。
一个重要的争议是在次序 docID's 所应该在 doclist 中出现的中。 简单的解决要储存他们被 docID 分类。 这为多样的字疑问考虑到不同的 doclists 的快合并。 另外的选项要储存他们被字的发生一个排名在每份文件中分类。 这制造回答一个字疑问琐细的而且使它有可能对於~的答案多样的字疑问是靠近开始。 然而,合并更加更困难。 也,这在那使发展更加更困难对上级的功能变化需要一索引再建。 我们选择在这些选项之间的一个妥协, 保存反转的桶二组合 -- 一为包括名称,或为全部停泊点击数和另外的一个组合的杀害名单设定

我们看到的只是html+css+javaScript,内部编码都知道了,google就不会是NO.1了!

java太贵,可能是C

用html+css+javaScript做表示层
用C做搜索内核

html css javascript jsp

Google在海量数据下保持如此高的速度,其系统架构值得我们研究

就是这个问题值得深纠