Node学习之路:require()工作原理

原文:http://thenodeway.io/posts/how-require-actually-works/
post header image

介绍

掌握的基本知识

进阶

高级

几乎所有的Node.js开发者都可以说出require()的作用,但是又有多少人真正知道require()是如何工作的呢。我们几乎每天都会使用它去加载库和模块,但是它的原理还是一个谜。

因为好奇,我查看了Node的核心源码去寻找答案。但是我不是找到了一个函数,而是找到了Node的核心模块:module.js。这个文件惊人的强大,它包含了文件的加载,编译,并且可以缓存所有使用过的文件。对外使用的require()只是冰山一角。

module.js

1
2
3
4
5
function Module(id, parent) {
this.id = id;
this.exports = {};
this.parent = parent;
// ...

module.js里的模块类型在Node.js中有两个主要的作用。第一,它为所有的Node.js模块提供了一个函数用于编译。每一个文件在这个基础模块中运行后都会返回一个新的实例,即使这个文件运行了也还是会存在。这就是为什么我们可以随时使用 module.exports并且可以返回它。

这个模块的第二个主要的作用就是管理Node模块加载机制。这个独立的require函数其实是module.require的一个引用,而module.require只是一个把Module._load简单包裹了一下(wapper)。这个函数才是真正控制文件的加载的,接下来我们通过这个函数继续我们的探索。

Module._load

1
2
3
4
5
6
7
8
Module._load = function(request, parent, isMain) {
// 1\. 检查 Module._cache 是否有缓存
// 2\. 如果没有缓存则创建一个新的模块实例
// 3\. 将模块实例保存到缓存中
// 4\. 通过给予的filename去调用module.load(),然后调用module.compile()去读取文件内容
// 5\. 如果文件的载入和解析过程中发生错误,删除缓存中的该模块
// 6\. 返回 module.exports
};

Module._load是一个负责新模块的加载和管理模块缓存的函数。缓存所有加载过的模块可以减少文件的重复加载并且明显地加快你的应用。此外,共享模块的实例可以把模块像单例来使用,可以在整个项目的运行中都可以保存它的状态。

如果一个模块不存在在缓存中,Module._load 会为这个文件创建一个新的基础模块。Module._load会通知模块去读取新的文件的内容,然后把内容送到module._compile。[1]

如果你看了上面的#6,那么你就会看到module.exports会被返回给用户。这就是为什么你可以通过exportsmodule.exports创建一个对外的公共接口,而这些就是Module._load做的事情,然后通过require返回出去。我很惊讶于除此之外没有其他的神奇的地方了,但是没有什么比它更加简洁更加好的了。

module._compile

1
2
3
4
5
6
Module.prototype._compile = function(content, filename) {
// 1\. 创建一个独立的require函数,该函数可以调用module.require。
// 2\. 给require加上其他帮助性的函数Attach other helper methods to require.
// 3\. 将代码包裹在一个函数中,并提供了require,module等变量在模块作用域中。
// 4\. 运行这个函数
};

这里就是见证奇迹的地方。第一,一个特殊的单独的require函数被创造用于这个模块。这个require函数就是我们最熟悉的那个函数。这个函数只是把 Module.require包裹了一下,它也包含了一些鲜为人知的帮助性的属性和方法供我们使用:

  • require(): 加载一个外部模块

  • require.resolve(): 通过解析一个模块绝对路径来生成模块的name

  • require.main: 主要模块

  • require.cache: 所有模块的缓存

  • require.extensions: 每一个有效文件的编译函数都是基于这个来做扩展

一旦require完成了,整个加载好的源码会被包裹在一个新的函数里面,同时传入require, module, exports和其对外的变量作为新函数的参数。这样就创造了一个新的函数作用域,这样可以避免污染Node的全局环境。

1
2
3
(function (exports, require, module, __filename, __dirname) {
// 你的代码会被放在这里
});

最后,这个包含了模块的函数会被运行。整个Module._compile方法的执行时同步的,所以Module._load会等待Module._compile执行完,然后会返回module.exports给用户。

结论

至此,我们已经看完了require的代码,通过这一圈的代码就创造出了我们一开始想要去了解的那个require 函数。

如果你了解了上面所有的内容,那么你将会了解到require('module')最后的秘密。没错,就是模块系统本身也可以通过模块系统加载进来的。一开始,这个可能听上去有些奇怪,但是这样可以让用户不用了解Node.js的核心原理就可以使用加载系统加载自己的模块。流行的模块例如mockery and rewire就是这样构建的。

如果你想了解更多的细节,你可以浏览module.js源码。你会得到更多的信息也会了解的更多,我将会给第一个回答出什么是‘NODE_MODULE_CONTEXTS’并且为什么要加上这个的人加分。


[1] module._compile函数只是用于运行JavaScript文件。JSON文件会简单地通过 JSON.parse()解析然后返回。

[2] 当然这些模块都是由一些私有的函数方法构建的,例如Module._resolveLookupPaths and Module._findPath。你可以想一想是否可以有更好的办法…

请开启你的Javascript然后浏览 comments powered by Disqus.