点击一下,解锁更多精彩小说
“ 文化交流沟通加速了地球文明的发展进程”
01
—
硅基人影响向的地球文明
硅基人1_2号很有想法,他发现地球人的语言在形式上是线性的(语言或者语句是从开始到结束形成一个线性序列,无论是说出来还是写出来都是如此),但是内在语义却是跳跃的、网状的、互相关联的;word2vec只是试图建模相邻词汇这种关系,在搭建地球子文明之间桥梁的时候,必定不是几个词就可以完成的;大篇幅的描述或者对话是难以避免的,所以应该把地球人语言以语块(即句子)编码为一个向量,然后再将这个向量解码为另一个语言的句子,实现序列到序列的映射(seq2seq),也就实现了不同语言之间的翻译。
上图中把“how are you ?”这个因为句子中的四个词语(“?”也算一个)压缩(encoder就是编码压缩)到“?”之后的一个向量中,然后在decoder层对上文解码,生成(这个过程就是利用设计的模型结构和对词语的表示等,对翻译之后的词进行预测,原理是基本数学原理是计算条件概率)对应的词“你好吗”。
句子有长有短,每个词的高维向量后面都需要有一个隐藏层神经元做一些数据处理和激活函数的非线性操作;硅基人再次对模型做了简化:规定句子长度,长的截断,短的补0(在向量里面,不同维度都置为0或者置为某个特殊值,表示句子的平均语义或者不表示任何意思)。同时硅基人1_2号还巧妙地设计了自回归这种模式。
【下图“=”左侧是自回归结构,右侧是将此循环展开之后的结构】:
所谓自回归就是自我递归,在硅基人1_1号设计的神经网络里面每个输入的背后隐层不共享,最后对各个隐层做一些处理然后输出。硅基人1_2号设计的模型中允许序列中的各个字共享隐层。然后不断地利用该隐层对当前输入和历史输入做取舍并激活,然后完成输出,利用序列末端时刻的隐层状态作为整个序列的表示,然后解码,解码的过程跟编码的时候类似把上一个时刻的隐状态和上一个时刻的输出及上线文向量c作为当前时刻的输入,不断解码目标序列:
现在,硅基人1_2号成功设计了理论上完全适用于翻译的模型结构,剩下的就是需要数据来驱动模型学习。硅基人的探测游移于地球各个区域,基于不同语言有着共同的物理基础,加上对不同语言在使用时的场景、表情等的比对,硅基人寻找到了一几大主要地球文明的语言之间大批平行语料,也就是标注数据,再简单点说就是一种语言及其在另一种语言当中的翻译,这样的数据以句子对的形式存在。
硅基人的影响主要针对当时的北半球。硅基人想通过这种方式(将不同语言所代表的的文化、文明翻译成其他文明的文字,然后以著作和民间传说的流传方式,潜移默化地影响文明的探索和交流)担当不同文明之间桥梁的角色,加强地球各文明之间的交流和促进。因为硅基人甚知,闭关锁国、单独发展难以进化出更高等文明。
同时,由于地表文明处在发展初期,对所处世界的物理认识严重不足,各个文明对未知现象的解释多诉诸于神明和宗教。为了使得硅基文明的计划(让地球各个子文明可以互通有无,相互沟通,更快地达到可以与硅基文明共同进化的水平)得以顺利实施,硅基文明在当时的地球文明各地创建了不同的宗教或者神话,宗教传播的思想或书籍以及口口相传的神话故事都是经过硅基文明翻译和修改之后以适合当地文化发展的形式出现。比如当时地球文明的东方文明(中国)相对繁盛,军事力量和农业发展比较发达,硅基文明将
(本章未完,请点击下一页继续阅读)