书通学习方法网 -包含小学、初中、中考、高中、高考等各种学习方法。
书通网logo
当前位置: 书通网 > 学习方法 > 在线火星文转换(如何用算法将火星文转化为中文)

在线火星文转换(如何用算法将火星文转化为中文)

时间:2023-02-06 分类:学习方法 来源:书通网

天问一号降落火星,中华民族关于浩瀚苍穹的探索又远了一程。在这值得举国欢庆的时刻,过往关于火星文的种种科幻想象又更近了一步。

那么,假如火星文真的存在,在现有的技术条件下,我们该怎么解读呢?

字典大法:查表

若是对方对中华文明已早有研究,那么一本现成的字典是最好的工具。

比如地球语言中,中文英文的互译,很大程度上便是依赖字典。譬如“Mars”:

通过字典,即使没见过这个词,其中含义也可以一览无余。

这种策略在电信编码方面用得更加普遍。比如UTF8编码。UTF8编码可以理解为计算机所说的中英文,它将汉字转换为特定的二进制,然后通过查表进行还原。在谍战中大显身手的摩斯码则是声音表达的中文,每个长音和短音及其组合,都有对应的意思。

这方面近来最广为人知的创作,恐怕还是《长安十二时辰》中的望楼。这部优秀的作品创造了一组灯光传讯密码,实现了用光来讲述的中文。

这种方法也是计算机领域最容易实现的方法。从词典,便携电子辞典,到各类划词翻译设备,基于字典的方法已为文化沟通交流提供了许多便利。

猜词:结合上下文进行推断

如果这个词汇字典里没有,又该怎么办呢?

即使是阅读中文,也经常会遇到新的词汇,词典可能尚未收录。火星文与流行语便是例子。

先说火星文。在真正登上火星以前,我们把看不懂的文字称为火星文。其实它也是网络流行文化的一种。火星文长得奇特,直接查字典未必能够得到解答,比如:

砹吖,伱ぬ(哎呀,你好)

火星文中的几个字都不是正确的字,甚至混有其他符号,但是通过形近和同音的联想,我们还是能够猜出这句话本来的意思。

对程序而言,它可以内置一个字典,然后搜索出与现有的文字形近又音近的词汇,完成这项工作。比起直接查字典,难度只能说是略有提升。

结合语境猜测则是更高级的任务。比如外来词,酷,它是英文cool的翻译。

酷的原意是残忍,程度深;但是在新时代的语境下,它使用的句子发生了变化。如果能收集到大量的文本对比,程序就会发现,原本“这件事让人很想试试“,”让人觉得很好“,之类的表述,变成了”这件事很酷“。通过附近的词汇,程序可以大概推断出这个词的意思,这便是一类基于概率的翻译思路。

完全破译:多维空间上的抽象计算

如果完全没有信息,是一个全新的文字,收集到的资料又少,那才是真正的考验。

现有的文字系统有表音和表意两类;拿到一份古文字,首先要确定它是表音还是表意;这点可以通过观察符号的数量,做大致的推测。一般表音的符号数要低于表意的。

然后通过符号组合出现在一起的概率,可以大致划分出几个词汇;这一步与之前基于概率的思路类似。

富有知识的古文字专家,在这一步后就会根据重点词汇的形式,结合自己所知的语言,对文字的组成进行猜测,比如哪些符号代表哪些音节,再依次破译。

这一步以算法的语言来说,便是寻找【词汇间对应的连结关系】。假设有n个符号,那么它组成一个长度为a的句子,便有a^n种可能。通过现有的语料,我们能统计出经常出现的那些可能;同样,对另一种语言,我们也能做类似的统计;如果两种语言有着类似的关系,比如都是表音或者都是表意,他们之间能对应的词汇 应该也有一个类似的【统计关系】。通过对这种关系的描述,我们便能得到一对一的翻译。

利用这种方法,计算机学家已经在Linear-B数据集上进行了尝试,准确率达到了67.。

如果有真正的火星文,想必按照现有的科学技术,理解他们也并非不可能;关键在于探索未知的意愿与开放的心态。接纳未知,探索未知,在航空器走向深邃的同时,我们的认知也才能同样走向深刻。

%3

小编推荐: 如何培养孩子的学习兴趣和方法如何提高学习成绩的方法长高的最有效方法15岁女生(青少年如何锻炼长高)

推荐阅读