数字独立宣言

2019 年 6 月, 维基百科联合创始人 Larray Sanger 发布了《数字独立宣言》。本来我想自己翻译一下的,但搜索了一下发现已经有人做过了,所以就不再重复工作了。下面是来自微信公众号「如何与未来相处」的译本。我在这里转发备份一下。
我们的数据正被庞大的数字帝国所滥用。我们有必要建立一个由独立个体组成的去中心化互联网取代这些数字帝国,正如互联网最初几十年一样。我们是自由参与的,没有人可以质疑我们采取这一行动的权利。为了说服尽可能多的人加入这场改革,我们宣布推翻旧式互联网的理由。
我们声明,我们拥有不可剥夺的数字权利,这些权利定义了我们可以决定我们的个人信息是否能被他人使用,同时也包括了言论自由、隐私和安全。中心化的互联网架构使得我们大多数人放弃了这些权利,我们要求一个能够尊重这些权利的新系统。彻底的改革是充满困难与分歧,这也意味着这项任务并不容易。这些年来,我们会为互联网的商业化而兴奋,哪怕它是通过我们无偿的沟通和劳动而获益。但是现在已经很清楚,一个冷酷的、秘密的、控制的、剥削的力量在主导着中心化的互联网及其背后的公司。
长期的不公正对待,使得我们有权利,甚至有义务去改革旧式互联网。为了表明我们在这些大公司手中遭受了哪些不公正对待,我们会把真相公开给世人。
他们实行内部审核,以追求利益最大化,而不是以民主或社区投票的方式的方式决策。
他们基于政治考虑而审查内容或限制用户的权利,并利用其巨大的公司权力来影响全球选举。
他们采用推荐算法投喂人们最具争议的内容,使得公民讨论更加情绪化和非理性化,使得外国势力能够对全球选举产生不合理的影响。
他们要求普通用户同意难以理解的服务条款,却在保护用户合法权利的条款上模棱两可。
他们以一种没有人赞同的方式把个人数据出卖给广告商。
他们没有提供退出这些营销计划的明确的选择。
他们会要求用户接受这类条款和计划,哪怕用户已为产品和服务付费。
他们用复杂且令人不安的方式对用户的内容和行为进行数据挖掘,更多是为了了解用户而不是让用户了解自己。他们也从这些个人隐私中获益。
他们避免使用强大的、端对端加密方式,以保证对用户数据的访问权限,哪怕用户期望完全隐私。
他们拥有了大量的用户数据,却未能遵循信息安全措施,如加密,以至无意或有意向黑客或政府暴露这些数据。
他们出于政治或宗教不公平地屏蔽了一部分用户的账号、帖子和资金,对另一部分用户更加忠诚。
他们有时候会和专制政府合作,以便于专制政府既可以控制信息又可以监控人民。
他们无法提供足够理想的选项给用户以便用户调整其服务,而是更愿意通过操纵用户以获取利益。
他们无法给用户提供有效的搜索信息的工具,以至用户无法在搜索引擎上有效搜索到自己想要的东西。
他们利用自愿向网站提供数据的用户和志愿者,违反隐私的服务条款,通过为他人提供此类数据而牟取利益,也不会将这些数据免费公开和开源,甚至不允许用户匿名或删除自己的数据。
他们没有提供有效工具,甚至是不提供任何工具,以至用户无法按照通用数据格式导出其数据。
他们为了自己的利益而创造了一个个数据孤岛,也没有提供一种共享数据的解决方案,以迫使用户留在他们的网络中,与使用其他的网络的家人、朋友和同时分隔开来。
他们从用户的内容和活动中牟取利益,但通常不与用户分享任何利益。
他们傲慢地将用户看作可被剥削的、被控制的、可被替代的资源,而不是自由的、独立的、多元化的、值得尊重的合作伙伴。

我们一直都在请愿、恳求、诉诸法律,而那些公司的高管一定很熟悉这些常见的抱怨,但是他们极少公开承认,甚至是极不情愿的。这种病态的处理方式一直在持续,说明了他们并不值得公众所信任。
我们的隐私、安全和言论自由的权利,并不是由任何公司、组织或政府赋予的,而是由独立个体通过自由认可普遍的标准和协议得以实现的。这种巨大的权力通过社交网络笼罩了二十一世纪初,并把我们的数字权利推向了危险的边缘,从而也证明了我们现在必须建设一个崭新的去中心化互联网,以避免权力集中的危险情况。
因此,我们宣布我们支持下列条款。

去中心化社交网络原则

  1. 我们个人有权自由地发表我们的数据,而不必知会任何公司。
  2. 我们宣布,我们合法拥有自己的数据;无论是法律还是道德层面,我们拥有控制自己数据的权利。
  3. 社交网络上的帖子应该像电子邮件或博客一样为我们所掌握,而不只是存储在公司或组织的数据库之中。
  4. 正如没有充分的理由,没有人有权窃听家庭私人谈话一样,公司也必须在政府的监督下保护用户的隐私权,同时防止犯罪。因此,对于用户隐私,协议必须支持强大的端到端加密方式或其他良好的隐私保障实践。
  5. 与域名系统一样,订阅源列表应仅受技术标准或协议的限制,而不应根据用户的身份或内容进行限制。
  6. 社交媒体应该是由用户自行决定输入的数据,然后由所有运营商依据通用的技术标准或协议进行分发,就好像电子邮件或博客一样。没有运营商能够自行制定技术标准。具有特殊标准的应用是违反了用户的数字权利。
  7. 因此,社交媒体应聚合多个用户确定的、独立的数据源的帖子,并按照用户的偏好排序。
  8. 任何公司或寡头都不应控制去中心化网络的标准和协议,也不应存在与之相关的单一品牌、所有者、专有软件或互联网位置,因为这将构成中心化。
  9. 用户应期望能够参与新式网络,并享有上述权利,且无需特殊的技术技能。它们应具有操作简单的隐私控制(包括细粒度和粗粒度),自动加密用户隐私,并且使用工具来控制订阅源和搜索结果,这些工具对于非技术人员来说也是很容易上手。
我们认为,接受这些原则是回归互联网的初心,是互联网崛起的基础。任何反对这些原则的人都反对互联网本身。为此,我们承诺遵循这些原则,设计、编程和参与新式互联网,抛弃旧式互联网。
因此,我们,即将签字的互联网人士,郑重发表声明,我们将尽一切努力建设去中心的社交网络;我们应尽可能地传播、讨论和签字本文件;我们认可前面所提及的去中心原则;我们将依据这些原则来批判社交媒体公司;我们将在必要时放弃它们的产品,以表明我们对这一事业的声援;我们,无论是用户还是开发者,都将推动互联网更加去中心化的事业。

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

随机数的惊人复杂性

本文翻译自 The Surprising Complexity of Randomness,原文作者:Brett Romero,2017 年 5 月 20 日。
之前,在一次不使用数据库创建一个简单应用的经历中,我接触到了随机性(randomness)。随机性和随机数生成是计算机科学领域一个非常艰深又重要的部分,但同时也是一个计算机科学领域之外鲜有人知的概念。因此,本着人人为我、我为人人的期望,我将在本文中谈谈随机性那惊人的复杂性(complexity)。

我们为什么需要随机性?

随机性有很多用途。但首先,需要强调一件事:当涉及计算机和计算机科学时,随机性通常是通过随机数体现的。随机排列的数字序列可以用于很多不同的目的,从简单随机播放音乐列表到更重要的为安全登录、数据加密生成随机密钥,还可以用在涉及大量金钱的在线赌博中进行随机洗牌。

时间跳跃者

2020 年 1 月 3 日,我不知怎么造出了时间机器,但它却出了故障,让我不断地向未来跳跃:在地球出现 100 分钟后,我就会向未来跳跃大约 100 年。
在第一次跳跃时,我自然认为是自己的时间机器取得了完美的成功。我的时间机器载着我出现在一个商场中,时间是 2120 年 1 月 3 日 19 时 12 分。几个机器人围了上来,询问我的身份。我自然说了实话,说自己是来自过去的时间旅行者。机器人却并不惊讶,或者这时代已经满是时间旅行者了,但更可能是机器人本就不可能对任何事情感到惊讶。一个机器人说:「难怪我没查询到有关你的任何数据。」

关于「汉字」

「汉字」目前最常见的英语译法是「Chinese character」,但这个词组实际对应的含义应该是「汉语字符」。由于我们通常并不认为各种标点符号是汉字,所以「汉字」与「汉语字符」这两个集合实际上并不完全重叠——前者只是后者的一个子集。
我简单搜索了一下,这个问题之前也有人思考过,比如南方周末发的《为「汉字」的英文正名》,其中列举了更多理由,包括:
  • Chinese character 具备多种含义,如华人角色、中国人的性格
  • 日本汉字和韩语/朝鲜语谚文均有各自源自本身的英文词来表示:kanji 和 Hangul
  • 楔形文字(cuneiform)和圣书体(hieroglyph)都有各自对应的专属词
文章最后建议将「汉字」译为「hanzi」,我认为是妥当的。
另外,脑洞几个变形形式:
  • 复数:hanzis
  • 名词:hanzification(汉字化)
  • 形容词:hanzic(汉字的,与汉字有关的),hanzifible(可汉化的),hanzificated(经过汉字化的),hanziful(满是汉字的)
  • 动词:hanzify(汉字化)

The Hitchhiker’s Guide to the Galaxy·引章·四川话版

银河系西旋臂的尾巴尖尖是个点都不洋气的地方,那里有个名不见经传的落后星区,在这片星区的边远角落有一颗滴滴大的没得人关心的黄太阳。在这个太阳的相距九千二百万英里的轨道上盘旋着一颗完全不值一提的点点小的蓝绿色行星,上面那些猿猴进化来的生命形式原始得笑人,居然还觉得电子表洋气得很。
这颗行星有个问题,或者说曾经有个问题,那就是:上面生活的大多数人大多数时候都不开心。人们为这个问题提出了很多解决方案,但基本上都涉及到啷个移动一种绿的小纸飞飞。这就怪得很了,因为归根结底,不开心的又不是这些绿的小纸飞飞。
所以,问题还是问题;很多人都刻薄小气,而且大多数人都过得很恼火,甚至那些有电子表的也不例外。
很多人都越来越觉得他们一开始从树上下来就是个大错误。还有些人说甚至之前上树就不对,一开始都不应该离开海洋。
在某个男人因为说了句「大家改变下会好点」就被钉死在树上的大概两千年后的某个周四,有个妹仔一个人坐在里克曼斯沃思的一家小咖啡店里头,然后突然想到了一直以来到底是哪里整拐了,她终于晓得该啷个把这个世界变得美好又幸福。这一次,方法终于是想对了,也会起效果,而且没得人会被钉在什么东西上。
但是,悲剧的事发生了。她还没来得及打电话把这件事告诉别个任何人,就爆发了一个很傻戳戳的大灾难,这个想法也永远地折嘎了。
这个故事不是讲她的。
这个故事是要讲那个很傻戳戳的大灾难和它造成的一些后果。
这个故事也要讲一本书,一本叫做《顺风客漫游银河指南》的书。这本书不是地球的书,从没在地球上出版过,而且直到发生那场傻戳戳的大灾难时,也没有任何地球人见过或听过这本书。
虽然地球人不晓得,但是这本书那是不得了得很。
不扯靶子,这可能是小熊座那些伟大的出版社有史以来最不得了的书,虽然也没有哪个地球人听说过这些出版社。
这本书不仅不得了得很,而且还非常成功——比《空中家庭护理丛书》更受欢迎,比《零重力下还可以做的五十件事》卖得更好,也比柯乌龙的哲学爆款三部曲《上帝哪里搞拐了》、《上帝搞拐的另一些最大错事》和《上帝这家伙到底是哪个?》更惹争议。
在银河系东边外圈那些很多心态放得更宽的文明里,《顺风客漫游银河指南》已经取代了伟大的《银河百科全书》,成为了所有知识和智慧的标准参考库。尽管里头错漏很多,还包含很多胡编乱造的鬼扯或至少说点都不准的内容,但是它在两个重要方面比那部更古旧更呆板的著作强。
第一,它稍微便宜点;第二,它的封皮上用又大又友好的字体写着「莫慌」。
但是,这个讲那个恼火又傻戳戳的周四、那非同寻常的后果以及这些后果又和那本不得了的书哪扪东扯西扯搅到一起的故事其实一开始普通一般得很。
这个故事要从一座房子讲起。

关于「挖矿」的「mine」


「mine」用作动词时可表示挖掘出某种东西(比如矿石、信息),比如数据挖掘(data mining)是指在数据寻找信息。
「mining」也被用于指代比特币等数字货币产生新币以及验证交易的过程,这个过程涉及到求解复杂的数学难题,而且这些难题的答案往往具有随机性,因此这个过程既需要工作劳动,也要看运气,颇为类似于早期挖掘金矿的矿工。也因此,在这方面,「mining」常被译为「挖矿」,对应的「miner」则为「矿工」。
但我认为这样的直译并不妥当,一是可能造成误解(我认识的多个人都听说过比特币,但对挖矿这个词显然存在极大的误解),二是虽然较高的抽象层面上与「挖金矿」有类似之处,但「挖矿」这个汉语词本身无法体现这实际上是一个计算过程。
为此,我建议将这方面的「mine」译为「挖算」或「掘算」或「采算」。相应地,「miner」则为「挖算工」或「挖算人」或「挖算商」或「挖算公司」。

大数据与人工智能是否会摧毁民主?


本文译自 Scientific American 上的英文版,德文版见 Spektrum der Wissenschaft。作者:Dirk Helbing 、Bruno S. Frey 、Gerd Gigerenzer 、Ernst Hafen 、Michael Hagner 、Yvonne Hofstetter 、Jeroen van den Hoven 、Roberto V. Zicari 、Andrej Zwitter。2017 年 2 月 25 日。
「启蒙是人类远离自我强化的不成熟并从中崛起。不成熟是在没人引导时没有理解他人的能力。」
——伊曼努尔·康德《什么是启蒙?》(1784)


数字革命正在全面开花。这将如何改变我们的世界?我们产生的数据每年都会多一倍。换句话说:2016 年我们产生的数据与直到 2015 年的整个人类历史所产生的数据一样多。每一分钟,我们都会进行数十万次谷歌搜索,发布数十万条 Facebook 帖子。这些数据中包含着能揭示我们所思所感的信息。不久之后,我们周遭的事物(甚至包括我们的衣物)也都会连接到互联网上。据估计,10 年内将会有 1500 亿联网的测量传感器,比地球人口多 20 倍。届时,数据量每 12 小时就会翻番。很多公司已经在尝试用这样的「大数据(Big Data)」赚「大钱(Big Money)」了。

最高权限


春江的眼睛有些干涩,这是长时间盯着显示器所引发的症状,同时还伴随着屁股和背的酸痛。他在写一篇小说,一个关于幻想中的遥远行星上一对恋人相爱的故事——他纠结了很久,最后决定不指明这两个主角的性别。他想,或许爱情应该是不分性别的。

他看了一眼时间,已是 22:45,看起来时间比预期的要更快一些。他把脚伸进拖鞋,然后站起来准备去撒尿,然后洗澡。但一阵头晕目眩突然袭击了他,他意识到自己可能站起来的速度过快了,他试图扶住椅子,但双腿发软。他无力地倒在了地上。

接着便出现了巨大的轰鸣声,但那声音不是来自外界,春江感觉这声音就如同在自己耳中自然生成的一般,几乎将像是一阵幻觉。

然后他看见了一束光。


关于「图」

转自 ZeroNet:http://127.0.0.1:43110/1FoczfX4tQXssoZKaLtyfp5PJ1iMi4rYsE/?Post:25

在一些 AI 相关论文中,至少有四个英文词可以翻译成「图」,而且有的词的含义之间还存在重叠,这在很多时候会引起混淆,导致不必要的麻烦。下面给出四个词的辨析,以及我的一点看法(但不一定正确)。
  1. picture:可理解为图片、图像、影像等等,做名词时和 image 基本重叠。但很少看到 picture 用在技术名词词组中,比如「图像处理」是 image processing,而非 picture processing。所以通常译为「图片」。
  2. image:见上,通常译为「图像」,但在和医疗相关时会译为「影像」,比如「医疗影像」是 medical image。另外 image 可做动词,表示「成像」,比如「实时成像」是 real-time imaging。
  3. graph:可表示用图片展示的函数关系,也可表示变量之间的关系结构(参考图论)。在目前的很多译文中,graph 通常都被译为「图」,但如果这个图表示的是图像对象之间的关系,往往就会在这篇文章中产生混淆。所以我在想也许应该为 graph 提供一个新的译法。根据已被广泛接受的「知识图谱(knowledge graph)」,我想也许可以将 graph 的依法统一成「谱图」或「图谱」。
  4. map:将 map 翻译成「图」的地方主要是与 feature map(特征图)相关的概念。 feature map 可以理解成是将数据向量映射到特征空间的一个函数。基于这个概念,我觉得将其翻译成「映射图」会更为妥当。另外,map 做动词除了表示「映射」,也可表示「绘制地图」,比如 3D mapping 是指「三维地图测绘」。不过细想一下,绘制地图本身其实也是一种映射——将地理情况映射到地图上。