~/
the Crossroads
冲浪的同时也请来完成匿名小调查个人与互联网与存档 v0.1,谢谢!💫💥💥预计阅读/完成所需时间约为 6-11 分钟,虽然真的只有 9 个必填选择题(有无个站选项因此并不需要有个人网页才能填写 ;3)。

这里用于存放本站更新与其他相关收集;本站收集规则与浏览指引请见关于。部分失效链接可以在互联网档案馆中查询;可查询的网站标题后会标有 emoji 🏛。需要将网站存档至 *本地* 文件夹请使用 HTTrack。2025-1-31 失效链接整理已完成。如果有遇到其他情况和链接,请随时联系告知,感激不尽。

存档相关问题

  朋友们,请将目前的网络存档当作模型参考资料就行了。不用幻想它会帮你防爬“保护”你的数据和信息。

前面提到互联网是公共场所,以及对存档又支持又反对到底是什么意思?   我的理解是:所有人都能以某种方式访问并以不同方式保存在线资源。如果希望保密(而不是“公开但只是低流量,主要给朋友看”这种意图),我不会建议你上锁,也不会建议你加上登录限制。不要让重要的东西变成没有人能抓住的虚拟信息洪流碎片。毕竟有生成模型翻过了会员付费限制的案例,很难再相信爬虫或模型及其声明。以及是的,我既支持也反对,但此处提及的反对永远是针对“目前链接尚能访问的个人网站”和“公开存档”。虽然不支持邮件联系的我也会反对。
  ?……感觉移除内容的难度和要求上升了,那只能说我反对未经许可公开存档任何网站了(没有描述得这么绝对,但可能会询问更多可以验证“你在某个时间段是站长/账号所有者”的信息)。是存的内容更完整重要,还是创作者的意愿更重要?本人的互联网伦理观已灰飞烟灭。我将化身为反存档人士:请看见背后的人,而不是紧盯着网页内容。无法尊重作者的内容和存档还是请从我的眼前消失吧。
  但个人的完整论述依然支持失效链接公开存档,即等到链接失效后再公开(类似每次爬取时正好能确认站点状态……无法访问则选择公开之前爬取的内容),前提是留有畅通的联系方式。先斩后奏(其实没有“奏”的部分)二次公开上传内容本就匪夷所思,并且存档也不会另注作者和共享协议(网页内自带的描述是内容的一部分,而不是分享时的说明)。即使只是每次存档都附上对应说明,也比现在更好接受得多。更完整的历史记录与研究,真的反而不需要人,作为被研究主体,的参与和知情吗……我还是希望能有其他的选择。
  小结:希望能给存档更完整的背景(例如作者和协议,以及大致分类:是否为个人站、是虚构创作还是含有更隐私的个人内容),以及让人本身参与进来,而不是等着被陌生人/爬虫存档,甚至根本不知道世界上有这么一回事。人和站点既是被记录的客体,更是自我记录的主体。虽然有那么一部分的我比较想把所有十年五年没动静的站全部在服务宣布下线之际存进去;但如同上述,目前要以某种方式证明自己“曾经”“掌握”已经失效的账号或页面可能会更困难,更别提没有英语以外的语言支持,所以,这或许并不是最合适的方式,也不是我真正想去实现的事情(指把别人的东西二次上传到他们无法便捷联系的平台中)。并且从个人角度而言,某个站消失了,你和我总有下一个可以看,纠结这些当事人可能永远也不知情或在意的事情有必要吗?很遗憾但我从来不寻求意义;必要性和意义感有时像是说服力最弱的借口。

再提炼一下就是:不去假设所有人都非常乐意(或不在意)见到自己的个人内容被存档。不同存档团队的”保存历史“理由若是放在新闻、教育、学术和政府与其他机构团体内容存档上会更适用,而针对”个人“应当保留更多的灵活度(即上述所言)。譬如本人的不同收集信息用个站实际希望有不同的发布方式,某些希望能有限地记录发展过程,某些则只希望在基本完成调整后再进行”存档“,并且具体说明会指向作者何人和共享方式在这些站上不重要。

这个站被存档了!   是的。对于一些我无法限制的公开场所我只会放 cloudflare 的链接。应该是其他网站允许爬也没有 nofollow,所以这里也被 save page now outlinked 了,这也是我希望友链能全部统一 nofollow 的原因之一。但是请注意我暂时不会要求任何人撤下对本站的公开存档,除非其他人的链接被存了进去,例如冲浪/烧烤/沙滩页、列表 txt 和 js 以及相关图片素材,且不包括其他目录和参考链接。虽然不太清楚目前对方为何如此精准地避开了所有收录链接页面。 当然来源也包括其他爬虫不只是 outlink。你问所有我们写的这些 noindex 等等请求真的一点用都没有吗?某种意义上是的。
  我是希望互联网存档历史上能有除开技术/日常/其他学术资源以外的中文个站的身影,只是没有实际链接的记录,光存档本站也不见得有太多实际价值。但考虑到图片会被下载,所以可能可以折衷将文本截图,再借由对方爬虫保存图片,而不是存下会被 follow 或直接访问的文字链接。这时候有人就要问了,图片也能 OCR 直接就爬我链接了那怎么办?只要是个完整链接就理应能(会)被机器人访问,无论是以什么方式“保护/保存”,请放心这是无法规避的。爬虫从本站直接爬,比从截图里访问肯定概率大得多吧。我存在,故我被爬。
  研究发现截图还是太占空间,有点本末倒置了。还是退回到文本中,爬取 txt 或 js 还是能接受,毕竟不是直接链接。页面布局还是按照惯例以自行截图 dither 的方式存档。只是一旦所有人图片或者链接因此被爬了的话感觉还是有点尴尬,虽然单从结果上来看不是什么大事(都只是 banner 或者小图标一类;outlink 一般也仅追踪到首页或着陆页)。

  4/24:页面已被 outlink 捕获。因为日期不同所以好奇到底是哪边的链接指向此处。

  4/29:js 列表已被 save page now。虽然不介意(不如说是无法在意而不是“不在意”)被存但前提姑且是无论如何请先联系。联系并不是一件难于上青天的事情。我无法也无意阻止你,但只要和我打个招呼,这个性质就会变化。
:查询今年我对万维网无法联系的陌生访客的信赖值
返回值:null
:啊太好了,一点没变

其实其他站也被存档了。   正在联系对方。以及,如果你不希望自己的链接出现在我站的某些地方(加上十字路口,此处公开了总共 6 个站点),也请随时告诉我。并不是有意将他人的任何个人内容统合以收获流量或者有什么其他意图。毕竟我的主站也从未出现在这里。一直希望能带来的是人和站的直接联系,而不是借由第三方(eg. 搜索引擎爬虫存档)传播。光是凭借不同站的友链便能一直探索下去,而不会停滞在某处。
  3/25:已完成。如果是要撤下当前还在使用的账号/页面应该也还好,多了一些步骤,并且会验证来信与站点信息上所写的是否为相同的邮箱。说实话这边几个站点都是收藏形式的目录,无所谓存,但为什么非要正好存那个胡言乱语的部分而没有存整理信息的页面,我真的xsajkfq2j3heikehrj23i$O*#$UF。
其他存档?   Internet Archive 有很多有趣的资源所以我会在这里分享。其他单纯搜刮/截图页面并公开存档的工具不会在此处放出(是的有很多;你无法得知自己是否被某些人在某些地方公开存档了)。有想留着的东西请本地保留,谢绝未经许可二次上传别人的网页,感谢配合。
开源平台 *不适合* 放不开源的内容   很多这些平台都是各存档团队/项目的长期关注对象,并且仓库内容会被打包存档,可能也会被整理成数据集供大模型训练。并且默认使用 FOSS 或类似协议的平台,依据不同组织对 FOSS/FLOSS 的定义,在这些平台上发布的“内容”,通常指“代码”,是可供他人商业使用的。不好意思我也没看使用条款正在恶补中……或许会把不同平台的相关说明整理出来放在某处方便查询……但还是提醒各位这个站点最初,以及目前,仍然更多地只是为个人整理所用;我无法否认它作为某种虚拟公共空间已经开始产生了某些“意义感”或是影响。i hope i have asked something that you have never thought of before, or at least not that carefully or thoroughly, and that it will keep lingering in your mind.
  整理于 这个页面。开源平台不适合放不开源,例如任何 cc-by-nd 或 nc,的内容。如果真的要用,请一定在根目录下的 LICENSE 文件中声明(文件命名不是重点)。

总结?
  认知与价值冲突上的问题,例如是否或如何存档个人网页,抑或是此举在哪些情境下是否恰当/合理,或是如何更好地告知/宣传,不应该也不会有固定的解答。尝试寻求答案的过程本身即为答案。很欢迎访客分享感受,但个人观点/意见/建议(任何类型的重新下定义诠释)就不必了,无论是邮件还是私信评论。总有人会产生你我曾经的想法……而情感体验无法再现。

更新日志 · 意识流

2026-01-02T22:46
  • 给换了个新字体,感觉还行
2026-01-01T00:00
  • 替换了一个被删除的链接(然而实际上应该每次变动都完全记录,所以现在的数字顶多是“当前”状态的体现,而不能展示至今的数据;怎么感觉好像有点违背某种 longevity 长久留存的理念了)
  • 烧烤 已更新

公告存档

四位数感谢!(2024-11)

  😌感谢关注和支持,现在任何人都有实在的数据证明有个站的中文 oc 人/创作者实在是太多了,并且这些链接只是公开/可搜索的其中一部分。不为人知 我还看不到的地方一定也隐藏着许多其他的世界。请不要轻易假设自己想象不到的东西”不存在“,这是我的个人收获。搜索贡献 MVP:谷歌/脸书/必应。主动搜索无限期暂停;加入/删除/修改链接及其他联系需求请直接发送邮件。

hi i have proved that there are way too many oc/other original work sites written in chinese and this is only a part of it, and i hereby free myself from this labour of manual searching. MVP: google/facebook/bing; and thank you all for checking this place out

站点标题语言收集

以不同语言书写的“十字路口”,释义以:十字路口 / the crossroads / le carrefour 为准。每次遇到推广不同语言的博客个站目录就会新增语种;这些目录列表见下 其他个站收集 或请见 void 首页底部。

  • js 文件在 title_lang.js,js 设计来自 Þe Satyrs’ Foreſt,站点内容与代码授权为 CC0 1.0。每次点击刷新 / 加入了语言属性。
  • 第二个 js 文件在 morph.js,js / svg / css 设计来自 Paloma Kop,站点内容与代码授权为 CC BY-NC-SA 4.0。按顺序变换文字内容。利用 absolute 确保前后文本位置,因此要调整位置的话可能有点棘手。

目前的收集:

  1. br 布列塔尼语,12 字符 / masc:ar Kroashent
  2. cs 捷克语,13 字符 / fem:ta Křižovatka
  3. cy 威尔士语,13 字符 / fem:y Croesffordd
  4. de 德语,14 字符 / masc:der Scheideweg
  5. es 西语,14 字符 / fem:la Encrucijada
  6. en 英语,14 字符 / ~:the Crossroads
  7. fr 法语,12 字符 / masc:le Carrefour
  8. ga 爱尔兰语,14 字符 / masc:an Crosbhóthar
  9. gd 苏格兰盖尔语,16 字符 / fem:am Crois-rathaid
  10. gv 曼岛语,16 字符 / fem:yn Kiare Raaidyn
  11. jp 日语,3 字符 / ~:十字路
  12. ko 韩语,3 字符 / ~:교차로
  13. kw 康沃尔语,13 字符 / fem:an Krowsfordh
  14. pt 葡语,14 字符 / fem:a Encruzilhada
  15. ru 俄语,11 字符 / masc:Перекрёсток

其他个站收集

其他语言的综合向的博客或创作个站目录集中在 void 首页底部。

其他语言的 noindex 一次创作个站目录,目前包括日语个站目录。

不同主题的英语 OC/世界观个站目录:
  • zoranadragon.neocities.org/more/oc-webring(~个位数)
  • http://neocreatives.byethost5.com/directory.php?tags%5B%5D=OCs-%26-worldbuilding&method=and 和 http://neocreatives.byethost5.com/directory.php?tags%5B%5D=OCs-%26-worldbuilding&method=and&page=2(分别为首页和次页;两位数)
  • mizuki.world/originalhearts/(~两位数)
  • sidhedustgrotto.neocities.org/Webring/Home(~两位数)
  • oc-webring.neocities.org (~两位数)
其他类型的中文博客:
  • www.travellings.cn(开往友链接力!~1165)
  • www.foreverblog.cn(十年之约 ~四位数)
  • zhblogs.ohyee.cc(中文博客列表导航项目 ~3220)
  • bf.zzxworld.com/p/about(BlogFinder ~900)
  • http://www.jetli.com.cn(优秀个人独立博客导航 [十八年] ~114)
  • github.com/timqian/chinese-independent-blogs(中文独立博客列表 ~两三位数)
  • icp.gov.moe/aboutus.php(萌国 ICP 备案 ~四位数)
  • www.blogsclub.org(BlogsClub 个人博客俱乐部 ~184)
  • blogscn.fun/about.html(Blogs·CN ~185)
  • storeweb.cn(个站商店 ~694)
  • boringbay.com(无聊湾 ~70)
  • www.boyouquan.com(博友圈 ~775)
  • blogwe.com(BlogWe ~282)
  • ourblo.gs(OurBlogs ~两位数)
  • docs.jiuchan.org(揪蝉 ~???)
  • blogtalk.org/home(博客说 ~117)
  • discoveryinsights.site(独立博客推荐 - Discovery Insights ~两位数)
  • rssblog.cn(RSSBlog ~两位数)
  • www.langhai.net(浪海导航 - 收录各种类型的博客以及论坛网站 ~???)
  • www.zhblogs.net(集博栈 原中文博客列表导航 尝试链接几乎所有的中文博客 ~4102)
一些常见的中文博客集合;我认为各类创作/设定世界观相关个站完全能(做到)与之并肩(的程度)。数字或位数是记录在此处时的大致个站数量(级)。不包括部分企业建立的商业化网盟。可能含有模型生成内容或其他。

流量监测

  一周年起的每个 3 月 30 日会收集 Cloudflare 提供的 30 日内访问数据,仅限 *.pages.dev。大概是包含了各类爬虫访问在内,因此可以假设我和爬虫每天访问页面共 100 次,每 7 天完全清空缓存 3 次(数据来源:我编的)。请求次数:如果没有理解错,应该是一份资源就算请求一次,比如页面 html 一次、所有 css/js 分别一次、所有图片分别一次(因为目前全部存在本地因此一个文件就是一次)。

2025-03-30
请求次数:14.3k 带宽消耗 195.64 MB 访问次数 1.95k 页面浏览 5.66k
以下是前六名地区请求和带宽:
香港 5.41k 35.82 MB
  美国 4.03k 66.98 MB
    日本 1.7k 57.95 MB
      中国大陆 810 8.65 MB
        德国 490 6.32 MB
          法国 320 3.75 MB