Starting from the "Scam Links" on Bilibili

想法来源
观看二叉树树的视频【B站评论惊现诈骗链接！！！这是怎么做的？？？？】后，想要更深入地了解这个现象，从而有了这期博客。

引言：关于“诈骗链接”#

在浏览 BiliBili 评论区时，常会发现 B 站的视频链接以标题的形式显现，如下图：

但会遇到点击的视频标题与跳转到的视频页标题不一致的现象，也就是我们所说的诈骗链接。具体情形可以从二叉树树的视频中看到。

他也给出了制作这样的“诈骗链接”的方法：

模板：https://www.bilibili.com/video/BV_X/../BV_Y
BV_X 替换为显示标题的 BV 号，BV_Y 替换为跳转的 BV 号
使用任意B站短链接生成器（例如：B站短链接生成工具）生成短链接（符合^https://b23\.tv/[A-Za-z0-9]{7}$），并发布于B站评论区

以及漏洞的剖析：前端在渲染链接时，读取第一个合法 BV 号获取标题，在这里就是 BV_X 对应的标题，而点击会去跳转到原始的 url（包含/../），从而实际跳转到 https://www.bilibili.com/video/BV_Y。

这样的解释固然合乎道理，但于我而言，我还想要了解更多——为什么会造成这样的结果呢？

下文就记录了我的一些探索的所得。

📺关于 B 站评论区链接的渲染#

据我观察，在B站发布评论时，输入文本是 B 站相关链接 则会被渲染为超链接；其中，若链接指向的是某个 B 站视频，则会被渲染为对应视频标题。当然，B站评论区还会存在其他类型的超链接，比如：跳转站外的蓝链(广告…)、BV号、av号、@用户昵称 …… 而其中BV号、av号等也会替换为其对应的title进行超链接的渲染。

总结该现象：

有的链接直接显示原始 URL；
有的链接显示成更友好的标题（例如视频标题）；
同一条评论里，可能两种显示方式同时出现。

从根本来说，前端 HTML 中，创建超链接通过 <a>标签实现，这里同样如此。问题在于：如何确认评论中某段文本是超链接？超链接的url如何得来？以及，如何确认渲染内容不是url而是对应视频标题？该视频标题如何得来？

观察网络请求，或查看文档可得：

GET 请求 https://api.bilibili.com/x/v2/reply/wbi/main 懒加载获取评论区明细
评论主体通常在 content 中，常见字段包括：
- message：用户输入的原始文本；
- jump_url：可跳转片段的映射表（键通常是某个可识别 token，如 BV...）；
- members：@用户 的映射；
- emote：表情映射；
- pictures: 图片映射；
一个典型的 jump_url 结构是：
```
1
{
2
  "BV12ecbz1EUZ": {
3
    "title": "【Seedance 2.0】星野露比也要跳蕾塞舞ヾ(≧▽≦*)o",
4
    "state": 0,
5
    ...
6
  },
7
  "BV1fscqz9EHs": {
8
    "title": "【Seedance 2.0】伊什塔尔-蕾塞舞★彡",
9
    "state": 0,
10
    ...
11
  }
12
}
```
注意：jump_url 的 key 是否与文本切片后的内容“精确一致”，决定了能否显示标题。

简单地浏览B站前端关于comment的js代码，对于整体渲染的流程应该可以概括为 4 步：

参照：bili-comments.e0090ab8af.js

拉取评论数据
前端请求评论接口，得到 replies 列表及每条 content。
文本解析为富文本节点
核心解析函数会把 message 切成片段，并生成节点数组（例如 span、a、img）。

节点渲染为 HTML
富文本组件把节点数组转换成真实 DOM，例如：

<a href="..." data-type="link">...</a>
<span>...</span>

1
Hv = function (t, e, n, i, r) {
2
 return {
3
     tag: "a",
4
     style: i,
5
     dataset: r || {
6
         type: "link"
7
     },
8
     a: {
9
         text: uv(e || "网页链接"),
10
         href: t,
11
         icon: n,
12
         target: "_blank"
13
     }
14
  }
15
}

上述是源码中构造链接节点的一个逻辑，可见：超链接在数据层就是一个 tag: "a" 节点，dataset.type 默认是 link。

点击事件分流
点击链接后，根据 data-type（link/search/goods/seek 等）执行不同逻辑和埋点。

而其中最关键的机制是：

先“切片”，再“按片段匹配 jump_url”#

1. 先做分片#

解析器会按照多类规则切片，包括但不限于：

URL（白名单/正则）；
AV/BV/CV/EP/SS；
@用户名；
时间点（如 01:23）；
普通文本；
…

源码中有这样的一些正则匹配（已添加注释）：

1
// 匹配B站AV号：匹配以AV/av/Av/aV开头，后面跟一串数字的格式（如AV123456、av7890）
2
p = new RegExp("(AV|av|Av|aV)[0-9]+", "ug"),
3

4
// 匹配B站BV号：B站视频的新标识符，规则是BV/bv/Bv/bV开头，
5
// 接着是1，然后跟9个字符（范围：1-9、A-N、P-Z、a-k、m-z，排除了O和l等易混淆字符）
6
f = new RegExp("(BV|bv|Bv|bV)1[1-9A-NP-Za-km-z]{9}", "ug"),
7

8
// 匹配B站CV号/专栏移动端链接：
9
// 第一种：CV/cv开头+数字（如CV12345）；第二种：mobile/开头+数字（移动端专栏链接）
10
m = new RegExp("((CV|cv)[0-9]+|(mobile/[0-9]+))", "ug"),
11

12
// 匹配B站EP号：番剧的剧集编号，EP/ep/Ep/eP开头+数字（如EP12、ep34）
13
y = new RegExp("(EP|ep|Ep|eP)[0-9]+", "ug"),
14

15
// 匹配B站SS号：番剧的季度编号，SS/ss/Ss/sS开头+数字（如SS1、ss2）
16
b = new RegExp("(SS|ss|Ss|sS)[0-9]+", "ug"),
17

18
// 匹配中括号包裹的任意Unicode字符：
19
// 匹配[]内包含的所有合法Unicode字符（涵盖基本多文种平面和扩展平面字符），
20
// 包括常见字符、emoji、生僻字等，是B站评论区常见的内容包裹格式
21
w = /\[(?:[\0-'\+-Z\\\^-\uD7FF\uE000-\uFFFF]|[\uD800-\uDBFF][\uDC00-\uDFFF]|[\uD800-\uDBFF](?![\uDC00-\uDFFF])|(?:[^\uD800-\uDBFF]|^)[\uDC00-\uDFFF])+\]/g,
22

23
// 匹配B站及相关域名：
24
// 包含bilibili主域名（com/tv/cn）、衍生域名（esheep、biligame、b23.tv等）、
25
// 合作/关联域名（苏宁sugs、人民网、考拉、央视等），$v和Gv是外部变量（可能是协议/参数前缀）
26
x = new RegExp("".concat($v, "?([a-z0-9A-Z-]{1,15}.)?(bilibili\\.(com|tv|cn)|esheep\\.(com|cn|net)|biligame\\.(com|cn|net)|(bilibiliyoo|im9)\\.com|biliapi\\.net|b23\\.tv|bili22\\.cn|bili33\\.cn|bili23\\.cn|bili2233\\.cn|(sugs\\.suning\\.com)|jueze2021\\.peopleapp\\.com|kaola\\.com|bigfun\\.cn|mcbbs\\.net|mp\\.weixin\\.qq\\.com|static\\.cdsb\\.com|bjnews\\.com\\.cn|720yun\\.com|\\.cctv\\.com)($|/|)").concat(Gv), "ug"),
27

28
// 匹配B站视频链接：
29
// 包含bilibili主站/video路径、b23.tv等短链接，匹配AV号或BV号格式的视频链接
30
k = new RegExp("".concat($v, "?(((uat-)?www\\.bilibili\\.com)|(b23\\.tv|bili22\\.cn|bili33\\.cn|bili23\\.cn|bili2233\\.cn))(/video)?/((av[0-9]+)|((BV)1[1-9A-NP-Za-km-z]{9}))($|/|)").concat(Gv), "ug"),
31

32
// 匹配B站番剧播放链接：
33
// 包含bangumi/play路径，匹配EP号或SS号的番剧播放链接
34
A = new RegExp("".concat($v, "?(((uat-)?www\\.bilibili\\.com/bangumi/(play/|media/)|(b23\\.tv|bili22\\.cn|bili33\\.cn|bili23\\.cn|bili2233.cn)/)(ss|ep)[0-9]+)($|/|)").concat(Gv), "ug"),
35

36
// 匹配B站专栏/文章链接：
37
// 包含read路径，匹配CV号、native?id、app/、mobile/等格式的专栏链接
38
_ = new RegExp("".concat($v, "?(uat-)?www\\.bilibili\\.com/read/((cv[0-9]+)|(native?id=[0-9]+)|(app/[0-9]+)|(native/[0-9]+)|(mobile/[0-9]+))($|/|)").concat(Gv), "ug"),
39

40
// 匹配时间戳格式：
41
// 支持 数字#数字:数字:数字（如1#12:34:56）、数字:数字:数字（如12:34:56）、数字：数字：数字（中文冒号）
42
// 最少匹配 数字:数字:数字（如1:2:3），是视频评论区常见的时间点格式
43
E = /(\d+#)?(\d+(:|：)){1,2}\d\d/g

2. 对每个“候选片段”再检查 `jump_url`#

命中 jump_url[片段]：用对应信息组装链接节点；
未命中：走默认链接逻辑（通常保留原文本显示）

3. 标题显示规则#

当命中 jump_url 时，显示文案通常是：

title || 原片段文本

即：有标题就显示标题，否则退回原文本。

这个应该是 jump_url 命中后的标题选择的函数：

1
L = function (t, e) {
2
    var r = e.pc_url
3
       , o = e.app_url_schema
4
       , a = e.title
5
       , s = e.prefix_icon
6
       , l = e.match_once
7
       , c = e.icon_position
8
       , u = e.extra;
9
    if (l && N[t])
10
       return Wv(t);
11
    N[t] = !0;
12
    var d = 1 === c
13
       , h = "";
14
    if (r ? h = dv(r) : (C(x),
15
       x.test(t) ? (h = dv(t, !0),
16
          i && (C(k),
17
             k.test(h) && (h = Mv(h, i)))) : (C(f),
18
                C(p),
19
                C(m),
20
                f.test(t) ? (h = Ch({
21
                   bvid: t
22
                }),
23
                   i && (h = Mv(h, i))) : p.test(t) ? (h = Ch({
24
                      avid: Eu(t)
25
                   }),
26
                      i && (h = Mv(h, i))) : m.test(t) ? (h = Th(Eu(t)),
27
                         i && (h = Mv(h, i))) : h = function (t) {
28
                            if (t.startsWith("http")) {
29
                               var e = t.match(/www.bilibili.com\/h5\/note-app\/view\?cvid=(\d+)/);
30
                               return null != e && e[1] ? Th(e[1]) : t
31
                            }
32
                            return ""
33
                         }(t))),
34
       !h)
35
       return Wv(t);
36
    var y = a || t
37
       , b = ""
38
       , g = !1
39
       , w = "";
40
    (null != u && u.goods_item_id || null != u && u.goods_prefetched_cache) && (g = !0,
41
       null != u && u.goods_pc_click_urls && Array.isArray(u.goods_pc_click_urls) && (w = u.goods_pc_click_urls.join(",")),
42
       C(x),
43
       x.test(t) && (b = t));
44
    var A = g ? {
45
       type: "goods",
46
       "goods-url": w,
47
       "raw-url": b
48
    } : null != u && u.is_word_search ? {
49
       type: "search",
50
       keyword: uv(y)
51
    } : {
52
       type: "link"
53
    };
54
    return n === Uf.DESKTOP_APP ? A = v(v({}, A), {}, {
55
       link: h
56
    }) : n === Uf.MOBILE_BROWSER && o && (A = v(v({}, A), {}, {
57
       link: o
58
    })),
59
       Hv(h, y, s, d ? {
60
          display: "inline-flex",
61
          "flex-direction": "row-reverse",
62
          "--icon-width": "0.65em",
63
          "--icon-height": "1.2em"
64
       } : {
65
          "--icon-width": "1.2em",
66
          "--icon-height": "1.2em"
67
       }, A)
68
 }

简化并语义化后，关键逻辑如下：

1
var L = function (token, config) {
2
   var title = config.title
3
   // ...省略 url 解析
4
   var renderText = title || token
5
   return Hv(resolvedHref, renderText, prefixIcon, style, dataset)
6
}

可见：命中时明确是 title || token，也就是“有标题显示标题、否则显示原片段文本”。

案例#

上述的论述仍有不足之处，但能够分析出我们这一小节最开始的问题。就拿我们上面的截图作为案例：

message是：

1
https://bilibili.com/video/BV12ecbz1EUZ/../../opus/1035673329881579520/../../video/BV1fscqz9EHs/

并且 jump_url 里有两个键并有对应的标题：
- BV12ecbz1EUZ
- BV1fscqz9EHs

最终渲染应该是：

第一段显示原始 URL 链接：https://bilibili.com/video/BV12ecbz1EUZ/
中间 ../../opus/.../../../video/ 显示为普通文本
第二段 BV1fscqz9EHs 显示为标题链接

与我们的实际渲染相符：

在这里为什么第一个 BV号 没有替换 title，是 jump_url 失效了吗？不然，是切片结果不同：

前半段先被识别为一个 URL 片段，片段文本是完整 URL，不是 BV12... 本身；
jump_url 的 key 是 BV12...，与该 URL 片段不精确相等，因此无法直接命中；
后半段在后续分片中切出了独立 token：BV1f...，这时与 jump_url 的 key 精确匹配，所以能替换成标题。

还有类似这样的： example_2

message: “https://www.bilibili.com/video/BV1fscqz9EHs/../BV12ecbz1EUZav116057901629925cv1035673329881579520”
jump_url 仅有一个：
- https://www.bilibili.com/video/BV1fscqz9EHs/../BV12ecbz1EUZav116057901629925cv1035673329881579520: {title: "【Seedance 2.0】伊什塔尔-蕾塞舞★彡", state: 0,…}

为什么没有渲染标题，就是”切片“后的无法精准匹配 jump_url 的键。当然，jump_url的计算是后端服务进行的操作，所以问题应该是后端并不是按前端切片后的数据进行 jump_url 的计算，而自有一套算jump_url的方法。而若要提高渲染 jump_url 为标题的“~~命中率~~”(:不知道这样说是否合理:)，后端的 jump_url 计算方法就必须更改，比如按照前端同样的逻辑先对消息进行分片后处理是否有要显示 title 的链接，或者前后端这一块的逻辑代码一起重构以互相匹配。

那么，回到疑问：如何确认评论中某段文本是超链接？超链接的url如何得来？以及，如何确认渲染内容不是url而是对应视频标题？该视频标题如何得来？

通过各种正则匹配
输入的是全的链接自然是全的，而若是 BV 号，av 号等由于其 url 的规律性，自然可以拼接得到
通过后端传来的数据，核心是 jump_url 的键值对

同样，B站短链是按照上述流程被渲染，如若能够匹配 jump_url 也就会被渲染为 title 的形式；而若跳转的视频标题与其不同，就造成“诈骗”；可以见得，问题就出现在这个 jump_url 计算出的 title 出错了，即：对于改模板的 url https://www.bilibili.com/video/BV_X/../BV_Y 计算出的 title 是 BV_X 的标题。

补充：流程图与对应代码锚点#

解析入口（qv）

1
function qv(t, e, n, i) {
2
   var a = t.content
3
   var s = a.message, l = a.emote, c = a.members, u = a.jump_url, d = a.vote
4
   // ... 分片与节点构造
5
}

命中 jump_url 时优先走 L()

1
var M = Vf(function (token) {
2
   return null != u && u[token] ? L(token, u[token]) : Hv(Sh(token), token)
3
}, ...)

渲染层将节点数组变成 HTML

1
setContents(nodes) {
2
   const html = nodes.map(/* node -> html */).join("")
3
   this.contents.innerHTML = html
4
}

点击事件基于 dataset 分流

1
this.disposables.addEventListener(this.contentsElement, "click", function (e) {
2
   var n = v({}, e.target.dataset)
3
   t.dispatchEvent(new CustomEvent("text-click", { detail: n }))
4
})

🔗浅谈短链接#

在说明为什么 https://www.bilibili.com/video/BV_X/../BV_Y 跳转到的是 BV_Y 之前，先来简单了解一下短链接技术。

简述#

短链接是一种 URL 缩短技术，通过重定向将较长的原始链接映射到简短的地址。当用户访问短链接时，服务端返回 301/302 状态码，并在 Location 响应头中携带真实目标地址，浏览器随即跳转。

例如，以下这个冗长的 B 站链接：

1
https://www.bilibili.com/video/BV12ecbz1EUZ/?spm_id_from=333.999.0.0&vd_source=xxx...

可以缩短为：https://b23.tv/X8QkDCP

上图是短链接请求的结果，可见其核心是一次 302 重定向，Location 字段即为原始的长地址。

简单的说，短链接服务就是一个键值对数据库加上一个重定向服务器。核心为两个过程：

生成时：你将一个长链接（如 https://www.example.com/very/long/path?with=many&parameters）提交给服务，它返回一个短码（如 abc123），并在数据库中记录 短码 -> 长链接 的映射。
访问时：当用户点击 https://short.url/abc123，短链接服务器接收到请求，根据 abc123 查到对应的长链接，然后向浏览器返回一个 HTTP 301（永久重定向）或 302（临时重定向） 响应，其中 Location 头部就是那个原始长链接。浏览器收到后，会自动跳转过去。

`b23.tv` 短链生成#

我们可以通过第三方的 B站短链接生成工具来使用哔哩哔哩的短码服务，当然也可以通过 B站的API 生成 b23.tv 短链，这里给出一个脚本代码：

1
"""
2
b23_generator.py - Bilibili b23.tv 短链生成工具
3

4
基于B站 API实现：
5
接口：https://api.bilibili.com/x/share/click
6
方法：POST
7
功能：为视频、动态、专栏、文集、用户、课程、站内链接生成短链
8
"""
9

10
import requests
11
import json
12
import re
13
import sys
14
from typing import Optional, Dict, Any, Union
15

16
class B23Generator:
17
    """B站短链生成器"""
18

19
    # API 端点
20
    API_URL = "https://api.bilibili.com/x/share/click"
21

22
    # 不同类型内容的参数映射表（基于文档）
23
    TYPE_MAP = {
24
        "video": {
25
            "share_id": "main.ugc-video-detail.0.0.pv",
26
            "share_origin": "",
27
            "description": "视频"
28
        },
29
        "dynamic": {
30
            "share_id": "dt.dt-detail.0.0.pv",
31
            "share_origin": "dynamic",
32
            "description": "动态/图文"
33
        },
34
        "article": {
35
            "share_id": "read.column-detail.roof.8.click",
36
            "share_origin": "",
37
            "description": "专栏"
38
        },
39
        "collection": {
40
            "share_id": "read.column-readlist.share.0.click",
41
            "share_origin": "",
42
            "description": "文集"
43
        },
44
        "user": {
45
            "share_id": "main.space-total.more.0.click",
46
            "share_origin": "",
47
            "description": "用户空间"
48
        },
49
        "course": {
50
            "share_id": "pugv.pugv-video-detail.0.0.pv",
51
            "share_origin": "vinfo_player",
52
            "description": "课程"
53
        },
54
        "link": {
55
            "share_id": "public.webview.0.0.pv",
56
            "share_origin": "",
57
            "description": "站内链接"
58
        }
59
    }
60

61
    def __init__(self, buvid: str = "b23_generator", build: int = 7710300, platform: str = "linux"):
62
        self.buvid = buvid
63
        self.build = build
64
        self.platform = platform
65

66
    def _post_request(self, data: Dict[str, Any]) -> Optional[str]:
67
        headers = {
68
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
69
            "Content-Type": "application/x-www-form-urlencoded"
70
        }
71
        try:
72
            response = requests.post(self.API_URL, data=data, headers=headers, timeout=10)
73
            response.raise_for_status()
74
            result = response.json()
75
            if result.get("code") == 0 and result.get("data", {}).get("content"):
76
                content = result["data"]["content"]
77
                short_url_match = re.search(r'(https?://b23\.tv/[^\s]+)', content)
78
                if short_url_match:
79
                    return short_url_match.group(1)
80
                return content
81
            else:
82
                print(f"API返回错误: {result}")
83
                return None
84
        except Exception as e:
85
            print(f"请求失败: {e}")
86
            return None
87

88
    def generate_video(self, oid: Union[int, str]) -> Optional[str]:
89
        if isinstance(oid, str) and oid.startswith(('BV', 'bv')):
90
            print("注意：请传入AV号数字（aid），而非BV号")
91
            return None
92
        data = {
93
            "buvid": self.buvid,
94
            "build": self.build,
95
            "platform": self.platform,
96
            "share_channel": "COPY",
97
            "share_mode": 4,
98
            "share_id": self.TYPE_MAP["video"]["share_id"],
99
            "oid": int(oid)
100
        }
101
        print(f"正在为视频 (aid={oid}) 生成短链...")
102
        return self._post_request(data)
103

104
    def generate_dynamic(self, dynamic_id: int) -> Optional[str]:
105
        data = {
106
            "buvid": self.buvid,
107
            "build": self.build,
108
            "platform": self.platform,
109
            "share_channel": "COPY",
110
            "share_mode": 4,
111
            "share_id": self.TYPE_MAP["dynamic"]["share_id"],
112
            "share_origin": self.TYPE_MAP["dynamic"]["share_origin"],
113
            "oid": dynamic_id
114
        }
115
        print(f"正在为动态 (id={dynamic_id}) 生成短链...")
116
        return self._post_request(data)
117

118
    def generate_article(self, cvid: int) -> Optional[str]:
119
        data = {
120
            "buvid": self.buvid,
121
            "build": self.build,
122
            "platform": self.platform,
123
            "share_channel": "COPY",
124
            "share_mode": 4,
125
            "share_id": self.TYPE_MAP["article"]["share_id"],
126
            "oid": cvid
127
        }
128
        print(f"正在为专栏 (cvid={cvid}) 生成短链...")
129
        return self._post_request(data)
130

131
    def generate_collection(self, rlid: int) -> Optional[str]:
132
        data = {
133
            "buvid": self.buvid,
134
            "build": self.build,
135
            "platform": self.platform,
136
            "share_channel": "COPY",
137
            "share_mode": 4,
138
            "share_id": self.TYPE_MAP["collection"]["share_id"],
139
            "oid": rlid
140
        }
141
        print(f"正在为文集 (rlid={rlid}) 生成短链...")
142
        return self._post_request(data)
143

144
    def generate_user(self, mid: int) -> Optional[str]:
145
        data = {
146
            "buvid": self.buvid,
147
            "build": self.build,
148
            "platform": self.platform,
149
            "share_channel": "COPY",
150
            "share_mode": 4,
151
            "share_id": self.TYPE_MAP["user"]["share_id"],
152
            "oid": mid
153
        }
154
        print(f"正在为用户空间 (mid={mid}) 生成短链...")
155
        return self._post_request(data)
156

157
    def generate_course(self, course_id: int, origin: str = "vinfo_player") -> Optional[str]:
158
        data = {
159
            "buvid": self.buvid,
160
            "build": self.build,
161
            "platform": self.platform,
162
            "share_channel": "COPY",
163
            "share_mode": 4,
164
            "share_id": self.TYPE_MAP["course"]["share_id"],
165
            "share_origin": origin,
166
            "oid": course_id
167
        }
168
        print(f"正在为课程 (id={course_id}) 生成短链...")
169
        return self._post_request(data)
170

171
    def generate_link(self, url: str) -> Optional[str]:
172
        if not re.match(r'^https?://([\w-]+\.)*bilibili\.com/', url):
173
            print("错误：仅支持 bilibili.com 域名下的站内链接")
174
            return None
175
        data = {
176
            "buvid": self.buvid,
177
            "build": self.build,
178
            "platform": self.platform,
179
            "share_channel": "COPY",
180
            "share_mode": 4,
181
            "share_id": self.TYPE_MAP["link"]["share_id"],
182
            "oid": url
183
        }
184
        print(f"正在为站内链接生成短链: {url}")
185
        return self._post_request(data)
186

187

188
def main():
189
    """命令行入口"""
190
    import argparse
191
    parser = argparse.ArgumentParser(
192
        description="Bilibili b23.tv 短链生成工具",
193
        epilog="示例:\n  python b23_generator.py video 80433022\n  python b23_generator.py link 'https://www.bilibili.com/video/BV1GJ411x7h7'",
194
        formatter_class=argparse.RawTextHelpFormatter
195

196
    )
197
    parser.add_argument("type", choices=["video", "dynamic", "article", "collection", "user", "course", "link"],
198
                        help="内容类型")
199
    parser.add_argument("id", help="内容ID或链接（视频请传aid数字）")
200
    parser.add_argument("--buvid", default="b23_generator", help="设备标识（任意非空字符串）")
201
    parser.add_argument("--build", type=int, default=7710300, help="客户端版本号（需>5520400）")
202

203
    args = parser.parse_args()
204

205
    generator = B23Generator(buvid=args.buvid, build=args.build)
206

207
    # 根据类型调用相应方法
208
    if args.type == "video":
209
        result = generator.generate_video(args.id)
210
    elif args.type == "dynamic":
211
        result = generator.generate_dynamic(int(args.id))
212
    elif args.type == "article":
213
        result = generator.generate_article(int(args.id))
214
    elif args.type == "collection":
215
        result = generator.generate_collection(int(args.id))
216
    elif args.type == "user":
217
        result = generator.generate_user(int(args.id))
218
    elif args.type == "course":
219
        result = generator.generate_course(int(args.id))
220
    elif args.type == "link":
221
        result = generator.generate_link(args.id)
222
    else:
223
        result = None
224

225
    if result:
226
        print(f"\n✅ 生成成功！短链: {result}")
227
    else:
228
        print("\n❌ 生成失败，请检查参数和网络")
229

230

231
if __name__ == "__main__":
232
    main()

需要说明的是，短链接依赖服务端主动返回重定向；而本文将要分析的 ../ 路径跳转，属于浏览器对 URL 路径的自动规范化处理，下文将详细展开。

🌐URL 的演进与规范#

回到诈骗链接的现场：短链跳转到的原始长链明明是类似这样的 https://www.bilibili.com/video/BV_X/../BV_Y，我们可以尝试直接在浏览器输入类似这样的网址，会发现路径中的 /BV_X/.. 消失了，是谁篡改了这个 URL—— URL路径规范化。

回顾 URL 起源与演进#

1990年，蒂姆·伯纳斯·李在发明万维网时，需要一种方式标识互联网上的资源。他借鉴了当时Unix文件系统的路径表示法：

这种设计让早期开发者能够直观地理解和链接资源。比如，/docs/../images/logo.png 显然指向 /images/logo.png。在当时，这只是一个实用的约定，而非严格的标准。

随着Web的爆炸式发展，这种“野路子”带来了问题：同一个资源可以有无数个别名（如 /a/b/c 和 /a/b/../b/c），这导致缓存、爬虫和安全都面临挑战；并且，URL 的解析方式在不同浏览器、服务器间出现了分歧。例如，对 http://example.com/a/../b 的处理：

有的系统会直接发送原始路径
有的会在服务器端做规范化
有的甚至会把 .. 当作普通目录名

这导致了兼容性灾难和安全漏洞（如目录遍历攻击）。于是，互联网工程任务组（IETF）开始推动标准化。

时间	规范	关键贡献
1994	RFC 1630	首次定义“通用资源标识符”，但只是总结现有用法
1994	RFC 1738	正式定义绝对/相对URL，明确相对解析规则
1998	RFC 2396	URI语法独立成规范，“U”从“通用”改为“统一”
2005	RFC 3986	现行标准，详细定义解析、规范化、相对引用规则

**RFC 3986**是里程碑式的。它明确要求：任何符合标准的URI处理器，在解析路径时必须对 . 和 .. 进行规范化处理。这意味着：

浏览器在发送请求前，必须规范化路径
服务器在路由匹配前，必须规范化路径
任何网络库、框架在处理URL时，都必须遵循这一规则

之所以要求路径规范化，主要基于两点：

资源定位的唯一性

在Web中，一个资源应该只有一个规范URL。规范化确保了无论用户如何构造链接（/a/b/../c 还是 /a/c），最终都指向同一资源。这对于缓存、SEO、权限控制至关重要。
基础安全防线

规范化是防御目录遍历攻击的第一道关卡。通过解析 ..，服务器可以判断最终路径是否在Web根目录内。例如，攻击者提交 ../../etc/passwd，规范化后服务器能检测到目录遍历，直接拒绝请求。

规范化#

显而易见的，规范化的发生在底层的基础设施，且往往不止一次：

浏览器端

当你在地址栏输入URL并回车时，浏览器内核在构造HTTP请求之前，就会进行路径规范化。也就是为什么我们开始在浏览器输入：https://www.bilibili.com/video/BV_X/../BV_Y，回车，就已经是：https://www.bilibili.com/video/BV_Y
服务器端

即使浏览器因某些原因未规范化（如构造特殊请求），请求到达诸如Nginx的服务器时，在路由匹配前同样会执行路径规范化。
…………

核心：`.` 与 `..` 的处理#

URL 标准有明确的规范化算法，简化后的逻辑如下：

初始化一个空列表 output 作为规范化后的路径
遍历原始路径的每个 segment：
- 若 segment 为 .（或编码形式 %2e）→ 跳过，不加入 output
- 若 segment 为 ..（或编码形式 %2e%2e、%2e. 等）→ 若 output 非空，移除最后一个 segment
- 否则 → 将 segment 加入 output

以我们的链接为例：

原始 segment	操作	当前 output
`video`	加入	`["video"]`
`BV_X`	加入	`["video", "BV_X"]`
`..`	移除最后一个	`["video"]`
`BV_Y`	加入	`["video", "BV_Y"]`

最终规范化后的路径为 /video/BV_Y，因此浏览器实际请求的是 https://www.bilibili.com/video/BV_Y。

示例代码 demo：

1
// 功能：规范化URL路径，移除 "." 和 ".."
2
static void normalize_path(char *path) {
3
    char *p = path;
4
    char *q = path;
5
    // 核心逻辑：遍历路径段
6
    while (*p) {
7
        if (p[0] == '.' && (p[1] == '/' || p[1] == '\0')) {
8
            p += (p[1] == '/') ? 2 : 1;  // 跳过 "."
9
        } else if (p[0] == '.' && p[1] == '.' && (p[2] == '/' || p[2] == '\0')) {
10
            // 回退上一级
11
            while (q > path && *--q != '/');
12
            p += (p[2] == '/') ? 3 : 2;
13
        } else {
14
            // 复制普通段
15
            while (*p && *p != '/') *q++ = *p++;
16
            if (*p == '/') *q++ = *p++;
17
        }
18
    }
19
    *q = '\0';
20
}

不止于路径#

值得注意的是，URL规范化远不止处理 ..。RFC 3986及其实践通常包括以下操作：

操作	示例	说明
Scheme转小写	`HTTP://` → `http://`	协议名不区分大小写
Host转小写	`EXAMPLE.com` → `example.com`	域名不区分大小写
移除默认端口	`:80`（HTTP）、`:443`（HTTPS）	减少冗余
路径解析	`/a/./b/../c` → `/a/c`	移除 `.` 和 `..`
百分号解码	`%7E` → `~`	解码安全字符
移除片段标识	`#section` 在发送请求时丢弃	片段不发送到服务器

示例：URI.js（JavaScript 库）的规范化

1
// https://www.npmjs.com/package/uri-js
2
const URI = require("uri-js");
3
let rawUrl = "HTTP://ABC.COM:80/%7Esmith/home.html";
4
let normalized = URI.normalize(rawUrl);
5
console.log(normalized);
6
// 输出: "http://abc.com/~smith/home.html"
7
// 功能：scheme/host转小写，移除默认端口80，解码安全的百分号编码

结尾：回到“诈骗链接”#

现在我们可以完整解释 B 站诈骗链接的机制了：

使用B站短链服务，将一个未规范化的 URL 生成短链接，而这个 URL 在短链服务里没有被规范化；
后端计算该短链接 jump_url 的键值对，在解析这个未规范化的 URL 时，导致提取的是第一个 BV_X 的 title；
前端渲染这个 b23.tv 短链，对应的 title 是第一个 BV_X；
点击跳转，浏览器重定向原始 URL，由于自身执行 URL 的标准化，将路径规范化为 /video/BV_Y，于是“诈骗”发生了。

所以，实际上，https://www.bilibili.com/video/BV_X/../../后可加任意的路径（B站）。例如：https://www.bilibili.com/video/BV_X/../../opus/1035673329881579520跳转的实际上是：https://www.bilibili.com/opus/1035673329881579520。

而若要解决这个“诈骗链接”问题：

短链接生成服务，注意对原始链接进行规范化

后端 jump_url 的计算逻辑，注意对 URL 进行规范化

😋
本文有些知识其实不需要大段论述，但实际上我就是为了这个“饺子”，才端出这个“B站诈骗链接”的“醋”喵~

引言：关于“诈骗链接”#

📺关于 B 站评论区链接的渲染#

先“切片”，再“按片段匹配 jump_url”#

1. 先做分片#

2. 对每个“候选片段”再检查 jump_url#

3. 标题显示规则#

案例#

补充：流程图与对应代码锚点#

🔗浅谈短链接#

简述#

b23.tv 短链生成#

🌐URL 的演进与规范#

回顾 URL 起源与演进#

规范化#

核心：. 与 .. 的处理#

不止于路径#

结尾：回到“诈骗链接”#

相关资料#

2. 对每个“候选片段”再检查 `jump_url`#

`b23.tv` 短链生成#

核心：`.` 与 `..` 的处理#