麦克风阵列波束形成模拟器

将多支麦克风线性排列，使用延迟相加（Delay-and-Sum）法形成只对某一方向敏感的空间波束。调整阵元数、间距、频率与指向角，即可实时看到波束宽度、阵列增益、干扰抑制与空间混叠上限的变化，从而获得智能音箱与会议系统前级麦克风设计的直观感受。

参数设置

麦克风数量 N

个

构成阵列的麦克风（阵元）数量

阵元间距 d

相邻麦克风的中心距。超过 λ/2 即发生空间混叠

信号频率 f

分析对象的声学频率。语音主要在 100 Hz～8 kHz

声速 c

m/s

随温度变化（20°C 约为 343 m/s）

指向角 θ_s

想要强调的目标声源方向。0° 为阵列正前方

干扰源方向 θ_i

要抑制的噪声源（干扰说话人等）方向

计算结果

—

波长 λ (m)

—

孔径 L (m)

—

半功率宽度 HPBW (°)

—

阵列增益 (dB)

—

混叠上限频率 (Hz)

—

干扰抑制比 (dB)

—

阵列布置与波前 — 实时动画

N 个麦克风沿一条线排列，绿色箭头为指向角方向，红色箭头为干扰源方向；下方极坐标为生成的波束方向图（瓣形）。

波束方向图 |B(θ)| (dB)

频率相关 HPBW

理论与主要公式

$$y(t) = \sum_{n=0}^{N-1} w_n\, x_n\!\left(t - \tau_n\right),\qquad \tau_n = \frac{n\,d\,\sin\theta_s}{c}$$

延迟相加波束形成器的基本式。τ_n 为第 n 路麦克风的延迟，θ_s 为指向角，c 为声速。均匀权重 w_n = 1/N 使目标方向信号同相叠加。

$$\text{HPBW} \approx \frac{0.89\,\lambda}{L\,\cos\theta_s},\qquad L = (N-1)\,d$$

均匀直线阵（ULA）的主瓣半功率宽度。λ 为波长，L 为阵列孔径长度。低频、短孔径或偏离正侧时波束越宽。

$$|B(\theta)| = \left|\frac{\sin(N u)}{N\sin u}\right|,\quad u = \frac{\pi d}{\lambda}\bigl(\sin\theta - \sin\theta_s\bigr),\quad f_{\mathrm{alias}} = \frac{c}{2d}$$

阵列因子（波束方向图）与空间混叠上限频率。当 d ≥ λ/2 时栅瓣出现，无法再与目标方向区分。

麦克风阵列波束形成 — 延迟相加法

🙋

智能音箱在屋子里说"OK Google"时，好像总能精准接收说话人方向的声音。它是怎么知道方向的呢？

🎓

问得好，这就是「麦克风阵列波束形成」。Amazon Echo 顶上仔细数能看到六七个小孔，每一个都是一支麦克风。来自某个方向的声波到达每支麦克风的时间会有微小差异。把这个时间差反向补偿后再相加，特定方向的波就会相位对齐而变强，其它方向的波则因相位错开而互相抵消——这就是最基本的「延迟相加（Delay-and-Sum）」波束形成器。

🙋

那把麦克风数量加大，波束就能越窄越准吧？我把左边 N 拉大，波束确实变得更细了。

🎓

没错。HPBW ≈ 0.89·λ/L，孔径 L=(N−1)d 越长波束就越细。但阵列增益只按 10·log10(N) 增长：8 个 +9 dB，16 个 +12 dB，32 个 +15 dB。阵元数翻 4 倍才多 6 dB。所以即使是高端会议设备，阵元数大多在 8～16 之间，超过这个范围校准代价就不划算了。

🙋

那要不直接把间距 d 拉大，孔径不就更长、波束更细了吗？

🎓

这正是坑所在。一旦 d 超过 λ/2，就会发生「空间混叠」——在另一个方向也会出现强度相同的「栅瓣」，使你分不清声音究竟来自哪里。试着把 d=5cm 不变，把 f 调到 4000 Hz：λ=343/4000≈8.6cm，λ/2≈4.3cm，d=5cm 已经超限，verdict 会立刻变成红色 NG。阵列上限频率为 f_alias = c/(2d)。

🙋

那要同时覆盖 100 Hz～8 kHz 的语音宽带应该怎么办呢？

🎓

宽带阵列通常采用「嵌套子阵」：低频段用较宽的间距（例如 d=15cm），高频段用较窄的间距（例如 d=2cm），按频段切换实际使用的麦克风组合。再往上还有 MVDR（Capon）、GSC（广义旁瓣对消器）以及近年的神经网络波束形成等自适应方法，可主动抑制干扰源。但所有这些方法的直觉都建立在延迟相加之上，先在这个工具里把"波束变粗、栅瓣出现"这种现象玩透，再学高级方法会顺很多。

常见问题

这是最基本的空间滤波器：对每路麦克风信号施加时间延迟 τ_n = n·d·sinθ_s/c，使来自目标方向 θ_s 的声波在阵列上对齐，然后求和并按 1/N 归一化。来自 θ_s 的信号同相叠加增强，其它方向的信号相位错开而相互抵消。它运算量最低，常用作智能音箱与会议麦克风的前级波束形成。

当阵元间距 d 超过波长 λ 的一半时，会在另一方向出现强度相当的「栅瓣（grating lobe）」，阵列无法区分目标方向与该方向的声源。阵列的上限频率为 f_max = c/(2d)，例如 d=5cm 时上限仅为 3.43 kHz。宽带应用通常采用不同间距的嵌套子阵以兼顾低频与高频。

均匀直线阵（ULA）主瓣的半功率波束宽度近似为 HPBW ≈ 0.89·λ/(L·cosθ_s)（弧度），其中 L=(N−1)d 为阵列孔径长度，θ_s 为指向角。波长越长（低频）、孔径越短，波束越宽；指向角偏离正侧（broadside）时，因 1/cosθ_s 因子，分辨率会显著下降。

对白噪声而言，N 元延迟相加波束形成的理论最大增益为 10·log10(N) dB：N=8 为 +9.0 dB，N=16 为 +12.0 dB，N=32 为 +15.0 dB——阵元数每增加 4 倍，增益仅增加 6 dB。在实测中由于相位失配、灵敏度离散与混响损失，实际增益通常比理论值低 1～3 dB，因此要超过 12 dB 实际增益必须做精细校准与环境控制。

实际应用

智能音箱与智能家电：Amazon Echo、Google Home、Apple HomePod 等设备内置 6～7 元圆形阵列或 2 元立体声配置。一旦检测到来自任意方向的"唤醒词"，设备就把波束指向该方向，抑制背景噪声和竞争说话人，再把净化后的信号送入语音识别引擎。常见做法是先用延迟相加做粗略指向，再叠加 MVDR 或神经网络增强的两段式结构。

远程会议与 Web 会议系统：Microsoft Teams Rooms、Zoom Rooms、Polycom、Logitech Rally 等会议设备使用 4～16 元的线性或圆形阵列自动追踪发言人。即使是笔记本电脑内置的 2 元麦克风，也会运行简单的差动阵列以增强用户语音并抑制背景噪声。混响较强的会议室中，HPBW 太窄反而容易跟丢说话人，因此一般有意保持在 20～40°。

车载语音识别与助听器：汽车把波束对准驾驶员嘴部，以抑制发动机声、路噪和副驾说话声。常见做法是在方向盘附近布置 2～4 元小型阵列。助听器在每只耳上放 2 支麦克风，提供强调正前方声源的"指向性模式"。低频段因波长过长而指向性较差，所以助听器主要在 1～4 kHz 的辅音频段发挥作用。

声纳、声源定位与无人机检测：水下声纳与无人机声学相机使用几十到几百元的大型阵列估计声源方向。在所有方向上扫描波束形成器的输出并取峰值，即可得到声源方位的估计。MUSIC、ESPRIT 等高分辨率到达角（DoA）方法都建立在延迟相加思想之上，因此在本工具中练熟基础，再去理解这些高级算法会顺畅得多。

常见误解与注意事项

第一个坑是"以为麦克风数越多波束就能无限变窄"。HPBW ≈ 0.89·λ/L 确实随孔径 L 反比下降，但阵列增益按 10·log10(N) 增长——每 4 倍只多 6 dB。若为了拉长孔径而把麦克风排得过密，相邻通道相关性升高，独立的信息量并未真正增加。再加上相位失配与灵敏度离散误差会逐步累积，超过 32 元的阵列校准成本高昂，实际工程多控制在 8～16 元的"甜区"。

第二个坑是把 d 卡到 λ/2 上限以追求最大分辨率。在设计频率上确实最佳，但一旦出现未预期的高频成分（谐波或非平稳噪声），栅瓣立即出现并指向错误方向。对于宽带语音，建议把 d 控制在 λ/2 的 0.6～0.7 倍，并使用不同间距的嵌套子阵。本工具中向上扫频，可以亲眼看到 verdict 在出现混叠的瞬间变红。

第三个坑是"以为延迟相加就够用"。延迟相加是已知 DoA 的点源最优解，但在多次反射的房间或干扰源移动的场景下，从波束泄漏进来的混响会持续抬高残余噪声，SNR 改善很快饱和。实际系统通常结合自适应 MVDR / Capon、GSC，乃至深度学习波束形成（Conv-TasNet 系）。请把本工具给出的数值视为理论上限：如果还需要更高的性能，就必须引入自适应处理。

麦克风阵列波束形成模拟器

麦克风阵列波束形成 — 延迟相加法

常见问题

实际应用

常见误解与注意事项

使用指南

具体计算示例

实务注意事项