流式输出（SSE）时，前端怎么区分每一个 chunk 是完整的一句话？

代码诗人 2026/5/21 12:22:45

核心问题解析

SSE本身的协议只定义了数据流的分割方式，每个data:字段对应一个chunk，但这个chunk可能是一个完整的token、半个词、甚至一个字符。前端要区分"完整句子"不是靠SSE协议，而是需要后端配合加上语义边界标记。

后端侧的关键设计

最靠谱的方案是让后端在输出时做两件事：

1. 标记句子结束符：在完整句子结束时插入特殊标记，比如<|endofsentence|>或\n\n（如果内容不含多行）

2. 设定缓冲策略：后端维护一个句子级缓冲区，等待检测到句号、问号、感叹号等终止符时，才发送完整的句子chunk

# Python后端示例
import re

def stream_sentences(text):
    buffer = ""
    for char in text:
        buffer += char
        if re.search(r'[。！？.!?]
前端接收策略
如果后端已经做了句子分割，前端只需要按标准SSE方式解析，但要注意：
// 前端SSE解析器
const eventSource = new EventSource('/stream');
let sentenceBuffer = '';

eventSource.onmessage = (event) => {
  const chunk = event.data;
  
  // 如果后端使用了特殊分隔符
  if (chunk.includes('<|endofsentence|>')) {
    const [sentence, rest] = chunk.split('<|endofsentence|>');
    sentenceBuffer += sentence;
    displayCompleteSentence(sentenceBuffer);
    sentenceBuffer = rest || '';
  } else {
    // 没有分隔符时，使用启发式规则
    sentenceBuffer += chunk;
    const sentences = splitIntoSentences(sentenceBuffer);
    // 只处理完整的句子，保留最后一个不完整的
    for (let i = 0; i < sentences.length - 1; i++) {
      displayCompleteSentence(sentences[i]);
    }
    sentenceBuffer = sentences[sentences.length - 1];
  }
};
启发式句子分割
当后端不做特殊处理时，前端需要自己判断句子边界：
function splitIntoSentences(text) {
  // 中文和英文的句子结束符
  const sentenceEnders = /[。！？.!?\n]/;
  const parts = [];
  let current = '';
  
  for (let i = 0; i < text.length; i++) {
    current += text[i];
    if (sentenceEnders.test(text[i])) {
      parts.push(current);
      current = '';
    }
  }
  if (current) parts.push(current);
  return parts;
}
最佳实践
2026年的成熟方案是采用双缓冲 + 流式渲染架构：
1. 第一层缓冲：在Web Worker中维护一个句子级缓冲区，使用正则或NLP库（如compromise、jieba）进行实时分词
2. 第二层缓冲：主线程维护显示缓冲区，每次收到完整句子才更新DOM
3. 使用requestAnimationFrame：将句子更新与帧率同步，避免频繁重绘
// Web Worker中的处理
self.onmessage = (e) => {
  const chunk = e.data;
  const sentences = splitIntoSentences(chunk);
  
  // 只发送完整句子给主线程
  for (const sentence of sentences.slice(0, -1)) {
    self.postMessage({ type: 'sentence', data: sentence });
  }
  
  // 保留最后一个不完整的部分
  self.postMessage({ type: 'buffer', data: sentences[sentences.length - 1] });
};
注意事项
- 不要依赖固定长度：无论chunk大小是1字节还是4KB，都不能保证句子边界
- 考虑语言特性：中文的句号、英文的句点、日语的句号都需要分别处理
- 处理缩写：英文中的"Mr."、"U.S."中的句点不是句子结束
- 流式渲染性能：每次DOM更新不要超过一个句子，避免卡顿
核心原则是：前端尽量不要做语义切割，让后端在发送前完成句子划分。如果必须前端处理，使用Web Worker做异步分析，保持主线程流畅。, buffer):
            yield f"data: {buffer}\n\n"
            buffer = ""
    if buffer:
        yield f"data: {buffer}\n\n"