而让大语言模型同时处理25个请求的时间,仅是处理单个请求的2倍……
这些数据听上去可能有些出乎意料,但都是真实的。
它们出自一篇名为《大语言模型(LLM)开发者必须知道的数字》的Github文章。
GitHub - ray-project/llm-numbers: Numbers every LLM developer should knowNumbers every LLM developer should know. Contribute to ray-project/llm-numbers development by creating an account on GitHub.https://github.com/ray-project/llm-numbers