
Es un hecho perfectamente conocido que diferentes familias maniquí pueden usar diferentes tokenizadores. Sin confiscación, ha habido un examen menguado sobre cómo el proceso de “tokenización“ en sí mismo varía entre estos tokenizadores. ¿Todos los tokenizadores dan como resultado el mismo número de tokens para un texto de entrada entregado? Si no, ¿qué tan diferentes son los tokens generados? ¿Qué tan significativas son las diferencias?
En este artículo, exploramos estas preguntas y examinamos las implicaciones prácticas de la variabilidad de la tokenización. Presentamos una historia comparativa de dos familias de modelos fronterizos: OpadaiChatgpt vs Antrópico‘S Claude. Aunque sus cifras anunciadas de “costo-perse” son mucho competitivas, los experimentos revelan que los modelos antrópicos pueden ser 20-30% más caros que los modelos GPT.
Precios de API-Claude 3.5 soneto vs GPT-4O
A partir de junio de 2024, la estructura de precios para estos dos modelos de frontera avanzados es mucho competitiva. Tanto el soneto Claude 3.5 de Anthrope como el GPT-4O de OpenAI tienen costos idénticos para los tokens de producción, mientras que Claude 3.5 Sonnet ofrece un costo 40% beocio para los tokens de entrada.
Fuente: Preeminencia
La “ineficiencia de tokenizador” oculta
A pesar de las tasas de token de entrada más bajas del maniquí antrópico, observamos que los costos totales de los experimentos de ejecución (en un conjunto entregado de indicaciones fijas) con GPT-4O es mucho más moderado en comparación con Claude Sonnet-3.5.
¿Por qué?
El tokenizador antrópico tiende a descomponer la misma entrada en más tokens en comparación con el tokenizador de OpenAI. Esto significa que, para indicaciones idénticas, los modelos antrópicos producen considerablemente más tokens que sus homólogos de Operai. Como resultado, si perfectamente el costo por razón para la entrada del soneto de Claude 3.5 puede ser beocio, el aumento de la tokenización puede compensar estos ahorros, lo que lleva a mayores costos generales en casos de uso prácticos.
Este costo oculto proviene de la forma en que el tokenizador de Anthrope codifica información, a menudo utilizando más tokens para representar el mismo contenido. La inflación del recuento de tokens tiene un impacto significativo en los costos y la utilización de la ventana del contexto.
Ineficiencia de tokenización dependiente del dominio
Los diferentes tipos de contenido de dominio son tokenizados de forma diferente mediante el tokenizador de antrópico, lo que lleva a diferentes niveles de mayores recuentos de tokens en comparación con los modelos de OpenAI. La comunidad de investigación de IA ha notado diferencias de tokenización similares aquí. Probamos nuestros hallazgos en tres dominios populares, a enterarse: artículos en inglés, código (Python) y matemáticas.
Dominio | Entrada de maniquí | Tokens GPT | Tokens Claude | % De gastos generales de token |
Artículos en inglés | 77 | 89 | ~ 16% | |
Código (Python) | 60 | 78 | ~ 30% | |
Matemáticas | 114 | 138 | ~ 21% |
% Sobre de token de Claude 3.5 Tokenizer de soneto (en relación con GPT-4O) Fuente: Lavanya Gupta
Al comparar el soneto Claude 3.5 con GPT-4O, el valor de ineficiencia de tokenizador varía significativamente entre los dominios de contenido. Para artículos en inglés, el tokenizador de Claude produce aproximadamente un 16% más de tokens que GPT-4O para el mismo texto de entrada. Esta sobrecarga aumenta bruscamente con contenido más estructurado o técnico: para las ecuaciones matemáticas, la sobrecarga es del 21%, y para el código de Python, Claude genera un 30% más de tokens.
Esta variación surge porque algunos tipos de contenido, como documentos técnicos y código, a menudo contienen patrones y símbolos que los fragmentos de tokenizador de antrópico en piezas más pequeñas, lo que lleva a un recuento de token más suspensión. Por el contrario, más contenido del idioma natural tiende a exhibir una sobrecarga de tokens inferior.
Otras implicaciones prácticas de la ineficiencia de tokenizador
Más allá de la implicación directa en los costos, igualmente existe un impacto indirecto en la utilización de la ventana del contexto. Mientras que los modelos antrópicos reclaman una ventana de contexto más ínclito de 200k tokens, a diferencia de los 128k tokens de Openii, oportuno a la verbosidad, el espacio de token servible efectivo puede ser más pequeño para los modelos antrópicos. Por lo tanto, podría suceder una pequeña o gran diferencia en los tamaños de las ventanas de contexto “anunciados” frente a los tamaños de ventanas de contexto “efectivos”.
Implementación de tokenizadores
Los modelos GPT usan Codificación de pares de bytes (BPE)que fusiona con frecuencia pares de caracteres concurrentes para formar tokens. Específicamente, los últimos modelos GPT utilizan el Tokenizer O200K_Base de código extenso. Se pueden ver los tokens reales utilizados por GPT-4O (en el tokenizer Tiktoken) aquí.
JSON
{
#reasoning
"o1-xxx": "o200k_base",
"o3-xxx": "o200k_base",
# chat
"chatgpt-4o-": "o200k_base",
"gpt-4o-xxx": "o200k_base", # e.g., gpt-4o-2024-05-13
"gpt-4-xxx": "cl100k_base", # e.g., gpt-4-0314, etc., plus gpt-4-32k
"gpt-3.5-turbo-xxx": "cl100k_base", # e.g, gpt-3.5-turbo-0301, -0401, etc.
}
Desafortunadamente, no se puede asegurar mucho sobre los tokenizadores antrópicos, ya que su tokenizador no está tan directa y fácilmente apto como GPT. Antrópico Lanzó su API de conteo de tokens en diciembre de 2024. Sin confiscación, pronto fue fallecido en las versiones más tarde de 2025.
Rojo tardío informa que “Anthrope utiliza un tokenizador único con solo 65,000 variaciones de token, en comparación con las 100,261 variaciones de token de OpenAI para GPT-4”. Este Cuaderno de colab Contiene el código de Python para analizar las diferencias de tokenización entre los modelos GPT y Claude. Otro aparejo Eso permite la interfaz con algunos tokenizadores comunes disponibles en notorio valida nuestros hallazgos.
La capacidad de estimar de forma proactiva los recuentos de tokens (sin invocar la API del maniquí existente) y los costos presupuestarios es crucial para las empresas de IA.
Control de clave
- El precio competitivo de Anthrope viene con costos ocultos:
Si perfectamente el soneto Claude 3.5 de Anthrope ofrece costos de token de entrada 40% más bajos en comparación con el GPT-4O de OpenAI, esta delantera de costo evidente puede ser engañosa oportuno a diferencias en la forma en que el texto de entrada se toca. - Oculto “ineficiencia de tokenizador”:
Los modelos antrópicos son inherentemente más verboso. Para las empresas que procesan grandes volúmenes de texto, comprender esta discrepancia es crucial al evaluar el efectivo costo de implementar modelos. - Ineficiencia de tokenizador dependiente del dominio:
Al nominar entre OpenAi y modelos antrópicos, Evaluar la naturaleza de su texto de entrada. Para las tareas del idioma natural, la diferencia de costo puede ser mínima, pero los dominios técnicos o estructurados pueden conducir a costos significativamente más altos con los modelos antrópicos. - Ventana de contexto efectiva:
Oportuno a la verbosidad del tokenizador de antrópico, su ventana de contexto de 200k anunciada más ínclito puede ofrecer un espacio servible menos efectivo que el 128K de OpenAI, lo que lleva a un potencial brecha entre la ventana de contexto anunciado y existente.
Anthrope no respondió a las solicitudes de VentureBeat de comentarios al momento de la publicación. Actualizaremos la historia si responden.