El almacenamiento en caché de contexto tiene como objetivo reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido.
De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos Gemini para reducir la latencia y acelerar las respuestas para mensajes posteriores.
Para los modelos Gemini 2.5 Flash (recuento mínimo de tokens de entrada de 1024) y Gemini 2.5 Pro (recuento mínimo de tokens de entrada de 2048), los tokens de entrada almacenados en caché se cobran con un descuento del 75 % en relación con los tokens de entrada estándar cuando se produce un acierto en caché.
Vea la información del token de aciertos de caché en el campo de metadatos de respuestas. Para desactivar esto, consulte IA generativa y gobernanza de datos .
A través de la API de Vertex AI, puede crear cachés de contexto y ejercer más control sobre ellos al:
- Usar un caché de contexto haciendo referencia a su contenido en una solicitud rápida con su nombre de recurso.
- Actualización del tiempo de caducidad (TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
- Eliminar un caché de contexto cuando ya no lo necesite.
También puede utilizar la API de Vertex AI para obtener información sobre un caché de contexto .
Tenga en cuenta que las solicitudes de almacenamiento en caché que utilizan la API de Vertex AI cobran tokens de entrada con el mismo descuento del 75 % en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También hay un cargo por almacenamiento basado en la cantidad de tiempo que se almacenan los datos.
Cuándo utilizar el almacenamiento en caché de contexto
El almacenamiento en caché de contexto es particularmente adecuado para escenarios en los que solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes rápidas a la API de Gemini para generar resultados. Las solicitudes que utilizan el mismo caché en el mensaje también incluyen texto exclusivo para cada mensaje. Por ejemplo, cada solicitud de aviso que compone una conversación de chat puede incluir el mismo caché de contexto que hace referencia a un video junto con un texto único que comprende cada turno del chat.
Considere utilizar el almacenamiento en caché de contexto para casos de uso como:
- Chatbots con extensas instrucciones del sistema.
- Análisis repetitivo de archivos de vídeo largos.
- Consultas recurrentes sobre conjuntos de documentos grandes
- Análisis frecuente del repositorio de código o corrección de errores.
Rentabilidad mediante el almacenamiento en caché
El almacenamiento en caché de contexto es una función paga diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:
- Recuento de tokens de caché: el número de tokens de entrada almacenados en caché, facturados a una tarifa reducida cuando se incluyen en solicitudes posteriores.
- Duración del almacenamiento: la cantidad de tiempo que se almacenan los tokens en caché y se factura por hora. Los tokens almacenados en caché se eliminan cuando caduca un caché de contexto.
- Otros factores: se aplican otros cargos, como los tokens de entrada y de salida no almacenados en caché.
El almacenamiento en caché de contexto no admite el rendimiento aprovisionado. Las solicitudes de rendimiento aprovisionado que utilizan el almacenamiento en caché de contexto se tratan como de pago por uso .
Modelos compatibles
Los siguientes modelos Gemini admiten el almacenamiento en caché de contexto:
Para obtener más información, consulte Versiones disponibles del modelo estable Gemini . Tenga en cuenta que el almacenamiento en caché de contexto admite todos los tipos MIME para los modelos compatibles.
Disponibilidad
El almacenamiento en caché de contexto está disponible en regiones donde la IA generativa en Vertex AI está disponible. Para obtener más información, consulte IA generativa en ubicaciones de Vertex AI .
Soporte de controles de servicio de VPC
El almacenamiento en caché de contexto admite controles de servicio de VPC, lo que significa que su caché no puede filtrarse más allá de su perímetro de servicio. Si usa Cloud Storage para crear su caché, incluya también su depósito en su perímetro de servicio para proteger el contenido de su caché.
Para obtener más información, consulte Controles de servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtenga más información sobre la API de Gemini .
- Aprenda a utilizar indicaciones multimodales .
El almacenamiento en caché de contexto tiene como objetivo reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido.
De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos Gemini para reducir la latencia y acelerar las respuestas para mensajes posteriores.
Para los modelos Gemini 2.5 Flash (recuento mínimo de tokens de entrada de 1024) y Gemini 2.5 Pro (recuento mínimo de tokens de entrada de 2048), los tokens de entrada almacenados en caché se cobran con un descuento del 75 % en relación con los tokens de entrada estándar cuando se produce un acierto en caché.
Vea la información del token de aciertos de caché en el campo de metadatos de respuestas. Para desactivar esto, consulte IA generativa y gobernanza de datos .
A través de la API de Vertex AI, puede crear cachés de contexto y ejercer más control sobre ellos al:
- Usar un caché de contexto haciendo referencia a su contenido en una solicitud rápida con su nombre de recurso.
- Actualización del tiempo de caducidad (TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
- Eliminar un caché de contexto cuando ya no lo necesite.
También puede utilizar la API de Vertex AI para obtener información sobre un caché de contexto .
Tenga en cuenta que las solicitudes de almacenamiento en caché que utilizan la API de Vertex AI cobran tokens de entrada con el mismo descuento del 75 % en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También hay un cargo por almacenamiento basado en la cantidad de tiempo que se almacenan los datos.
Cuándo utilizar el almacenamiento en caché de contexto
El almacenamiento en caché de contexto es particularmente adecuado para escenarios en los que solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes rápidas a la API de Gemini para generar resultados. Las solicitudes que utilizan el mismo caché en el mensaje también incluyen texto exclusivo para cada mensaje. Por ejemplo, cada solicitud de aviso que compone una conversación de chat puede incluir el mismo caché de contexto que hace referencia a un video junto con un texto único que comprende cada turno del chat.
Considere utilizar el almacenamiento en caché de contexto para casos de uso como:
- Chatbots con extensas instrucciones del sistema.
- Análisis repetitivo de archivos de vídeo largos.
- Consultas recurrentes sobre conjuntos de documentos grandes
- Análisis frecuente del repositorio de código o corrección de errores.
Rentabilidad mediante el almacenamiento en caché
El almacenamiento en caché de contexto es una función paga diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:
- Recuento de tokens de caché: el número de tokens de entrada almacenados en caché, facturados a una tarifa reducida cuando se incluyen en solicitudes posteriores.
- Duración del almacenamiento: la cantidad de tiempo que se almacenan los tokens en caché y se factura por hora. Los tokens almacenados en caché se eliminan cuando caduca un caché de contexto.
- Otros factores: se aplican otros cargos, como los tokens de entrada y de salida no almacenados en caché.
El almacenamiento en caché de contexto no admite el rendimiento aprovisionado. Las solicitudes de rendimiento aprovisionado que utilizan el almacenamiento en caché de contexto se tratan como de pago por uso .
Modelos compatibles
Los siguientes modelos Gemini admiten el almacenamiento en caché de contexto:
Para obtener más información, consulte Versiones disponibles del modelo estable Gemini . Tenga en cuenta que el almacenamiento en caché de contexto admite todos los tipos MIME para los modelos compatibles.
Disponibilidad
El almacenamiento en caché de contexto está disponible en regiones donde la IA generativa en Vertex AI está disponible. Para obtener más información, consulte IA generativa en ubicaciones de Vertex AI .
Soporte de controles de servicio de VPC
El almacenamiento en caché de contexto admite controles de servicio de VPC, lo que significa que su caché no puede filtrarse más allá de su perímetro de servicio. Si usa Cloud Storage para crear su caché, incluya también su depósito en su perímetro de servicio para proteger el contenido de su caché.
Para obtener más información, consulte Controles de servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtenga más información sobre la API de Gemini .
- Aprenda a utilizar indicaciones multimodales .
El almacenamiento en caché de contexto tiene como objetivo reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido.
De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos Gemini para reducir la latencia y acelerar las respuestas para mensajes posteriores.
Para los modelos Gemini 2.5 Flash (recuento mínimo de tokens de entrada de 1024) y Gemini 2.5 Pro (recuento mínimo de tokens de entrada de 2048), los tokens de entrada almacenados en caché se cobran con un descuento del 75 % en relación con los tokens de entrada estándar cuando se produce un acierto en caché.
Vea la información del token de aciertos de caché en el campo de metadatos de respuestas. Para desactivar esto, consulte IA generativa y gobernanza de datos .
A través de la API de Vertex AI, puede crear cachés de contexto y ejercer más control sobre ellos al:
- Usar un caché de contexto haciendo referencia a su contenido en una solicitud rápida con su nombre de recurso.
- Actualización del tiempo de caducidad (TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
- Eliminar un caché de contexto cuando ya no lo necesite.
También puede utilizar la API de Vertex AI para obtener información sobre un caché de contexto .
Tenga en cuenta que las solicitudes de almacenamiento en caché que utilizan la API de Vertex AI cobran tokens de entrada con el mismo descuento del 75 % en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También hay un cargo por almacenamiento basado en la cantidad de tiempo que se almacenan los datos.
Cuándo utilizar el almacenamiento en caché de contexto
El almacenamiento en caché de contexto es particularmente adecuado para escenarios en los que solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes rápidas a la API de Gemini para generar resultados. Las solicitudes que utilizan el mismo caché en el mensaje también incluyen texto exclusivo para cada mensaje. Por ejemplo, cada solicitud de aviso que compone una conversación de chat puede incluir el mismo caché de contexto que hace referencia a un video junto con un texto único que comprende cada turno del chat.
Considere utilizar el almacenamiento en caché de contexto para casos de uso como:
- Chatbots con extensas instrucciones del sistema.
- Análisis repetitivo de archivos de vídeo largos.
- Consultas recurrentes sobre conjuntos de documentos grandes
- Análisis frecuente del repositorio de código o corrección de errores.
Rentabilidad mediante el almacenamiento en caché
El almacenamiento en caché de contexto es una función paga diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:
- Recuento de tokens de caché: el número de tokens de entrada almacenados en caché, facturados a una tarifa reducida cuando se incluyen en solicitudes posteriores.
- Duración del almacenamiento: la cantidad de tiempo que se almacenan los tokens en caché y se factura por hora. Los tokens almacenados en caché se eliminan cuando caduca un caché de contexto.
- Otros factores: se aplican otros cargos, como los tokens de entrada y de salida no almacenados en caché.
El almacenamiento en caché de contexto no admite el rendimiento aprovisionado. Las solicitudes de rendimiento aprovisionado que utilizan el almacenamiento en caché de contexto se tratan como de pago por uso .
Modelos compatibles
Los siguientes modelos Gemini admiten el almacenamiento en caché de contexto:
Para obtener más información, consulte Versiones disponibles del modelo estable Gemini . Tenga en cuenta que el almacenamiento en caché de contexto admite todos los tipos MIME para los modelos compatibles.
Disponibilidad
El almacenamiento en caché de contexto está disponible en regiones donde la IA generativa en Vertex AI está disponible. Para obtener más información, consulte IA generativa en ubicaciones de Vertex AI .
Soporte de controles de servicio de VPC
El almacenamiento en caché de contexto admite controles de servicio de VPC, lo que significa que su caché no puede filtrarse más allá de su perímetro de servicio. Si usa Cloud Storage para crear su caché, incluya también su depósito en su perímetro de servicio para proteger el contenido de su caché.
Para obtener más información, consulte Controles de servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtenga más información sobre la API de Gemini .
- Aprenda a utilizar indicaciones multimodales .
El almacenamiento en caché de contexto tiene como objetivo reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido.
De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos Gemini para reducir la latencia y acelerar las respuestas para mensajes posteriores.
Para los modelos Gemini 2.5 Flash (recuento mínimo de tokens de entrada de 1024) y Gemini 2.5 Pro (recuento mínimo de tokens de entrada de 2048), los tokens de entrada almacenados en caché se cobran con un descuento del 75 % en relación con los tokens de entrada estándar cuando se produce un acierto en caché.
Vea la información del token de aciertos de caché en el campo de metadatos de respuestas. Para desactivar esto, consulte IA generativa y gobernanza de datos .
A través de la API de Vertex AI, puede crear cachés de contexto y ejercer más control sobre ellos al:
- Usar un caché de contexto haciendo referencia a su contenido en una solicitud rápida con su nombre de recurso.
- Actualización del tiempo de caducidad (TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
- Eliminar un caché de contexto cuando ya no lo necesite.
También puede utilizar la API de Vertex AI para obtener información sobre un caché de contexto .
Tenga en cuenta que las solicitudes de almacenamiento en caché que utilizan la API de Vertex AI cobran tokens de entrada con el mismo descuento del 75 % en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También hay un cargo por almacenamiento basado en la cantidad de tiempo que se almacenan los datos.
Cuándo utilizar el almacenamiento en caché de contexto
El almacenamiento en caché de contexto es particularmente adecuado para escenarios en los que solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes rápidas a la API de Gemini para generar resultados. Las solicitudes que utilizan el mismo caché en el mensaje también incluyen texto exclusivo para cada mensaje. Por ejemplo, cada solicitud de aviso que compone una conversación de chat puede incluir el mismo caché de contexto que hace referencia a un video junto con un texto único que comprende cada turno del chat.
Considere utilizar el almacenamiento en caché de contexto para casos de uso como:
- Chatbots con extensas instrucciones del sistema.
- Análisis repetitivo de archivos de vídeo largos.
- Consultas recurrentes sobre conjuntos de documentos grandes
- Análisis frecuente del repositorio de código o corrección de errores.
Rentabilidad mediante el almacenamiento en caché
El almacenamiento en caché de contexto es una función paga diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:
- Recuento de tokens de caché: el número de tokens de entrada almacenados en caché, facturados a una tarifa reducida cuando se incluyen en solicitudes posteriores.
- Duración del almacenamiento: la cantidad de tiempo que se almacenan los tokens en caché y se factura por hora. Los tokens almacenados en caché se eliminan cuando caduca un caché de contexto.
- Otros factores: se aplican otros cargos, como los tokens de entrada y de salida no almacenados en caché.
El almacenamiento en caché de contexto no admite el rendimiento aprovisionado. Las solicitudes de rendimiento aprovisionado que utilizan el almacenamiento en caché de contexto se tratan como de pago por uso .
Modelos compatibles
Los siguientes modelos Gemini admiten el almacenamiento en caché de contexto:
Para obtener más información, consulte Versiones disponibles del modelo estable Gemini . Tenga en cuenta que el almacenamiento en caché de contexto admite todos los tipos MIME para los modelos compatibles.
Disponibilidad
El almacenamiento en caché de contexto está disponible en regiones donde la IA generativa en Vertex AI está disponible. Para obtener más información, consulte IA generativa en ubicaciones de Vertex AI .
Soporte de controles de servicio de VPC
El almacenamiento en caché de contexto admite controles de servicio de VPC, lo que significa que su caché no puede filtrarse más allá de su perímetro de servicio. Si usa Cloud Storage para crear su caché, incluya también su depósito en su perímetro de servicio para proteger el contenido de su caché.
Para obtener más información, consulte Controles de servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtenga más información sobre la API de Gemini .
- Aprenda a utilizar indicaciones multimodales .