واجهة برمجة تطبيقات الملفات

تم تصميم عائلة نماذج الذكاء الاصطناعي Gemini للتعامل مع أنواع مختلفة من بيانات الإدخال، بما في ذلك النصوص والصور والمقاطع الصوتية. بما أنّ هذه النماذج يمكنها التعامل مع أكثر من نوع واحد أو وضع من البيانات، يُطلق على نماذج Gemini اسم النماذج المتعددة الوسائط أو يُقال إنّها تتضمّن إمكانات متعددة الوسائط.

يوضّح لك هذا الدليل كيفية التعامل مع ملفات الوسائط باستخدام Files API. تكون العمليات الأساسية هي نفسها بالنسبة إلى الملفات الصوتية والصور والفيديوهات والمستندات وأنواع الملفات الأخرى المتوافقة.

للحصول على إرشادات بشأن طلب الملفات، يُرجى الاطّلاع على قسم دليل طلب الملفات.

تحميل ملف

يمكنك استخدام Files API لتحميل ملف وسائط. استخدِم Files API دائمًا عندما يتجاوز إجمالي حجم الطلب (بما في ذلك الملفات والنص المطلوب وتعليمات النظام وما إلى ذلك) 20 ميغابايت.

يحمّل الرمز التالي ملفًا ثم يستخدمه في طلب إلى generateContent.

Python

from google import genai

client = genai.Client()

myfile = client.files.upload(file="path/to/sample.mp3")

response = client.models.generate_content(
    model="gemini-2.5-flash", contents=["Describe this audio clip", myfile]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({});

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-2.5-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Describe this audio clip",
    ]),
  });
  console.log(response.text);
}

await main();

انتقال

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)

model := client.GenerativeModel("gemini-2.5-flash")
resp, err := model.GenerateContent(ctx,
    genai.FileData{URI: file.URI},
    genai.Text("Describe this audio clip"))
if err != nil {
    log.Fatal(err)
}

printResponse(resp)

REST

AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -D "${tmp_header_file}" \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent" \
    -H "x-goog-api-key: $GEMINI_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"text": "Describe this audio clip"},
          {"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
        }]
      }' 2> /dev/null > response.json

cat response.json
echo

jq ".candidates[].content.parts[].text" response.json

الحصول على البيانات الوصفية لملف

يمكنك التأكّد من أنّ واجهة برمجة التطبيقات خزّنت الملف الذي تم تحميله بنجاح والحصول على بياناته الوصفية من خلال طلب files.get.

Python

myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)

JavaScript

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);

انتقال

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}

gotFile, err := client.GetFile(ctx, file.Name)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)

REST

# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name \
-H "x-goog-api-key: $GEMINI_API_KEY" > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

عرض الملفات التي تم تحميلها

يمكنك تحميل ملفات متعددة باستخدام Files API. يحصل الرمز التالي على قائمة بجميع الملفات التي تم تحميلها:

Python

print('My files:')
for f in client.files.list():
    print(' ', f.name)

JavaScript

const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
  console.log(file.name);
}

انتقال

iter := client.ListFiles(ctx)
for {
    ifile, err := iter.Next()
    if err == iterator.Done {
        break
    }
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println(ifile.Name)
}

REST

echo "My files: "

curl "https://generativelanguage.googleapis.com/v1beta/files" \
  -H "x-goog-api-key: $GEMINI_API_KEY"

حذف الملفات التي تم تحميلها

يتم حذف الملفات تلقائيًا بعد 48 ساعة. يمكنك أيضًا حذف ملف تم تحميله يدويًا باتّباع الخطوات التالية:

Python

myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)

JavaScript

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
await ai.files.delete({ name: fileName });

انتقال

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
client.DeleteFile(ctx, file.Name)

REST

curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name \
  -H "x-goog-api-key: $GEMINI_API_KEY"

معلومات الاستخدام

يمكنك استخدام Files API لتحميل ملفات الوسائط والتفاعل معها. تتيح لك Files API تخزين ما يصل إلى 20 غيغابايت من الملفات لكل مشروع، مع حد أقصى لحجم الملف الواحد يبلغ 2 غيغابايت. يتم تخزين الملفات لمدة 48 ساعة. خلال هذه الفترة، يمكنك استخدام واجهة برمجة التطبيقات للحصول على البيانات الوصفية الخاصة بالملفات، ولكن لا يمكنك تنزيل الملفات. تتوفّر واجهة Files API بدون أي تكلفة في جميع المناطق التي تتوفّر فيها واجهة Gemini API.

استراتيجيات طلب الملفات

يقدّم هذا القسم إرشادات وأفضل الممارسات لاستخدام ملفات الوسائط مع الطلبات الموجّهة إلى Gemini API.

يتيح لك استخدام أنواع مختلفة من البيانات في طلباتك مرونة أكبر في ما يتعلق بالمهام التي يمكنك إنجازها باستخدام Gemini API. على سبيل المثال، يمكنك إرسال صورة وجبة لذيذة إلى النموذج وطلب كتابة مدوّنة قصيرة عنها.

الطلب الرد

اكتب منشور مدوّنة موجزًا وجذّابًا استنادًا إلى هذه الصورة. يجب أن يتضمّن وصفًا للوجبة في الصورة وأن يتحدّث عن رحلتي في إعداد الوجبات مسبقًا.


بسكويت

يُعدّ تحضير الوجبات مسبقًا طريقة رائعة لتوفير الوقت والمال، ويمكن أن يساعدك أيضًا في تناول طعام صحي أكثر. هذه الوجبة هي مثال رائع على وجبة صحية ولذيذة يمكن تحضيرها بسهولة مسبقًا.

تتضمّن هذه الوجبة أرزًا أسمر وخضروات مشوية ودجاج ترياكي. الأرز الأسمر هو كربوهيدرات صحية ومعقدة تمنحك طاقة مستدامة. تُعدّ الخضروات المشوية طريقة رائعة للحصول على الجرعة اليومية من الفيتامينات والمعادن، كما أنّ دجاج الترياكي خيار لذيذ وغني بالبروتين.

هذه الوجبة سهلة التحضير أيضًا. ما عليك سوى طهي الأرز الأسمر وشوي الخضار وطهي الدجاج بصلصة الترياكي. بعد الانتهاء من الطهي، قسِّم الطعام إلى عبوات مخصّصة لتحضير الوجبات وخزِّنها في الثلاجة. يمكنك بعد ذلك أخذ وعاء والانطلاق في الصباحات المزدحمة.

إذا كنت تبحث عن وجبة صحية ولذيذة يمكن تحضيرها بسهولة مسبقًا، فهذه الوجبة هي الخيار الأمثل. فهي غنية بالعناصر الغذائية والنكهة، وستمنحك بالتأكيد شعورًا بالشبع والرضا.

نتمنّى لك وجبات صحية ولذيذة!

إذا كنت تواجه مشكلة في الحصول على النتائج المطلوبة من الطلبات التي تستخدم ملفات وسائط، إليك بعض الاستراتيجيات التي يمكن أن تساعدك في الحصول على النتائج التي تريدها. تقدّم الأقسام التالية طرقًا لتصميم الطلبات ونصائح لتحديد المشاكل وحلّها بهدف تحسين الطلبات التي تستخدم الإدخال المتعدّد الوسائط.

يمكنك تحسين طلباتك المتعدّدة الوسائط باتّباع أفضل الممارسات التالية:

  • أساسيات تصميم الطلبات

    • كن دقيقًا في تعليماتك: صِغ تعليمات واضحة وموجزة لا تترك مجالاً كبيرًا لسوء الفهم.
    • إضافة بعض الأمثلة إلى الطلب: استخدِم أمثلة واقعية قليلة اللقطات لتوضيح ما تريد تحقيقه.
    • تقسيم المهام إلى خطوات: قسِّم المهام المعقّدة إلى أهداف فرعية يسهل إدارتها، ووجِّه النموذج خلال العملية.
    • تحديد تنسيق الإخراج: في طلبك، اطلب أن يكون الإخراج بالتنسيق الذي تريده، مثل Markdown وJSON وHTML وغير ذلك.
    • وضع الصورة أولاً في الطلبات التي تتضمّن صورة واحدة: على الرغم من أنّ Gemini يمكنه التعامل مع مدخلات الصور والنصوص بأي ترتيب، قد يكون أداؤه أفضل في الطلبات التي تتضمّن صورة واحدة إذا تم وضع هذه الصورة (أو الفيديو) قبل طلب النص. ومع ذلك، بالنسبة إلى الطلبات التي تتطلّب أن تكون الصور متداخلة بشكل كبير مع النصوص لكي تكون مفهومة، استخدِم الترتيب الأكثر طبيعية.
  • تحديد المشاكل في الطلب المتعدّد الوسائط وحلّها

    • إذا كان النموذج لا يستمد المعلومات من الجزء ذي الصلة من الصورة: قدِّم تلميحات بشأن جوانب الصورة التي تريد أن يستمد منها الطلب المعلومات.
    • إذا كان الناتج الذي يقدّمه النموذج عامًا جدًا (أي لا يتناسب بشكل كافٍ مع الصورة أو الفيديو المُدخَل): في بداية الطلب، جرِّب أن تطلب من النموذج وصف الصور أو الفيديو قبل تقديم تعليمات المهمة، أو جرِّب أن تطلب من النموذج الإشارة إلى ما يظهر في الصورة.
    • لتحديد الجزء الذي تعذّر تنفيذه: اطلب من النموذج وصف الصورة أو شرح سبب عدم تنفيذ الطلب، وذلك لتقييم فهم النموذج الأولي.
    • إذا أدّى طلبك إلى ظهور محتوى من تأليف الذكاء الاصطناعي: جرِّب خفض إعداد درجة الحرارة أو اطلب من النموذج تقديم أوصاف أقصر لتقليل احتمال استقراء تفاصيل إضافية.
    • ضبط مَعلمات أخذ العينات: جرِّب إعدادات درجة الحرارة وخيارات top-k المختلفة لضبط مستوى الإبداع في النموذج.

كن محدّدًا في تعليماتك

تكون الطلبات أكثر فعاليةً عندما تكون واضحة ومفصّلة. إذا كان لديك ناتج محدّد في ذهنك، من الأفضل تضمين هذا الشرط في الطلب لضمان الحصول على الناتج المطلوب.

بالنسبة إلى صورة لوحة في المطار، قد يؤدي الطلب من النموذج "وصف هذه الصورة" إلى إنشاء وصف عام. إذا كنت بحاجة إلى أن يحلّل النموذج الوقت والمدينة من الصورة، يمكنك تضمين هذا الطلب مباشرةً في طلبك.

الطلب ردّ النموذج

صِف هذه الصورة.

تعرض الصورة لوحة مواعيد الوصول والمغادرة في المطار.

طلب معدَّل ردود محسّنة
الجدول الزمني للسفر

قسِّم الوقت والمدينة من لوحة المطار الظاهرة في هذه الصورة إلى قائمة.

  • ‫10:50 بتوقيت موسكو
  • ‫11:05 إدنبره
  • ‫11:05 لندن
  • ‫11:10 بوخارست
  • ‫11:30 صباحًا بتوقيت كييف
  • ‫11:35 دبلن
  • ‫11:45 شرق ميدلاندز
  • ‫12:15 صوفيا
  • ‫12:30 لندن
  • ‫12:30 نيوكاسل
  • ‫12:40 سانت بطرسبرغ
  • ‫12:40 لندن
  • ‫12:45 مانشستر
  • إضافة بعض الأمثلة

    يمكن لنموذج Gemini قبول مدخلات متعددة يمكنه استخدامها كأمثلة لفهم الناتج الذي تريده. يمكن أن يساعد إضافة هذه الأمثلة النموذج في التعرّف على الأنماط وتطبيق العلاقة بين الصور والردود المحدّدة على المثال الجديد. يُعرف ذلك أيضًا باسم التعلّم ببضع فُرَص.

    في المثال أدناه، تتم كتابة الناتج الأولي في شكل جملة، كما يتضمّن البلد (البرازيل). لنفترض أنّك تريد الإخراج بتنسيق أو نمط مختلفين، وأنّك تريد عرض المدينة فقط، وليس البلد. يمكن أن تؤدي إضافة أمثلة قليلة إلى طلبك إلى توجيه النموذج للرد بالطريقة التي تريدها.

    الطلب ردّ النموذج
    الجدول الزمني للسفر

    حدِّد المدينة والمعلم.

    المعلم البارز هو تمثال "المسيح الفادي" في ريو دي جانيرو، البرازيل.

    طلب معدَّل ردود محسّنة

    حدِّد المدينة والمعلم.

    كولوسيوم

    المدينة: روما، المعلم: الكولوسيوم

    المدينة المحرمة

    المدينة: بكين، المعلم: المدينة المحرّمة

    forbidden-city

    مدينة: ريو دي جانيرو، معلم: تمثال المسيح الفادي

    تقسيمها إلى خطوات

    بالنسبة إلى المهام المعقّدة، مثل تلك التي تتطلّب فهمًا بصريًا وتفكيرًا منطقيًا، قد يكون من المفيد تقسيم المهمة إلى خطوات أصغر وأكثر وضوحًا. يمكنك أيضًا أن تطلب من النموذج مباشرةً "التفكير خطوة بخطوة" في طلبك.

    الطلب ردّ النموذج

    متى ستنفد مناديل الحمّام؟

    سيتبقى لديك قريبًا 3 لفات فقط.

    طلب معدَّل ردود محسّنة

      1. أولاً، احسب عدد لفات ورق المرحاض في هذه الصورة.
      2. بعد ذلك، حدِّد كمية ورق المرحاض التي يستخدمها الشخص العادي يوميًا.
      ‫3. احسب المدة التي ستكفيك فيها لفات ورق المرحاض هذه.

      1. تتضمّن هذه الصورة 3 لفات من ورق المرحاض.
      2. يستخدم الشخص العادي حوالي 20 ورقة من ورق التواليت يوميًا.
      ‫3. إذا كانت كل لفة تحتوي على 200 ورقة، ستكفي كل لفة لمدة 10 أيام تقريبًا. وبالتالي، ستدوم اللفات الثلاث لمدة شهر تقريبًا.

    تُعدّ المسائل الرياضية أو الأنواع الأخرى من المسائل الكلامية خيارًا رائعًا لطلب من النموذج التفكير خطوة بخطوة.

    الطلب الرد

    ما هو الحد الرابع في المتسلسلة؟

    -135

    الردّ الذي قدّمه النموذج غير صحيح. يمكنك تحسين ذلك من خلال الطلب من النموذج تحليل المشكلة قبل الإجابة عن الطلب.

    الطلب الرد

    عليك أولاً تحليل الصيغة في الصورة.

    بعد ذلك، استنادًا إلى الصيغة، أجب عن السؤال "ما هو الحد الرابع في المتسلسلة؟".

    انقر لتوسيع النتيجة

    $$ b(n) = b(n-1) * (-3) $$

    $$ b(1) = 15 $$

    1. استبدِل قيمة n بـ 4 في الصيغة:
    2. $$ b(4) = b(4-1) * (-3) $$

      $$ b(4) = b(3) * (-3) $$

    3. لا نعرف قيمة b(3)، لذا نعوّض عن n = 3 في الصيغة:
    4. $$ b(3) = b(3-1) * (-3) $$

      $$ b(3) = b(2) * (-3) $$

    5. لا نعرف قيمة b(2)، لذا نعوّض عن n بالقيمة 2 في الصيغة:
    6. $$ b(2) = b(2-1) * (-3) $$

      $$ b(2) = b(1) * (-3) $$

    7. نعرف أنّ قيمة b(1) هي 15، لذا نعوّض بها في الصيغة:
    8. $$ b(2) = 15 * (-3) $$

      $$ b(2) = -45 $$

    9. بعد أن عرفنا قيمة b(2)، نعوّض بها في صيغة b(3):
    10. $$ b(3) = b(2) * (-3) $$

      $$ b(3) = -45 * (-3) $$

      $$ b(3) = 135 $$

    11. بعد أن عرفنا قيمة b(3)، نعوّض بها في صيغة b(4):
    12. $$ b(4) = b(3) * (-3) $$

      $$ b(4) = 135 * (-3) $$

      $$ b(4) = -405 $$

    وبالتالي، يكون الحد الرابع في المتسلسلة هو -405.

    ردّ النموذج هذا صحيح، ولكن لتبسيط الردّ أكثر، يمكنك أن تطلب من النموذج التفكير خطوة بخطوة.

    طلب معدَّل ردود محسّنة

    ما هو الحد الرابع في المتسلسلة؟ فكِّر خطوة بخطوة.

    الحدّ الأدنى هو 15.

    الحد الثاني هو b(1) * (-3) = 15 * (-3) = -45.

    الحد الثالث هو b(2) * (-3) = -45 * (-3) = 135.

    الحد الرابع هو b(3) * (-3) = 135 * (-3) = -405.

    تحديد تنسيق الإخراج

    تتمثل إحدى المشاكل الشائعة في الحاجة إلى أن يكون ناتج النموذج بتنسيق معيّن (مثل Markdown أو JSON أو HTML)، خاصةً إذا كان ناتج النموذج بحاجة إلى أن يتم استيعابه من خلال مهمة لاحقة. يمكنك محاولة إنشاء مخرجات بهذا التنسيق من خلال توجيه النموذج للقيام بذلك ضمن الطلب. في ما يلي مثالان:

    الطلب ردّ النموذج

    تحليل الجدول في هذه الصورة إلى تنسيق Markdown

    | الموضوع | الحالة | الوقت | تاريخ البدء | تاريخ الاستحقاق |

    | ------- | ------ | ---- | ---------- | ------ |

    | رياضيات | تم | 1.5 ساعة | 29/11/2023 | 1/12/2023 |

    | Geography | Done | 30 min | 12/2/2023 | 12/4/2023 |

    | الفيزياء | قيد التقدم | ساعتان | 3/12/2023 | 5/12/2023 |

    | علم الأحياء | لم يبدأ | 6 ساعات | 2/11/2016 | 6/12/2023 |

    الطلب ردّ النموذج

    قدِّم قائمة بجميع السمات التالية:

    المكوّنات ونوع المطبخ وما إذا كان الطعام نباتيًا أم لا، بتنسيق JSON

    ```json

    {

    "ingredients": [

    "rice",

    "shrimp",

    "clams",

    "mussels",

    "peas",

    "tomatoes",

    "onions",

    "garlic",

    "olive oil",

    "paprika",

    "salt",

    "pepper"

    ],

    "type of cuisine": "Spanish",

    "vegetarian": false

    }

    ```

    وضع صورتك أولاً في الطلبات التي تتضمّن صورة واحدة

    على الرغم من أنّ Gemini يمكنه تفسير الصور والنصوص بأي ترتيب ضمن الطلب، قد يؤدي وضع صورة واحدة قبل الطلب النصي إلى تحقيق نتائج أفضل. في الأمثلة التالية، ستلاحظ أنّ الصورة تأتي أولاً قبل النص في كل طلب.

    تحديد المشاكل في الطلب المتعدّد الوسائط وحلّها

    قد تحتاج إلى تحديد المشاكل في طلبك وحلّها إذا لم تحصل على ردّ مفيد. في ما يلي بعض الاستراتيجيات التي يمكنك تجربتها.

    إذا كان النموذج لا يستمد المعلومات من الجزء ذي الصلة من الصورة

    للحصول على رد أكثر تحديدًا، يمكنك الإشارة إلى الجوانب التي تريد أن يستند إليها الطلب في استخلاص المعلومات لتقديم الرد.

    الطلب ردّ النموذج

    كم عدد الأيام التي ستكفي فيها هذه الحفاضات طفلاً؟

    ستكفي الحفاضات لمدة 198 يومًا قبل أن تنتهي.

    طلب معدَّل ردود محسّنة

    كم ستدوم هذه الحفاضات قبل أن تنتهي؟

    استخدِم الوزن الموضّح على العبوة لتحديد عمر الطفل، واستخدِم إجمالي عدد الحفاضات في العبوة.

    قسِّم العدد الإجمالي على عدد الحفاضات التي يستخدمها الطفل في اليوم الواحد.

    يحتوي الصندوق على 198 حفاضة. يذكر الصندوق أنّ الحفاضات مخصّصة لطفل يزن 22 إلى 37 رطلاً.

    من المرجّح أنّ متوسط عمر الطفل في هذا النطاق من الوزن يتراوح بين سنة واحدة وسنتين.

    يستخدم الطفل البالغ من العمر عامَين عادةً 6 حفاضات في اليوم، وبالتالي ستدوم الحفاضات لمدة 33 يومًا تقريبًا (198/6).

    إذا كان الناتج الذي يقدّمه النموذج عامًا جدًا وغير مخصّص بشكلٍ كافٍ للصورة المُدخَلة

    لمساعدة النموذج في تخصيص رده وفقًا للصور، جرِّب أن تطلب منه وصف الصور قبل تنفيذ مهمة الاستنتاج.

    الطلب ردّ النموذج

    ما هو الشيء المشترك بين هذه الصور؟

    جميع الصور الأربع هي أمثلة على التصوير الفوتوغرافي للمناظر الطبيعية.

    طلب معدَّل ردود محسّنة

    ابدأ بوصف محتوى كل صورة بالتفصيل. ما هو الشيء المشترك بين هذه الصور؟

    تعرض الصورة الأولى شخصًا يحزم حقيبة سفر. تعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق. تعرض الصورة الثالثة لفة ورق حمام. تعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا.

    القاسم المشترك بين هذه الصور هو أنّها كلها أمثلة على المساحات الحدّية. المساحات الحدّية هي أماكن أو مواقف تقع بين مكانَين أو موقفَين آخرَين. وغالبًا ما تتميّز هذه الألعاب بإحساس بعدم اليقين أو الغموض.

    تعرض الصورة الأولى الشخص في مرحلة انتقالية بين المنزل والرحلة. تعرض الصورة الثانية الممر بين متجرَين. الصورة الثالثة هي لورق حمام، ما قد يمثّل حمامًا. الحمّام هو مساحة انتقالية بين المساحات الخاصة والعامة. وهو مكان نجهّز فيه أنفسنا للدخول إلى العالم الخارجي أو مغادرته.

    تعرض الصورة الرابعة البحر في حالة بين الهدوء والعاصفة.

    يمكن أن تكون المساحات الحدّية مثيرة ومزعجة في الوقت نفسه. يمكن أن تكون مكانًا لبداية جديدة أو مكانًا للنهايات. ويمكن أن تكون مكانًا للتفكير أو مكانًا للعمل.

    يمكنك أيضًا محاولة الطلب من النموذج بشكل صريح الإشارة إلى ما يظهر في الصورة.

    طلب معدَّل ردود محسّنة

    ما هو الشيء المشترك بين هذه الصور؟ يجب أن يشير ردّك إلى محتوى الصور.

    جميع الصور مرتبطة بالسفر. تعرض الصورة الأولى شخصًا يحزم حقيبة، وتعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وتعرض الصورة الثالثة رزمة من ورق المرحاض، وتعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا.

    جميع هذه الصور مرتبطة بالسفر لأنّها تتضمّن أشياء يحتاجها الأشخاص أو يستخدمونها عند السفر. تعرض الصورة الأولى شخصًا يحزم حقيبة سفر، وهو ما يفعله الأشخاص عندما يخططون للسفر. تعرض الصورة الثانية ممرًا فارغًا في مركز تسوّق، وهو مكان يرتاده الأشخاص غالبًا لشراء مستلزمات رحلاتهم. تعرض الصورة الثالثة حزمة من ورق المرحاض، وهو منتج يستخدمه الأشخاص غالبًا أثناء السفر. تعرض الصورة الرابعة بحرًا مظلمًا وعاصفًا، وهو مشهد يواجهه الناس غالبًا أثناء السفر.

    تنطبق النصائح نفسها على المحتوى الإبداعي الناتج من الصور. في المثال التالي الذي يتضمّن أرنبًا، يمكن أن يؤدي الطلب من النموذج بشكل صريح تضمين جوانب من الصورة إلى تحسين الناتج.

    الطلب ردّ النموذج

    هل يمكنك كتابة قصيدة عن هذه الصورة؟

    أرنب صغير، ناعم وبني،
    يقفز في الحقل، صعودًا وهبوطًا.
    Your ears so long, your tail so small,
    You're the cutest creature of them all.

    تأكل العشب الأخضر الحلو
    وتقفز بعيدًا عندما تراني.
    سأبقى صديقك دائمًا،
    يا أرنبي الصغير، حتى النهاية.

    طلب معدَّل ردود محسّنة

    هل يمكنك كتابة قصيدة وصفية مؤثرة عن هذه الصورة وتضمين الموقع الجغرافي؟

    أرنب صغير على العشب الأخضر،
    أذناه طويلتان وحادتان.
    ماذا ترى هناك،
    في الأفق، حيث تحدّق؟

    هل هو أزرق المحيط
    يتلألأ في ضوء الشمس؟
    أم الأمواج التي تتلاطم وتزمجر،
    إيقاعًا تعشقه؟

    أرنب صغير، أخبرني الحقيقة،
    ما الذي يلفت انتباهك إلى هذا الحد؟
    هل هو النسيم المالح،
    أم صرخات النورس التي تسعد؟

    ربما بسبب اتساع كل شيء،
    عالم كبير وصغير في الوقت نفسه
    مكان تتجوّل فيه الأحلام،
    وتُزرع فيه المغامرات.

    أريد أن أعرف ما تحلم به
    وأنت جالس على العشب، هادئًا وساكنًا.
    هل تتوق إلى استكشاف الأعماق،
    أم تفضّل البقاء على اليابسة حيث يمكنك القفز؟

    مهما كان الأمر، أيها الأرنب الصغير،
    حافظ على شرارة الدهشة متوهجة.
    ففي أحلامك وتطلّعاتك،
    يختبئ عالم ينتظر أن تصنعه.

    تحديد الجزء الذي تعذّر تنفيذه من الطلب وحلّ المشكلة

    قد يصعب معرفة ما إذا كان الطلب قد فشل لأنّ النموذج لم يفهم الصورة في البداية، أو لأنّه فهم الصورة ولكنّه لم ينفّذ خطوات الاستنتاج الصحيحة بعد ذلك. للتفريق بين هذه الأسباب، اطلب من النموذج وصف محتوى الصورة.

    في المثال التالي، إذا ردّ النموذج بوجبة خفيفة تبدو غير متوقعة عند تناولها مع الشاي (مثل الفشار)، يمكنك أولاً تحديد المشكلة لمعرفة ما إذا كان النموذج قد تعرّف بشكل صحيح على أنّ الصورة تحتوي على شاي.

    الطلب طلب تحديد المشاكل وحلّها

    ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة والتي تتناسب مع هذا؟

    صِف محتوى هذه الصورة.

    هناك استراتيجية أخرى تتمثل في مطالبة النموذج بتوضيح أسباب استنتاجاته. يمكن أن يساعدك ذلك في تحديد الجزء الذي حدث فيه خطأ في الاستنتاج، إن وُجد.

    الطلب طلب تحديد المشاكل وحلّها

    ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة والتي تتناسب مع هذا؟

    ما هي الوجبة الخفيفة التي يمكنني إعدادها في دقيقة واحدة والتي تتناسب مع هذا؟ يُرجى توضيح السبب.

    الخطوات التالية

    • يمكنك تجربة كتابة موجّهات أوامر متعددة الوسائط باستخدام Google AI Studio.
    • للحصول على معلومات حول استخدام Gemini Files API لتحميل ملفات الوسائط وتضمينها في طلباتك، راجِع أدلة الرؤية والصوت ومعالجة المستندات.
    • للحصول على مزيد من الإرشادات حول تصميم الطلبات، مثل ضبط مَعلمات أخذ العيّنات، يمكنك الاطّلاع على صفحة استراتيجيات الطلبات.