Android Studio集成Gemini新增多模态功能，开发者可上传图像获取UI代码 - AI文章

作者：Eve Cole 更新时间：2025-05-20 09:50:02

谷歌近日宣布，Android Studio中的Gemini助手已升级支持多模态输入功能，这一创新举措为开发者带来了全新的开发体验。现在，开发者可以直接将图像附加到提示中，从而在应用程序开发过程中获得视觉辅助。这一功能的引入，标志着开发工具在智能化方向上的又一重要突破。

这项多模态功能最初在I/O 2024大会上亮相，升级后的Gemini现能够"理解简单的线框，并将其转换为可用的Jetpack Compose代码"。在Android Studio Narwal的Canary版本中，Ask Gemini字段新增了"附加图像文件"（支持JPEG或PNG格式）选项。谷歌建议用户使用具有"强烈色彩对比"的图像并提供"清晰的提示"以获得最佳效果。

开发者可以上传从简单线框到高保真模型的各类屏幕截图和用户界面，并能指定预期功能。例如，在计算器设计示例中，可以要求"使交互和计算按预期工作"。这种灵活性使得Gemini成为开发者的得力助手，极大地提升了开发效率。

将视觉设计转化为功能性UI代码的典型提示包括:1."针对所提供的此图像，编写Android Jetpack Compose代码以制作尽可能接近此图像的屏幕。确保包含导入、使用Material3并记录代码。"2."对于提供的这张图片，编写Android Jetpack Compose代码以制作尽可能接近此图片的屏幕，在颜色上发挥创意。使交互和计算按预期进行。确保包含导入、使用Material3并记录代码。"这些提示为开发者提供了明确的指导，帮助他们快速实现设计到代码的转换。

谷歌将Gemini定位为提供"初始设计框架"的工具，生成的代码通常需要进一步编辑和调整。常见的改进包括确保正确导入可绘制对象和图标。谷歌建议将生成的代码视为高效起点，从而加速UI开发工作流程。这种定位使得Gemini不仅是一个工具，更是一个开发流程的优化器。

此外，Gemini的视觉分析功能还可用于识别和解决错误，开发者可以"上传有问题的UI的屏幕截图，Gemini将分析该图像并提出潜在的解决方案"。开发者还可以附加相关代码片段以获得更精确的帮助。这一功能为开发者提供了强大的问题解决能力，使得开发过程更加顺畅。

Android Studio中的Gemini还支持上传架构图并获取解释或文档，类似于此前在I/O大会上展示的Gemini Astra眼镜功能。这一功能的引入，使得Gemini在开发工具中的地位更加重要，为开发者提供了全方位的支持。