介绍
苹果风格的AI计算器是一个高级项目,旨在使用最先进的技术解决数学问题。通过通过OPENCV和通过Google的Google的Gemini AI来利用计算机视觉,该计算器允许用户直接在屏幕上绘制数学表达式。 AI模型将这些视觉输入解释以提供准确详细的解决方案,从而使复杂的计算直观且易于访问。受Apple iPad计算器功能的启发,该项目通过精致的AI功能增强了用户体验,提供了精确和易用性。
目录
关键技术和技能
安装
要运行此项目,您需要安装以下软件包:
pip install opencv - python
pip install pillow
pip install mediapipe
pip install google - generativeai
pip install numpy
pip install streamlit
pip install streamlit_extras用法
要使用此项目,请执行以下步骤:
git clone https://github.com/gopiashokan/Apple-Inspired-AI-Calculator.gitpip install -r requirements.txt.env文件中。streamlit run app.pyhttp://localhost:8501在浏览器中访问该应用程序特征
网络摄像头初始化:利用OPENCV来初始化和访问网络摄像头,从而可以连续捕获实时视频提要。此设置可确保与用户输入的实时互动。
图像框架处理:以默认BGR格式捕获每个图像框架,并应用基本的预处理步骤。这包括调整均匀性的大小,翻转以正确方向以及转换为RGB格式以与AI模型的输入要求保持一致。
手势检测:利用MediaPipe实时识别和跟踪手势。该库可以精确检测手部地标,使系统可以解释各种手指的运动和位置。
具有里程碑意义的可视化和提取:在检测到的手上绘制地标,并提取每个地标的原点坐标。这些坐标对于准确识别手势至关重要,这反过来又控制应用程序中的不同功能。
帆布管理:建立一个专用的绘图画布,覆盖了实时视频供稿。该画布允许用户直接将数学问题直接绘制到屏幕上,从而提供无缝互动的体验。
图像混合:通过混合两个图像将绘制的内容与实时视频提要集成在一起。此过程确保用户的图纸准确地显示在实时饲料顶部,并保持清晰且具有凝聚力的视觉呈现。
API设置和模型初始化:通过将其集成到有效的API密钥来配置Google Generative AI库。初始化Gemini 1.5 Flash模型,将其设置为处理并分析图纸中的输入数据。
解决方案生成:将处理的图像以及输入提示发送到AI模型。它为所描绘的数学问题生成详细的解决方案,根据视觉输入提供准确而全面的结果。
交互式界面:使用Sleatlit开发,此应用程序提供了用户友好且交互式界面。它无缝地集成了所有项目的功能,使用户可以轻松地与AI计算器进行交互,并执行诸如绘图,手势控制和查看解决方案之类的任务。
实时互动:简化应用程序提供了实时反馈和更新,以确保用户可以立即查看其图纸和结果。这个动态接口增强了整体用户体验,使使用AI驱动计算器的直观和高效。
?项目演示视频:https://youtu.be/hxfbblopn6i
贡献
欢迎对该项目的贡献!如果您遇到任何问题或提出改进建议,请随时提交拉动请求。
执照
该项目已根据MIT许可获得许可。请查看许可证文件以获取更多详细信息。
接触
?电子邮件:[email protected]
LinkedIn:LinkedIn.com/in/gopiashokan
对于任何其他问题或查询,请随时接触。我们很乐意为您提供任何查询。