研究目的
开发一个支持语音的视觉问答(VQA)应用程序,通过整合图像处理和自然语言处理技术,帮助视障人士识别物体并感知周围场景。
研究成果
开发的视觉问答模型总体准确率达到57.45%,通过语音回答视障人士关于周围环境的问题,有效提供辅助。该应用还具有提升儿童认知能力的潜在用途。未来改进可着重提高准确率、缩短响应时间,并增加近距离传感器等功能以实现更优的环境引导。
研究不足
该模型的准确率达到57%,表明在答案准确性和可信度方面仍有提升空间。应用程序的响应时间也可进一步优化,以实现更好的实时功能。